OpenAI инвестирует 78 млн долларов в стартап по обучению иностранным языкам с помощью ИИ
К финансированию присоединились OpenAI Startup Fund, Khosla Ventures, Y Combinator и другие спонсоры. Сейчас компания Speak оценивается в 1 млрд долларов.
«В этом году пользователи уже произнесли с помощью Speak более миллиарда предложений», — рассказал в своем блоге соучредитель и генеральный директор Speak Коннор Цвик. «А в 2025 году мы планируем представить Speak во многих, многих других странах».
Одноименное мобильное приложение Speak позволяет пользователям изучать английский язык, разговаривая голосом с искусственным интеллектом. Программное обеспечение анализирует ответы пользователя и предоставляет лингвистическую обратную связь. По данным Speak, этот подход позволяет зарегистрированным пользователям практиковать более 1100 фраз в неделю.
Компания также предлагает корпоративную версию своего приложения «Speak for Business», которая предоставляет дополнительные функции. Существуют языковые курсы, рассчитанные на пользователей с разным уровнем владения языком. Приложение также позволяет практиковать определенные деловые разговоры, например, обсуждения с поставщиками и клиентами.
Несколько недель назад было запущено одно из последних дополнений к набору функций Speak под названием «Live Roleplays». Оно автоматически корректирует шаблоны предложений и словарный запас голосового искусственного интеллекта на основе уровня владения языком пользователя. Кроме того, чтобы процесс обучения протекал гладко, функция отображает цели обучения и языковые подсказки.
Сервис Live Roleplays работает на основе интерфейса прикладного программирования Realtime API от OpenAI. Он позволяет приложениям обрабатывать голосовой ввод от пользователей и генерировать ответы с использованием модели GPT-4o. Это должно сократить задержку ответа за счет пропуска нескольких шагов, обычно связанных с обработкой звука.
Незадолго до выпуска Live Roleplays компания Speak обновила в приложении движок распознавания речи до «Conformer-CTC» - модели распознавания речи, представленной исследователями Google в 2020 году. Conformer-CTC сочетает архитектуру Transformer, которая лежит в основе большинства крупных языковых моделей, со «сверточной» нейронной сетью, которая представляет собой тип искусственного интеллекта, обычно используемый для задач компьютерного зрения. По словам разработчиков, модель Conformer-CTC может обрабатывать речь более точно, чем алгоритмы, основанные исключительно на архитектуре Transformer
Когда компания Speak внедрила в свой движок распознавания речи Conformer-CTC, она подробно описала планы по дальнейшей разработке пользовательских больших языковых моделей. Создание таких моделей может повлечь за собой значительные расходы. Объявленный раунд финансирования в размере 78 миллионов долларов может облегчить компании задачу по уравновешиванию этих расходов инвестициями в рост.
Помимо изучения английского, Speak планирует добавить поддержку большего количества языков. В следующем году компания начнет с испанского и французского. Кроме того, Speak работает над функциями, которые позволят приложению более точно определять уровень владения языком пользователей.