Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Google использует ИИ для добавления 110 новых языков в приложение Translate

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект»

Это крупнейшее расширение Google Translate с 2022 года, когда компания добавила в приложение 24 новых языка, используя «машинный перевод с нуля» (языковая модель учится переводить язык, даже не видя примеров).

Компания использовала PaLM 2 - большую языковую модель искусственного интеллекта на основе трансформера. Впервые языковая модель PaLM 2 была использована Google в чат-боте Bard, который позднее превратился в Gemini. В отличие от Gemini, PaLM 2 обучалась на Pathways - обширном наборе данных о человеческом языке, содержащем более 1,56 триллиона слов и 250 миллиардов параметров.

Учитывая такой размер набора данных, модель PaLM 2 может достичь беспрецедентной беглости работы с письменными текстами и продемонстрировала впечатляющую способность выполнять лингвистические задачи во время тестирования, включая понимание идиоматических фраз. Однако, в отличие от Gemini, PaLM 2 не может понимать или генерировать изображения, или работать с аудио.

Хотя выбор языков был непростой задачей, в итоге Google выбрала 110 языков, некоторые из которых находятся на грани исчезновения.  

«На этих новых языках, от кантонского диалекта до экчи, говорят более 614 миллионов человек, что открывает возможности перевода примерно восьми процентам населения мира», - сказал Айзек Касвелл, старший инженер-программист Google Translate. «Некоторые из них являются основными языками мира, на которых говорят более 100 миллионов человек. На других говорят небольшие общины коренных народов, а в некоторых почти нет носителей языка, но они активно возрождаются».

Добавление в прилолжение кантонского диалекта было одним из самых востребованных, поскольку этот язык часто пересекается с китайским мандаринским письмом, и для обучения моделей ИИ довольно сложно найти данные. В этот набор также был добавлен мэнский язык, кельтский язык с острова Мэн в Ирландском море, который почти исчез со смертью последнего носителя языка в 1974 году. С тех пор язык возродился по всему острову и теперь на нем говорят тысячи людей.

PaLM 2 особенно полезен для обучения переводу тесно связанных друг с другом языков, например, языков, похожих на хинди, таких как авадхи и марвади. Точно так же способность к обучению сделала модель более эффективной для французских креолов, таких как сейшельский креол и маврикийский креол.

«Около четверти новых языков происходит из Африки, что представляет собой наше самое большое расширение африканских языков на сегодняшний день, включая фон, киконго, луо, га, свати, венда и волоф», — заявил Касвелл.

Поскольку во всем мире говорят на более чем 7000 языках, Google предстоит пройти долгий путь, чтобы включить большинство из них в приложение Translate.

«Компания продолжит работать с носителями языка и экспертами-лингвистами в рамках своего обязательства по внедрению на платформу еще большего количества языков», - добавил Касвелл.

Источник: