Microsoft разрабатывает модель искусственного интеллекта с 500 миллиардами параметров

07.05.2024

По сообщению издания The Information, корпорация Microsoft разрабатывает большую языковую модель, содержащую около 500 миллиардов параметров. Внутри компании новая языковая модель будет называться MAI-1, а ее дебют состоится уже в этом месяце.

В середине 2020 года компания OpenAI представила свою языковую модель GPT-3, которая содержала около 175 миллиардов параметров. Предположительно флагманская модель GPT-4 от OpenAI содержит 1,76 триллиона параметров (сама компания не раскрывает эти данные). В то же время большая языковая модель Gemini Ultra от Google, производительность которой сравнима с GPT-4, содержит около 1,6 триллиона параметров.

Тот факт, что MAI-1 от Microsoft содержит 500 миллиардов параметров, позволяет предположить, что эту модель можно позиционировать как своего рода средний вариант между GPT-3 и ChatGPT-4. Такая конфигурация позволит модели обеспечить высокую точность, но потреблять значительно меньше энергии. Это привело бы к снижению затрат на логический вывод для Microsoft.

По данным The Information, разработку MAI-1 курирует Мустафа Сулейман, основатель Inflection AI Inc - компании-разработчика больших языковых моделей. Сулейман присоединился к Microsoft в марте этого года вместе с большинством своих сотрудников после продажи стартапа, предположительно, за 625 миллионов долларов. Ранее этот руководитель был соучредителем исследовательской группы DeepMind AI компании Google.

Microsoft может использовать данные обучения и некоторые другие ресурсы из Inflection AI для поддержки MAI-1. Сообщается, что набор обучающих данных модели также включает в себя различные типы информации, в том числе текст, сгенерированный GPT-4, и веб-контент. Microsoft осуществляет процесс разработки, используя «большой кластер серверов», оснащенный видеокартами корпорации Nvidia.

Источники отметили, что компания пока не определилась, как будет использовать MAI-1. Если модель действительно содержит 500 миллиардов параметров, ее слишком сложно запустить на потребительских устройствах. Это означает, что Microsoft, скорее всего, развернет MAI-1 в своих центрах обработки данных, где модель можно будет интегрировать в такие сервисы, как Bing и Azure.

Новость о том, что Microsoft разрабатывает MAI-1, появилась менее чем через две недели после того, как компания открыла исходный код языковой модели, получившей название Pi-3 Mini. Последняя имеет 3,8 миллиарда параметров и может превосходить до 10 раз более крупные языковые модели. Pi-3 является частью серии моделей ИИ, которая также включает в себя две другие, более крупные нейронные сети с немного лучшей производительностью.

Если модель MAI-1 покажет себя достаточно многообещающей, то Microsoft может представить её на конференции разработчиков Build, которая стартует 16 мая.

Источник: