Китайская компания DeepSeek привлекла 7,4 млрд долларов инвестиций
Издания The Information и Wall Street Journal со ссылкой на источники сообщили, что стоимость компании сейчас превышает 50 миллиардов долларов. По имеющимся данным, это делает ее самым дорогим китайским стартапом в сфере искусственного интеллекта.
Основатель и генеральный директор DeepSeek Лян Вэньфэн вложил в раунд финансирования 3 миллиарда долларов. Ранее в этом месяце агентство Reuters сообщило, что Tencent Holdings Ltd рассматривает возможность инвестирования в DeepSeek около 1,48 миллиарда долларов. Сообщается, что большинство участников раунда внесли капитал в товарищество с ограниченной ответственностью, управляемое Ляном.
DeepSeek, официально Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co. Ltd., является дочерней компанией хедж-фонда High-Flyer. Лаборатория искусственного интеллекта получила известность в январе 2025 года, когда открыла исходный код продвинутой модели рассуждений, известной как R1. Её запуск вызвал масштабную распродажу акций производителей микросхем, что на тот момент ненадолго снизило рыночную капитализацию корпорации Nvidia на 15%.
R1 практически соответствует качеству выходных данных модели логического мышления o1, выпущенной компанией OpenAI в декабре 2024 года. Более того, модель DeepSeek может выполнять вывод, используя значительно меньше оборудования. Запуск модели оказал давление на акции компаний, занимающихся производством микросхем, поскольку инвесторы опасались, что её аппаратная эффективность может снизить потребность в ускорителях ИИ.
В апреле DeepSeek выпустила преемника модели R1 под названием DeepSeek-V4-Pro. Новая модель включает 1,6 триллиона параметров, что более чем в два раза превышает количество параметров у модели-предшественника. Новая модель использует архитектуру, основанную на сочетании экспертов, которая при ответе на запросы активирует только 284 миллиарда параметров. DeepSeek обучила модель на наборе данных, содержащем более 32 триллионов токенов.
Для выполнения логического вывода нейронные сети используют структуру данных, называемую KV-кэшем (кэшем ключ-значение). Модель V4-Pro может обрабатывать запросы, содержащие 1 миллион токенов, с помощью KV-кэша, размер которого в 10 раз меньше, чем у DeepSeek-V3.2, более ранней модели DeepSeek. В результате значительно сокращается использование памяти, что снижает затраты на вывод.
Экономическая эффективность алгоритмов DeepSeek привлекла внимание корпорации Microsoft. Стало известно, что технологический гигант может интегрировать модифицированную модель DeepSeek в свое приложение Cowork Copilot, которое теперь доступно для всех пользователей. Цель состоит в том, чтобы предложить более дешевую альтернативу алгоритмам OpenAI и Anthropic Group, которые в настоящее время используются в программном обеспечении Microsoft.
Также Microsoft планирует использовать доработанную версию DeepSeek V4 или другую модель с открытым исходным кодом. Доработка — это процесс, в ходе которого разработчики адаптируют ИИ к конкретной рабочей нагрузке, что повышает качество и скорость его работы. Ожидается, что Microsoft выпустит модифицированную модель в ближайшие недели.



