Выпуск новой модели DeepSeek задерживается из-за ограничений США на экспорт графических процессоров
DeepSeek уже несколько месяцев работает над новой моделью искусственного интеллекта R2, но генеральный директор Лян Вэнфэн пока не удовлетворен результатами. Компания не может улучшить возможности модели, учитывая ограниченное количество имеющихся в распоряжении DeepSeek графических процессоров.
Компания DeepSeek стала известна в начале этого года, когда дебютировала со своей оригинальной моделью рассуждений R1. Она оказалась более чем достойной самых передовых моделей, разработанных американскими компаниями, несмотря на свою небольшую стоимость. DeepSeek обучала R1 на кластере из 50’000 графических процессоров Hopper, в который входило около 10’000 графических процессоров H100, 10'000 графических процессоров H800 и около 30'000 менее мощных графических процессоров H20, специально разработанных для китайского рынка.
Китайские компании никогда не могли легально купить графические процессоры H100 или H800. Считается, что некоторые из них были тайно поставлены DeepSeek ее инвестором - компанией High-Flyer Capital Management, а другие были закуплены через подставные компании, имеющие доступ к инфраструктурным услугам публичного облака. Графические процессоры H20 были получены легально, но с тех пор их стало трудно найти из-за новых санкций правительства США, запрещающих экспорт этих процессоров в Китай.
Часть проблемы заключается в том, что многие графические процессоры H20 в Китае уже используются клиентами DeepSeek. Модель R1 широко принята китайскими компаниями и государственными учреждениями, и большинство из них запускают ее на графических процессорах H20 в облаке. Таким образом, у DeepSeek больше нет доступных мощностей для обучения своей последней модели.
Нехватка графических процессоров H20, по-видимому, уже вызывает проблемы с моделью R1, ограничивая её использование китайскими фирмами. Если модель R2 значительно превзойдет возможности R1, то спрос на неё превысит возможности китайских поставщиков облачной инфраструктуры.
«Если эти сообщения верны, то это может стать серьезным препятствием для DeepSeek, так как если компания не будет регулярно обновлять свои модели, то они не будут такими точными, как модели конкурентов», — сказал Хольгер Мюллер из Constellation Research Inc. «Но не стоит пока списывать DeepSeek со счетов, поскольку компания уже демонстрировала удивительную инженерную изобретательность и может сделать это снова».
Хотя на Китайском рынке есть местные альтернативы, такие как чипсет Ascend 910B от Huawei Technologies Co., однако они все еще менее производительны, чем H20, и не поддерживают программный стек CUDA от Nvidia — архитектуру программирования, которая используется для оптимизации приложений и моделей ИИ для работы на графических процессорах Nvidia. Считается, что практически все китайские разработчики ИИ используют программное обеспечение CUDA. Модели DeepSeek R1 и R2 также оптимизированы для чипов Nvidia, и невозможность доступа к ним может стать серьезным препятствием на пути компании к тому, чтобы не отставать от своих конкурентов из США.