Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Клиенты Nvidia обеспокоены проблемой с перегревом графических процессоров Blackwell

Рубрики: «Искусственный интеллект (AI)», «Полупроводники и микросхемы»

В опубликованном отчете The Information говорится, что клиенты выразили серьезную обеспокоенность по поводу данной проблемы, опасаясь, что это повлияет на их планы по созданию новой инфраструктуры центров обработки данных для искусственного интеллекта. Оказалось, что графические процессоры Blackwell перегреваются при совместном подключении в серверных стойках центра обработки данных, рассчитанных на одновременное размещение до 72 чипов.

The Information со ссылкой на источники, знакомые с проблемой, сообщает, что когда чипы интегрируются в серверные стойки Nvidia, они выделяют избыточное тепло, которое может привести к неэффективной работе или даже повреждению оборудования. Сообщается, что Nvidia несколько раз просила своих поставщиков изменить конструкцию стоек, чтобы попытаться решить проблемы перегрева, но безуспешно. В ответ на этот отчет Nvidia попыталась преуменьшить масштаб проблемы.

«Nvidia работает с ведущими поставщиками облачных услуг как с неотъемлемой частью нашей инженерной команды и процесса», — заявил сегодня представитель компании агентству Reuters. «Инженерные итерации — это нормально и ожидаемо».

Nvidia впервые анонсировала процессоры Blackwell в марте этого года, как преемника чрезвычайно успешных графических процессоров H100, которые сегодня используются для управления большинством приложений ИИ в мире. Говорят, что они обеспечивают повышение производительности в 30 раз по сравнению с чипами H100 при одновременном снижении энергопотребления до 25%.

Одним из ключевых нововведений Blackwell является объединение двух кремниевых блоков, каждый размером с чип H100 компании, в единый компонент. Это важнейшее усовершенствование, которое позволяет чипу намного быстрее обрабатывать рабочие нагрузки искусственного интеллекта и обеспечивать более быструю обработку данных. Сообщается, что первоначальная проблема была связана с кристаллом процессора, который соединяет эти два кремниевых блока, но генеральный директор Nvidia Дженсен Хуан заявил в прошлом месяце, что проблема была решена при содействии его производственного партнера - компании Taiwan Semiconductor Manufacturing Co.

Пока не ясно, повлияют ли новые проблемы с перегревом на новую дату запуска Blackwell, намеченную на начало следующего года, но у Nvidia есть все основания для того, чтобы сделать продукт вовремя. Стоимость суперчипов GB200 Grace Blackwell составляет до 70'000 долларов за штуку, в то время как стоимость серверной стойки в сборе превышает 3 миллиона долларов. Ранее Nvidia заявляла, что надеется продать около 60 000–70 000 полных серверов, поэтому любые дальнейшие задержки могут обойтись компании очень дорого. Nvidia она стала одной из самых дорогих публичных компаний в мире благодаря своему доминированию в области искусственного интеллекта.

Источник: