Nvidia и Google заняли первые места в конкурсе по машинному обучению MLPerf Training
MLPerf — это инструмент сравнительной оценки, который был собран разнообразной группой из разных отраслей, включая Google, Baidu, Intel, AMD, Harvard и Stanford и т. д., для измерения скорости и производительности программного обеспечения и оборудования машинного обучения. MLPerf Training— это бенчмарк для обучения, который состоит из восьми разных тестов для множества сценариев, в том числе для задач зрения, обработки языка, рекомендательных систем и обучения с подкреплением
MLPerf Training проводится ассоциацией MLCommons Association, отраслевой группой, которая разрабатывает инструменты искусственного интеллекта с открытым исходным кодом. Участники конкурса проверяют, насколько быстро они могут обучить серию нейронных сетей для выполнения различных вычислительных задач. Цель состоит в том, чтобы завершить процесс обучения как можно быстрее и в соответствии с определенными техническими критериями, установленными ассоциацией MLCommons.
В этом году конкурс состоял из восьми тестов. Каждый тест включал обучение отдельной нейронной сети с использованием наборов обучающих данных с открытым исходным кодом, указанных ассоциацией MLCommons. Nvidia добилась наибольшей производительности в четырех тестах, а Google выиграл остальные четыре.
Nvidia провела обучение искусственному интеллекту, используя собственный суперкомпьютер Selene, который основан на графической карте A100, созданной для центра обработки данных компании. Суперкомпьютер также включает в себя процессоры Advanced Micro Devices Inc. При выполнении рабочих нагрузок ИИ Selene может обеспечить максимальную производительность почти в 2,8 экзафлопса, при этом 1 экзафлопс эквивалентен 1 миллиону триллионов вычислительных операций в секунду.
Четыре теста MLPerf Training, в которых Selene добилась наибольшей производительности, охватывают четыре варианта использования ИИ:
- сегментация изображений,
- распознавание речи,
- рекомендательные системы
- обучение с подкреплением.
Тест обучения с подкреплением включал обучение нейронной сети игре в го.
«За два года, прошедшие с момента нашего первого представления MLPerf с A100, наша платформа обеспечила в 6 раз большую производительность», - написал сегодня в блоге Шар Нарасимхан, старший менеджер по маркетингу продуктов Nvidia. «С момента появления MLPerf платформа искусственного интеллекта Nvidia за 3,5 года показала в 23 раза большую производительность по сравнению с эталонными показателями — результат комплексных инноваций, охватывающих графические процессоры, программное обеспечение и масштабные улучшения».
Google, в свою очередь, добился наибольшей производительности в четырех тестах MLPerf Training, которые были сосредоточены на:
- распознавании изображений,
- классификации изображений,
- обнаружении объектов
- обработке естественного языка.
Тест обработки естественного языка включал обучение нейронной сети под названием BERT. Разработанная инженерами Google, BERT является одной из самых распространенных нейронных сетей в своей категории, а также помогает в работе поисковой системы компании.
Google провела обучение ИИ, используя кластер блоков TPU - аппаратных систем собственной разработки, оптимизированных для машинного обучения. Системы основаны на собственном чипе поискового гиганта Cloud TPU v4. По данным Google, его кластер TPU Pod обеспечивает максимальную совокупную производительность до 9 экзафлопс.
«Каждый модуль Cloud TPU v4 Pod состоит из 4096 чипов, соединенных вместе с помощью сверхбыстрой сети межсоединений», - рассказали главный инженер Google Навин Кумар и Викрам Касиваджула, директор компании по управлению продуктами для инфраструктуры машинного обучения. «Чип TPU v4 обеспечивает в 3 раза больше пиковых флопов на ватт по сравнению с поколением v3”»