Модель китайского стартапа DeepSeek в области ИИ превосходит в задачах рассуждения модель o1 от OpenAI

21.11.2024

Китайский стартап в области искусственного интеллекта DeepSeek представил новую модель «рассуждений», которая, весьма выгодно отличается от большой языковой модели OpenAI o1, предназначенной для более точных ответов на вопросы по математике и естественным наукам, чем традиционные языковые модели.

Стартап, являющийся ответвлением хедж-фонда High-Flyer Capital Management, сообщил о запуске предварительной версии своей первой модели рассуждений DeepSeek-R1.

Модели рассуждений отличаются от стандартных больших языковых моделей благодаря своей способности «проверять в ответах факты». Для этого они обычно тратят гораздо больше времени на обдумывание того, как им следует реагировать на запрос, что позволяет им обходить такие проблемы, как «галлюцинации», которые часто встречаются в чат-ботах, типа ChatGPT.

Когда компания OpenAI выпустила в сентябре модель o1, она заявила, что данная модель гораздо лучше справляется с вопросами, требующими навыков рассуждения. Это связано с тем, что модель o1 опирается на технику машинного обучения, известную как «цепочка мыслей», которая позволяет ей разбивать сложные задачи на более мелкие шаги и выполнять их один за другим, повышая точность ответов.

Модель DeepSeek работает похожим образом, планируя наперед при возникновении сложных проблем, и решая их одну за другой, чтобы гарантировать точный ответ. Однако этот процесс может занять некоторое время, и, как и в случае с o1, модели может потребоваться «подумать» до 10 секунд, прежде чем она сможет сгенерировать ответ на вопрос. Мыслительный процесс модели также полностью прозрачен, что позволяет пользователям следить за ней по мере выполнения отдельных шагов, необходимых для получения ответа.

Модель китайского стартапа DeepSeek в области ИИ превосходит в задачах рассуждения модель o1 от OpenAI

Стартап утверждает, что DeepSeek-R1 превосходит возможности o1 по двум ключевым тестам, AIME и MATH. Первый использует для оценки производительности больших языковых моделей другие модели искусственного интеллекта, а последний представляет собой серию сложных текстовых задач. Кроме того, модель DeepSeek-R1 показала, что она правильно ответила на ряд «каверзных» вопросов, о которые споткнулись другие модели ИИ, такие как GPT-4o и Claude.

Однако модель DeepSeek-R1 все же страдает от ряда проблем при решении некоторых логических задач, например, таких как крестики-нолики. При этом, модель o1 также столкнулась с теми же проблемами при решении такого типа задач. Пользователи также сообщили, что DeepSeek не отвечает на политически чувствительные запросы, что вероятно, обусловлено необходимостью для китайских разработчиков гарантировать в своих моделях «воплощение основных социалистических ценностей».

Доступ к DeepSeek-R1 можно получить через приложение DeepSeek Chat на сайте компании. Бесплатная версия ограничена всего 50 сообщениями в день. Компания также планирует сделать DeepSeek-R1 доступным через интерфейс прикладного программирования.

Источник: