Anthropic запускает модель искусственного интеллекта Claude Sonnet 5

Данная языковая модель станет использоваться по умолчанию в потребительских тарифных планах чат-бота Claude от Anthropic. В настоящее время коммерчески доступные большие языковые модели Anthropic разделены на три семейства: серия начального уровня - Haiku, среднего - Sonnet и высококлассная линейка - Opus. В апреле компания представила две новые языковые модели под названием Mythos 5 и Fable 5, которые обладают еще большими возможностями, чем Opus. Однако они пока не получили широкого распространения.
Компания Anthropic измерила возможности кодирования LLM Sonnet 5 с помощью двух бенчмарков: SWE-Bench Pro и Terminal-Bench 2.1. Модель улучшила результаты по сравнению со своей предшественницей на 5,1% и 13,4% соответственно. GPT-5.6 Terra, конкурирующая языковая модель среднего уровня от OpenAI Group, превзошла Sonnet 5 в тесте Terminal-Bench 2.1 примерно на 4%.
Компания также протестировала свою новую LLM в других областях. Модель показала результат 1618 баллов на тесте GDPval-AA v2, который включает интеллектуальные задачи, охватывающие 44 специальные области знаний. Для сравнения, большая языковая модель Sonnet 4.5 набрала в этом тесте 1395 баллов.
Одним из факторов, способствующих повышению качества вывода модели Sonnet 5, является её большая автономность. По данным Anthropic, пользователи, тестировавшие модель до её официального релиза, сообщали, что иногда она перепроверяет результат без соответствующих инструкций. Кроме того, Sonnet 5 может выполнять задачи, которые были слишком сложны для её предшественницы.
Однако, повышенная автономность LLM в некоторых случаях может создавать риски кибербезопасности. По данным Anthropic, языковая модель Sonnet 5 лучше, чем Sonnet 4.6, справляется с такими рисками. В частности, она более эффективно блокирует вредоносные запросы и атаки с внедрением вредоносных инструкций. Атака с внедрением вредоносных инструкций подразумевает, что вредоносная инструкция скрыта в данных, анализируемых LLM.
Новая модель включает в себя механизмы защиты, предотвращающие использование её хакерами для осуществления кибератак. По данным Anthropic, модель представляет собой ограниченный риск в области кибербезопасности, поскольку не позволяет разрабатывать функционирующие эксплойты.
Модель Sonnet 5 предлагается по умолчанию в бесплатном и Pro тарифных планах чат-бота Claude. Она также станет доступна в планах Max, Team и Enterprise. Разработчики, тем временем, смогут получить доступ к этой модели через программный интерфейс приложений Anthropic.
Вскоре клиенты Anthropic также получат доступ к двум другим новым моделям. Ранее в этом месяце компания представила флагманскую большую языковую модель под названием Mythos 5 и упрощенную версию, известную как Fable 5. Последняя модель включает в себя более строгие ограничения, блокирующие потенциально опасные запросы.
Через несколько дней после запуска больших языковых моделей Mythos 5 и Fable 5 правительство США ввело в их отношении экспортный контроль. В ответ компания Anthropic приостановила распространение моделей. Вчера компания сообщила о снятии ограничений, что позволит ей возобновить предоставление доступа к LLM с сегодняшнего дня. Anthropic планирует сделать Fable 5 доступным для широкого круга пользователей, в то время как Mythos 5 будет доступен только ограниченному числу доверенных организаций.



