Российская визуально-языковая модель обошла решения Google, OpenAI, Anthropic и Alibaba в распознавании русскоязычного текста на изображениях

29.12.2025

Российская визуально-текстовая модель Яндекса Alice AI VLM заняла второе место в лидборде бенчмарка MWS Vision Bench — первого русскоязычного бенчмарка для бизнес-OCR и мультимодальных моделей, ориентированного на реальные бизнес-сценарии. Модель обошла популярные мультимодальные модели — Gemini 2.5 Flash (Google), GPT-4.1 mini (OpenAI), Claude 4.5 Sonnet (Anthropic) и другие, уступив лишь Gemini 2.5 Pro (Google).

Бенчмарк MWS Vision Bench оценивает, как модели анализируют изображения и текст, включая сложные русскоязычные документы, и результаты Alice AI VLM показывают, что российская разработка уже конкурирует с лучшими мировыми решениями. Она хорошо распознаёт и интерпретирует визуально-текстовую информацию и по качеству превосходит многие мировые мультимодальные решения.

“Результаты MWS Vision Bench подтверждают, что российские модели перешли от экспериментальных наработок к реальной прикладной ценности. Alice AI VLM и другие визуально-языковые модели ускорят автоматизацию документооборота, снизят долю ручной правки и повысят качество данных в бизнес‑процессах. Для компаний это означает более быстрые решения, меньше ошибок и экономию в операционной работе — от банков и страховых компаний до логистики и госуслуг”, — прокомментировал Павел Голосов, директор ИОН РАНХиГС.

Ранее Яндекс представил новое семейство генеративных моделей для реальных задач Alice AI, куда вошла и новая VLM. Alice AI VLM поддерживает контекст до 32k токенов, использует расширенный набор данных для обучения и обновлённый OCR-датасет. Это повышает точность и эффективность при работе с текстом на изображениях.