Российская визуально-языковая модель обошла решения Google, OpenAI, Anthropic и Alibaba в распознавании русскоязычного текста на изображениях
Бенчмарк MWS Vision Bench оценивает, как модели анализируют изображения и текст, включая сложные русскоязычные документы, и результаты Alice AI VLM показывают, что российская разработка уже конкурирует с лучшими мировыми решениями. Она хорошо распознаёт и интерпретирует визуально-текстовую информацию и по качеству превосходит многие мировые мультимодальные решения.
“Результаты MWS Vision Bench подтверждают, что российские модели перешли от экспериментальных наработок к реальной прикладной ценности. Alice AI VLM и другие визуально-языковые модели ускорят автоматизацию документооборота, снизят долю ручной правки и повысят качество данных в бизнес‑процессах. Для компаний это означает более быстрые решения, меньше ошибок и экономию в операционной работе — от банков и страховых компаний до логистики и госуслуг”, — прокомментировал Павел Голосов, директор ИОН РАНХиГС.
Ранее Яндекс представил новое семейство генеративных моделей для реальных задач Alice AI, куда вошла и новая VLM. Alice AI VLM поддерживает контекст до 32k токенов, использует расширенный набор данных для обучения и обновлённый OCR-датасет. Это повышает точность и эффективность при работе с текстом на изображениях.


