Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Hugging Face открывает исходный код самой маленькой в мире модели языка зрения

Рубрики: «Искусственный интеллект (AI)», «Генеративный искусственный интеллект»

Модели языка зрения (VLM) — это модели искусственного интеллекта, которые объединяют визуальные и текстовые данные. Они создаются путем объединения большой языковой модели (LLM) с кодировщиком зрения, что дает VLM возможность «видеть». VLM могут обрабатывать и обеспечивать расширенное понимание предоставленных в запросе видео, изображений и текстовых входных данных для генерации текстовых ответов.

Небольшой размер алгоритма SmolVLM-256M позволяет ему работать на таких устройствах, как обычные потребительские ноутбуки, которые имеют относительно ограниченную вычислительную мощность. По словам Hugging Face, модель может потенциально работать и в браузерах, благодаря поддержке WebGPU - технологии, которая позволяет веб-приложениям на базе ИИ использовать графические карты на компьютере пользователя.

SmolVLM-256M может отвечать на вопросы об отсканированных документах, описывать видео и объяснять диаграммы. Hugging Face также разработала версию модели, которая может настраивать свой вывод на основе подсказок пользователя. SmolVLM-256M содержит 256 миллионов параметров. Это лишь малая часть по сравнению с сотнями миллиардов параметров, содержащихся в самых передовых моделях ИИ. Чем меньше число параметров модели, тем меньше аппаратного обеспечения она использует, поэтому SmolVLM-256M может работать на таких устройствах, как ноутбуки.

Одним из главных улучшений в SmolVLM-256M является то, что модель использует новый кодировщик. Это программный модуль, задача которого — превращать файлы, обрабатываемые ИИ, в математические структуры для нейронных сетей. Кодировщик SmolVLM-256M основан на ИИ с открытым исходным кодом, называемом «SigLIP base patch-16/512». Последний алгоритм, в свою очередь, получен из модели обработки изображений, которую OpenAI выпустила в 2021 году. Кодировщик включает 93 миллиона параметров, что составляет менее четверти от числа параметров в кодировщике предыдущего поколения, благодаря чему Hugging Face удалось сократить аппаратные требования к SmolVLM-256M.

В ходе внутренней оценки Hugging Face сравнила SmolVLM-256M с мультимодальной моделью, имеющей 80 миллиардами параметров, которую компания выпустил 18 месяцев назад. Первый алгоритм превзошел результаты второго в более чем полудюжине тестов. В тесте под названием MathVista, включающем геометрические задачи, результат SmolVLM-256M оказался выше более чем на 10%.

Также Hugging Face представила второй, более эффективный алгоритм под названием SmolVLM-500M, который имеет 500 миллионов параметров. В этой модели компания жертвует некоторой аппаратной эффективностью ради более высокого качества вывода. По словам Hugging Face, SmolVLM-500M также лучше следует инструкциям пользователя.

«Если вам нужен больший запас производительности при сохранении низкого уровня использования памяти, SmolVLM-500M — это наш компромисс с полумиллиардом параметров», — сообщили инженеры компании.

Источник: