VisionLabs тестирует в Москве ИИ-поиск на изображениях и видео для ЖКХ

28.05.2026

Компания VisionLabs (входит в МТС Web Services) разработала технологию мультимодального поиска на естественном языке по текстовому запросу. Она реализована в рамках платформы компьютерного зрения Luna Line, которая позволяет обучать модели искусственного интеллекта под отраслевые сценарии без программирования. Компания начала тестирование технологии с компаниями в Москве. VisionLabs рассчитывает получить от этого направления 5–10% выручки в 2027 году.

Мультимодальный поиск позволяет работать как с фотографиями с телефонов, так и с данными с видеокамер, установленных на улице и в общественном транспорте, и определять практически любые сценарии по текстовому описанию. Например, достаточно написать «разбитое стекло» или «переполненный мусорный бак» — и модель выдаст все изображения или кадры из видео, где они обнаружены.

Традиционные системы компьютерного зрения работают по заранее заданным правилам и фиксированным классам («мусор», «человек», «машина») и требуют ручной разметки под каждую задачу. В отличие от них мультимодальный поиск позволяет находить ситуации без жёсткого перечня сценариев. Пользователь может сформулировать запрос на естественном языке («мусор рядом с контейнером») — и система найдёт нужные кадры. Даже для новых или редких случаев, которые не были заранее прописаны как предмет детекции.

Модель может работать без дообучения на разных сценариях: отслеживать накопление мусора в баках, посторонние предметы во дворах и подъездах, чистоту и свет в подъездах, сломанные лавки, разбитые стёкла на остановках, затопленные или заметённые снегом участки дорог или кондиционеры на фасадах. Сейчас VisionLabs тестирует эти сценарии в Москве.

Системы мультимодального поиска построены на базе визуально-языковых моделей (VLM, visual language model), работа которых основана на понимании связи между изображением и текстом. Нейросеть анализирует все фотографии в базе и сохраняет их визуальные характеристики в виде цифровых отпечатков. Когда пользователь вводит текстовое описание, ИИ преобразует его в цифровой отпечаток, сравнивает со всеми сохранёнными отпечатками и находит наиболее похожие изображения. Благодаря оптимизированным алгоритмам поиск по базе осуществляется за доли секунды.

«Я уверен, что будущее за визуально-языковыми моделями, когда каждый сможет размечать данные и искать изображения с помощью простого текстового запроса. Мы постоянно инвестируем в перспективные направления и в прошлом году вложили в исследования и разработку 200 миллионов рублей. Один из результатов — платформа Luna Line, которая позволяет создавать ML-модели без кода, ускоряет запуск проектов на 30% и на столько же сокращает бюджет на запуск и поддержку ML-решений», — комментирует Дмитрий Марков, генеральный директор VisionLabs.

Платформа Luna Line может разворачиваться в корпоративном контуре заказчика — на собственной инфраструктуре или в частном облаке. Реализация всех ML-сценариев на одной платформе централизует использование ресурсов, улучшает коммуникацию между командами и подразделениями, а также упрощает и ускоряет масштабирование решений на всю сеть предприятия.