Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Компьютерное зрение – это восприятие мира. Взгляд экспертов Samsung

Рубрика: «Искусственный интеллект (AI)»

Компьютерное зрение – это восприятие мира. Взгляд экспертов Samsung

Центр искусственного интеллекта в Торонто расположен в академическом кластере, в непосредственной близости к различным учреждениям мирового уровня, связанным с искусственным интеллектом, включая Университет Торонто, Йоркский университет и Университет Райерсона. Такое расположение дает огромное преимущество – в университете Торонто располагается факультет компьютерных наук (DCS), который входит в десятку лучших международных учреждений. Более половины сотрудников центра являются преподавателями, выпускниками или нынешними студентами DCS. Глава Центра ИИ Samsung в Торонто Свен Дикинсон – эксперт в области компьютерного зрения и бывший заведующий кафедрой компьютерных наук в Университете Торонто, рассказал о перспективах развития этой технологии.

Взгляд на компьютерное зрение

Центр искусственного интеллекта Samsung в Торонто специализируется на разработке технологий визуального понимания. Команда специалистов Центра работает над мультимодальными взаимодействиями формата «пользователь-устройство», которые включают в себя зрение, язык и знания.

«Восприятие мира посредством компьютерного зрения поможет устройствам “визуально обосновать” свой диалог с пользователем и предоставить интегрированный мультимодальный интерфейс, гораздо более естественный, чем основанный исключительно на зрении или диалогах», – рассказал Дикинсон. «Пользователь не должен читать руководства, чтобы выяснить, какие кнопки и в каком порядке он должен нажимать на смартфоне. Скорее, нужно показать устройству, что я (как пользователь) хочу, и рассказать ему об этом на естественном языке, понятном всем в мире, в котором я живу. Чтобы достичь такой широты понимания, гаджет должен взаимодействовать со мной надежным и естественным образом, а также видеть и понимать тот же мир, что наблюдаю я сам».

По мнению Дикинсона, подобно тому, как отказ от одного из форматов общения (аудио, речь, зрение и т. д.) будет препятствовать взаимодействию между двумя людьми, это в равной степени относится и к гаджетам.

Значение расширенного пользовательского опыта

Samsung ежегодно продает 500 миллионов устройств, оснащенных интеллектуальными функциями. Дикинсон подчеркивает, что широкое продуктовое портфолио Samsung поможет в реализации концепции подключенного образа жизни:

«Samsung отличается тем, что компания выпускает множество потребительских устройств, включая цифровую технику, телевизоры и мобильные телефоны. У компании есть уникальная возможность объединить эти гаджеты общим интерфейсом, который будет сопровождать пользователя при переключении от одного устройства к другому, и из одной комнаты в другую. Это поможет реализовать весь потенциал каждого устройства для эффективной связи, помочь пользователю выполнять необходимые задачи и изучить его привычки и предпочтения, чтобы последующее общение было простым и полезным».

Дикинсон отмечает, что для массовой реализации решений на базе компьютерного зрения и мультимодального взаимодействия «по-настоящему интеллектуальные системы ИИ должны обладать пониманием нашего мира, физики его причинно-следственных связей, геометрии и динамики. Если наши устройства могут видеть трехмерный мир, в котором мы живем, то есть понимать трехмерные формы, позиции и идентичность объектов в нашей общей среде, они будут воспринимать мир так, как мы. Этот общий визуальный контекст будет иметь решающее значение для разработки полноценных персональных помощников. Samsung является лидером в разработке взаимодействия между человеком и устройством, которое имитирует взаимодействие между людьми. Мы работаем над обеспечением визуальной базы и поддержки представления знаний для диалоговых сервисов взаимодействия».

Взаимодействие человека и устройства на основе открытого обмена информацией

Дикинсон поясняет, что ИИ должен быть понятен пользователю. Он отмечает, что после невыполнения задачи или предоставления соответствующего ответа

«Устройство должно быть способно обосновать пользователю, почему устройство дало этот ответ (или же объяснить его отсутствие). В лучшем случае он должен иметь возможность взаимодействовать с пользователем, задавая вопрос или прося пользователя настроить свою камеру или другие режимы ввода, чтобы у устройства была возможность собрать больше информации и сформулировать соответствующий ответ».

 

Такой вид обмена информацией называется областью «активного диалога и активного видения». Это будет ключом к дальнейшему совершенствованию взаимодействия человека и устройства. Так как в данном случае система сможет построить ментальную модель того, что понятно пользователю. И открыть эту модель, чтобы пользователь смог считать мыслительные процессы устройства.