Apple планирует внедрить модели ИИ в iPhone и превращать видео в 3D-аватары

Рубрики: «Искусственный интеллект (AI)», «Виртуальная реальность (VR)»

22.12.2023

Корпорация Apple недавно опубликовала 2 исследовательские статьи, которые демонстрируют работу компании в области ИИ, включая новаторский метод создания анимационных 3D-аватаров и новый способ запуска больших языковых моделей на iPhone и iPad.

Большие языковые модели (LLM) — технология, лежащая в основе чат-ботов с искусственным интеллектом, таких как ChatGPT от OpenAI. Эти модели огромны по размеру и требуют много памяти, поэтому их часто невозможно развернуть на портативных устройствах, таких как iPhone. В июле сообщалось, что Apple разработала собственного чат-бота под названием Apple GPT. Теперь компания исследует способы внедрить искусственный интеллект на iPhone и iPad.

В статье под названием «LLM во флэш: эффективый вывод большой языковой модели в ограниченной памяти» Apple заявляет, что она может обрабатывать загрузку всей LLM-модели на устройстве, но при этом выполнять логическую часть искусственного интеллекта в ограниченном объеме памяти, доступном на iPhone. Это делается с помощью так называемого «вывода модели». Слово «флэш» в заголовке статьи подразумевает память телефона, которая обеспечивает чрезвычайно быструю передачу данных, так что в ней может работать ИИ.

Согласно документу, новая технология позволяет большой языковой модели работать до 25 раз быстрее на устройствах с ограниченной памятью, а также дает возможность использовать продвинутый искусственный интеллект на портативных устройствах, таких как iPhone, iPad и др.

Во второй исследовательской работе была предложена система искусственного интеллекта под названием Human Gaussian Splats, или HUGS. Это генеративная технология искусственного интеллекта, которая может создавать цифровые человеческие аватары из видео. Система может использовать обычное видео и создавать полностью анимированную 3D-модель человека, которую затем можно превратить в цифровую модель аватара и использовать в средах виртуальной реальности.

По мнению исследователей, модель искусственного интеллекта, лежащая в основе HUGS, способна снимать небольшое количество кадров движущегося человека: примерно, 50-100 кадров, что составляет около 2-4 секунд видео с частотой 24 кадра в секунду. Исследователи заявили, что на съемку сцены и преобразование ее в 3D-аватар уходит около 30 минут.

Конечным результатом является реалистичная 3D-модель человека, фиксирующая как можно больше деталей в формате называемом Skinned Multi-Person Linear, или SMPL. Тем не менее, исследователи предупредили, что ИИ не может смоделировать каждую деталь аватара, такую как одежда и волосы, и, в результате, выдавать некоторые отличия от реального человека.

Эти аватары можно использовать где угодно, например, в видеоиграх, среде виртуальной реальности или в других специальных приложениях. Прорыв здесь заключается в том, что для создания аватара требуется только видео, в то время как многие другие технологии сканирования требуют дорогих камер и гораздо более длительного времени обработки. По словам исследователей, этот метод способен воспроизводить 60 кадров в секунду, при этом обучаясь в 100 раз быстрее, чем другие методы.

В настоящее время система HUGS не имеет никакого практического применения, но цифровые 3D-аватары могут иметь место в приложениях для анонсированной ранее гарнитуры смешанной реальности Vision Pro. Многочисленные приложения в смешанной и виртуальной реальности, где люди будут использовать виртуальную среду для взаимодейсвтия с другими людьми, использующими виртуальных персонажей, выиграют от полной анимированной 3D-визуализации коллег и друзей.

Источник: