Meta создает модели искусственного интеллекта для улучшения виртуального звука

Рубрики: «Искусственный интеллект (AI)», «Дополненная реальность (AR)», «Виртуальная реальность (VR)»

29.06.2022

Звонки в Zoom, встречи в метавселенной и виртуальные события могут быть улучшены благодаря серии моделей искусственного интеллекта, разработанных инженерами Meta. Эти модели сопоставляют звук с изображением, имитируя то, как люди воспринимают звуки в реальном мире.

Три модели, разработанные в сотрудничестве с исследователями из Техасского университета в Остине, Visual-Acoustic Matching (визуально-акустическое согласование), Visual-Informed Dereverberation (визуально-информированная дереверберация) и VisualVoice (визуальный голос), сосредоточены на человеческом голосе и звуках в видео. Все модели предназначены для того, чтобы «быстрее приблизить нас к более иммерсивной реальности». С помощью самоконтролируемой модели визуально-акустического согласования, известной как AViTAR, звук модифицируется в соответствии с пространством целевого изображения.

«Правильное получение пространственного звука — это ключ к реалистичному ощущению присутствия в метавселенной», — сказал Марк Цукерберг, основатель и исполнительный директор Meta. «Если вы находитесь на концерте или просто разговариваете с друзьями за виртуальным столом, реалистичное ощущение того, откуда доносится звук, заставляет вас чувствовать, что вы действительно там».

Например, есть большая разница между тем, как звучит концерт в большом зале и в вашей гостиной. Это связано с тем, что геометрия физического пространства, материалы и поверхности в этом районе, а также близость места, откуда исходят звуки, — все это влияет на то, как мы слышим звук.

В этом и есть суть первой модели, называемой моделью Visual Acoustic Matching, которая использует изображение пространства для настройки звуков, чтобы они соответствовали целевой среде. Например, модель может взять аудиоклип человека, говорящего в открытом поле, и сопоставить его с каким-нибудь уютным местом, заставляя голос звучать ближе и отражаться эхом от близлежащих стен..

«В зависимости от физической среды, в которой находятся слушатели, даже не осознавая этого, они ожидают услышать звуки определенным образом», — сказала Кристен Гаруман, директор по исследованиям Meta AI. «Это происходит потому, что звук формируется средой, в которой мы находимся».

Примером использования этого может быть обеспечение одинакового звучания людей в видеочате. Например, если один из них дома, другой в кафе, а третий в офисе, звук можно настроить таким образом, чтобы люди воспринимали звуки и голоса, как если бы они все находились в одной комнате.

Visual-Informed Dereverberation - это модель, которая делает обратное: она использует знания об окружающей среде и устраняет эхо, которое может быть вызвано отражением звука от поверхностей, называемое реверберацией, чтобы создать более чистый и четкий звук. Например, эту модель можно использовать, чтобы взять выступление скрипача на огромном вокзале и преобразовать звук скрипки так, как будто она записана в студийных условиях.

Результатом является потенциально более качественный звук для записи с гарнитур во время общения дома и в офисах, а также для улучшение звучания, идентификация говорящего и распознавание речи.

Наконец, в метавселенной, вероятно, будет немного шумно, если много людей разговаривают поблизости одновременно. Модель VisualVoice использует визуальные и звуковые сигналы для отделения речи от других фоновых звуков и голосов, позволяя слушателю сосредоточиться на конкретном разговоре. Для этого моделью используется навык людей, которые в реальной жизни могут слушать не только ушами, но и глазами. Например, воспринимать движения рта и выражениях лица говорящего.

Конечная цель VisualVoice — отделить конкретный голос от фоновых шумов и голосов, которые могут звучать одновременно, а также идентифицировать говорящих. В результате модель искусственного интеллекта может обеспечить лучшую доступность и, возможно, даже создавать субтитры, которые прикрепляются к говорящему. Модель можно даже использовать для интеллектуальной идентификации людей в толпе.

С помощью этих новых моделей искусственного интеллекта Meta надеется в будущем обеспечить превосходный звук для дополенной реальности и виртуальной реальности (AR и VR). Виртуальная реальность уже дает глубокие впечатления от визуального представления пространств, поэтому важно, чтобы качество звука не отставало от нее.

Источник: