Новый алгоритм превращает аудиозапись в реалистичное видео

Группа компьютерных специалистов Университета Вашингтона разработали уникальные алгоритмы, которые решают сложную задачу в области компьютерного зрения: превращают аудиоклипы в реалистичные видео человека, говорящего эти слова.

В новой разработке, которая будет представлена 2 августа на SIGGRAPH 2017, исследователи во главе с  Ira Kemelmacher- Shlizerman создали высокореалистичное видео с бывшим американским президентом  Обаме, используя аудиоклипы его выступлений и существующие  видеоролики.

Kemelmacher- Shlizerman говорит: «Эти результаты никогда не достигались раньше. Реалистичное преобразование аудио в видео имеет практические приложения, такие как улучшение видеоконференций, а также футуристические возможности, например беседа с исторической фигурой в виртуальной реальности, когда  визуальные эффекты создаются только из аудио».

В визуальной синхронизации губ, система преобразует звуковые файлы речи человека в реалистичные формы рта, которые затем смешиваются с лицом этого человека из другого существующего видео. «В будущем видео чат-инструменты, такие как Skype или Messenger, позволят всем собирать видео, которые можно использовать для обучения компьютерным моделям», говорят создатели аолгоритма.

Поскольку потоковое аудио через Интернет занимает гораздо меньше полос пропускания, чем видео, новая система имеет потенциал для прекращения видеочатов, которые постоянно выходят из строя из-за слабых соединений. «Когда вы просматриваете Skype или Google Hangouts, часто картинка остает, но часто звук довольно хорош», говорит Allen Steve Seitz. «Поэтому, если бы вы могли использовать звук для создания видео более высокого качества, это было бы потрясающе».

Новый инструмент машинного обучения значительно продвинулся в преодолении того, что известно как проблема «сверхъестественной долины». Когда синтезированные человеческие сходства кажутся почти реальными, но люди находят их жуткими. Раньше процессы преобразования аудио-видео включали съемку нескольких человек в студии, которые повторяли одни и те же предложения снова и снова, чтобы попытаться зафиксировать, как определенный звук коррелирует с разными формами рта, что является дорогостоящим, утомительным и трудоемким. В отличие были разработаны алгоритмы, которые могут учиться на видеороликах, которые существуют в Интернете или в других местах.

Один из создателей новой техники, Supasorn Suwajanakorn поясняет: «Есть миллионы часов видео, которые уже существуют из интервью, видеочатов, фильмов, телевизионных программ и других источников. И они очень хорошо подходят для эти алгоритмов».

Новый процесс синхронизации губ позволил исследователям создать реалистичные видео с Обамй, который выступал в Белом доме, используя слова, которые он говорил на телевизионном ток-шоу или в интервью несколько десятилетий назад.

Авторы добавили: «Вы не можете просто взять чей-то голос и превратить его в видео с Обамой. Мы  сознательно решили не идти по пути ввода чужих слов в чей-то рот. Мы просто принимаем реальные слова, которые кто-то говорил, и превращая их в реалистичное видео этого человека».

Leave a Reply

Ваш e-mail не будет опубликован. Обязательные поля помечены *