В Microsoft показали, как созданная нейросетью Мона Лиза читает рэп

Команда исследователей искусственного интеллекта Research Asia компании Microsoft разработала приложение искусственного интеллекта (ИИ), преобразующее неподвижное изображение человека в правдоподобную анимацию.

При наложении звуковой дорожки получившийся цифровой аватар проговорит или пропоет текст с правильной мимикой. Результаты работы опубликованы на портале научных материалов arXiv.

Новую нейросеть назвали VASA-1. Создатели проекта отметили, что ИИ может работать как с фотографиями, так и с рисунками. В качестве демонстрации возможностей группа представила ряд видеороликов, на которых созданные VASA-1 цифровые аватары поют и разговаривают. А «Мону Лизу» Леонардо да Винчи алгоритмы заставили зачитать рэп.

В каждой анимации выражение лица меняется вместе со словами, подчеркивая сказанное. Исследователи также отметили, что, несмотря на реалистичность видео, более пристальное рассмотрение может выявить недостатки и свидетельства того, что они были созданы искусственно.

По словам специалистов, инструмент генерирует видео разрешением 512 на 512 пикселей со скоростью 45 кадров в секунду, а для использования достаточно мощности потребительской видеокарты. Например, создание ролика с помощью графического процессора Nvidia RTX 4090 занимает около двух минут.

Команда отметила, что VASA-1 можно использовать для создания дипфейков, поэтому система пока не будет общедоступной.