Meta* анонсировала прорывной генеративный ИИ Movie Gen. Нейронка работает в трех модальностях – видео, аудио, изображение. И это, кажется, новый уровень в истории нейросетей. Раньше мы игрались с картинками. Потом – с 3D-анимацией. В этом году появилась возможность генерировать видео. И вот полноценное медиа. Все и сразу. Компания так и пишет в собственном блоге – с Movie Gen к нам пришла новая эра. И все, кто только мечтал, теперь могут. Например, снять кино.
Movie Gen – машина по производству контента. Начнем с генерации видео. По текстовому описанию (промпту) создает 16-секундные ролики в 1080р. Опцию генерации видео расширили фичей создания персонализированных мини-фильмов. С вас – фото и промпт, а нейронка сделает все остальное. Правда, пока непонятно, какое именно фото можно грузить – свое или любое. Если только свое, то какой face-control придется для этого проходить.
Модель принимает на ввод, кроме текста, готовые видео. Есть редактор, где можно добавить, удалить, заменить элементы, включая фон и даже стиль. Movie Gen с хирургической точностью оставит все нужное, не трогая ни пикселя из области того, что следует сохранить.
Наконец, модель обучена генерировать качественный звук длительностью до 45 секунд – музыку, фон, эффекты. Загружаете видео, пишете промпт – озвучка готова. Аудио синхронизировано с видео.
Компания сообщает, что Movie Gen обучали на лицензированных данных. Подробную информацию о нейронке можно прочесть в научно-исследовательской статье. Если коротко, то модель Movie Gen Video имеет 30 миллиардов параметров и умеет «рассуждать» о движениях. Movie Gen Audio располагает весом в 13 миллиардов параметров и обучена «понимать» психологические связи между визуальным и аудио миром.
Meta утверждает, что с появлением Movie Gen началась третья волна в мире генеративных нейронок (про две предыдущие не очень понятно). Эта волна сохранила все лучшее, что было до, и добавила «тонкий контроль», предоставив возможность каждому творческому человеку себя проявить. А нам, в свою очередь, интересно, когда же эту возможность можно будет использовать.
В блоге компании говорится о «будущем релизе». Но все мы помним историю с Sora. OpenAI анонсировала нейронку в начале года, но продукт откровенно задержался. Мы все еще ждем, когда, наконец, этот рынок что-то взорвет, как нам давно уже обещали. Про прорывные возможности мы прочитали и даже увидели демки. Выглядит круто. Но очень хочется протестировать и самим убедиться.
*Компания Meta признана на территории РФ экстремистской организацией.