На повестке снова видеогенерация 🎥. Кажется, можно помахать рукой Sora 👋. Спустя неделю после релиза долгожданной (буквально) нейронки от OpenAI стратегически правильно выстрелил Google. Представил свой «ответ Чемберлену» – генератор видео Veo 2. По бенчмаркам модель обошла конкурентов. Примеры на сайте выглядят как «полный отвал башки» 🤯. Поговорим, что нового в сравнении с первой версией Veo, которую Google релизнул в мае и, кажется, никого этой версией не удивил.
За искусственный интеллект и генераторы в компании отвечает подразделение Google DeepMind. Дождавшись, пока станут тише овации Sora, ребята выкатили вторую версию Veo. Из нового – разрешение до 4K, почти безграничные возможности управления камерой и, конечно, лучшее качество. Собственно, ради последнего все затевалось.
Разработчики скупы на детали. Известно, что на вход принимает текст, а картинки не принимает. Google, как обычно, на короткой ноге с цензурой и сильно страхуется, чтобы мы не залили в нейронку какие-нибудь непотребства. В общем, image-to-video. Продолжительность – 8 секунд и потенциально до двух минут.
Чтобы показать, как «мы всех сделали», Google сравнили свою модель с передовыми (последними) Movie Gen, Kling, Minimax и Sora. Видео сравнивались с разрешением 720р. Из вышеприведенной таблицы делаем вывод, что Veo лучше следует промпту и в целом – the best. Воспринимайте эти гугловские бенчмарки с хорошей порцией скепсиса 🤨. И не только гугловские, но и любые, когда речь идет об анонсе продукта. Понятное дело, что никто (абсолютно никто) плохие тесты к релизу не прикручивает.
Чтобы понять реальные, а не заявленные возможности, нужно пробовать. В этом месте переходим к печальному. Google пока держит модель за закрытыми дверями 😔. Можно добавиться в лист ожидания на платформе Video FX, заполнив анкету. Как только компания предоставит вам доступ, на почту придет сообщение. Как именно Google выбирает, кому дать «потрогать» новую Veo, неясно. Как долго ждать письма, в котором Гугл сообщит, что вы достойны, неизвестно.
Судя по роликам, представленным Google, уровень реализма обещает снести даже «сору». Кое-кто уже попробовал новую Veo в работе. Результаты экспериментов есть на X. Blaine Brown, например, сгенерировал в разных нейронках, включая Veo, очень сложную штуку – «руки человека, нарезающего стейк» 🥩. Гугловская модель всем раздала.
Из тех же неофициальных тестов понятно, что новая Veo «галлюционирует», как все, генерируя неожиданные и нежелательные повороты сюжета. Сгенерированные ролики автоматически маркируются невидимым для человеческого глаза SynthID – фирменным гугловским знаком, предназначенным идентифицировать материалы, созданные ИИ 🔍.
Надеемся, Google не будет мариновать нас ожиданием, как OpenAI 🕒. А пока смотрим демки на YouTube и делимся впечатлениями.