С цифрой и пленкой, кажется, все. Индустрия масштабных съемок находится под угрозой исчезновения. Если раньше заголовки о том, что машины заменят людей, казались фантазией на тему отдаленного будущего, Sora перенесла разговор в русло «здесь и сейчас». Нейросеть от компании OpenAI создала первый в истории клип, в котором каждая секунда видео – генеративный продукт.

Как нейросеть «снимает»

Режиссер Пол Триолло придумал сюжет, а Sora его сгенерировала. Преобразовав текст в видео, нейросеть смонтировала 55 коротких фрагментов в динамичное видео с эффектом движения камеры. И вот он результат – клип для песни «The Hardest Part» музыканта Washed Out, созданный с нуля и «под ключ» одной нейросетью.

О Sora мы знаем вот что. Компания сообщает, что сделает эту модель доступной до конца текущего года. Пока нейросеть тестирует узкий круг лиц. Впервые OpenAI представила свой продукт в феврале 2024 года, рассказав о сервисе, но не показав. Детище OpenAI стали ждать с нетерпением, предвкушая что-то грандиозное.

Да, это не первая нейросеть, которая генерирует видео на основе текстовых промптов. Ее преимущество (со слов создателей) – в эксклюзивном качестве генерации. Ни одна другая нейросеть не способна «творить» с такой высокой реалистичностью, как это делает Sora. В подтверждение слов разработчики выложили несколько роликов.

И крупный план, и задний фон, действительно, удивляют своей натуральностью, динамикой и сложностью композиций. Нейросеть справляется с большим количеством людей и предметов. Каждый занимается своим делом, никто не мешает друг другу. Вместе все составляют одно сюжетное целое. Для существующих нейросетей что-то подобное – непосильная задача.

Скоро в Голливуде

Пока тестировщики изучают и улучшают опции Sora, у нас, «простых смертных», нет возможности испытать ресурсы нейросети. Приходится верить на слово и изредка, как в случае с клипом «The Hardest Part», наблюдать за ее «проявленностью» в публичном пространстве. Выглядит это пока немного странно, непривычно и футуристично. Но, несомненно, серьезный шаг в сторону будущего «без людей» (с минимальным набором специалистов, умеющих дружить с машинами), Sora сделала.

Подробностями «съемочного» процесса поделился сам режиссер. Ему пришлось сгенерировать порядка семи сотен фрагментов, чтобы потом отобрать 55. К каждому из фрагментов Пол Триолло прописывал очень подробный текстовый промпт с описанием главных и второстепенных героев, ракурсов, динамики, движения камеры. Этот опыт лишний раз подтверждает мысль о том, что машины без нас, людей, никуда.

Самые передовые ИИ-технологии нуждаются в наших усилиях. Sora, конечно, задает новый тренд. Не за горами лавинообразный поток видеоклипов, «снятых» нейросетями. Но кто по-прежнему стоит во главе? Человек. Пол Триолло придумал сюжет, задал промпт, а потом отобрал из сырого материала все лучшее. Отдать весь процесс на откуп нейросетям не получилось. Sora не заменила человека в создании клипа, а только дополнила, освободив его от рутины. По-прежнему актуален вопрос авторских прав. Sora обучается на огромных массивах данных, включая открытые. Применение такого контента в коммерческих целях вполне себе может породить волну конфликтов и даже судов.

Разработчиков Sora это совсем не смущает. В марте гендиректор компании провел серию встреч с киностудиями, включая Голливуд, и режиссерами. Целью был поиск партнеров по интеграции Sora в продакшн. Перспектива снизить расходы и ускорить процесс многим показалась заманчивой. Это значит, что скоро широкая аудитория познакомится с множеством продуктов генеративного видео в кино, музыке, играх и других развлекательных сферах. Впрочем, за каждым таким успешным проектом, несомненно, будет стоять талантливый человек.