Китайский технологический гигант Alibaba недавно объявил о масштабных вливаниях в искусственный интеллект. В ближайшие три года компания инвестирует в ИИ-разработки 380 миллиардов юаней (~53 миллиарда долларов 💵). Эти деньги не растворятся в никуда. Уже кое-что показали — новый видеогенератор Wan 2.1. Открытый исходный код, 480р и 720р, на лидеборде VBench занимает первое место, в то время как Sora – четвертое.

Компания предоставила код модели бесплатно в рамках «последних усилий по содействию сообществу разработчиков». Wan 2.1 — это семейство опенсорсных генераторов видео 🎞️, два из которых «заводятся» от текстовых описаний (версии на 1.3 и 14 миллиардов параметров), а еще два принимают на входе картинки. Каждая из моделей предлагает разные уровни качества, скорости и требований к железу. Самой «маленькой» нужно всего 8,2 гигабайта видеопамяти, а на генерацию 5-секундного видео 480р уходит 4 минуты ⏱️.

В рапорте написано, что генератор видео Wan 2.1 справляется с самой сложной динамикой. Алгоритмы complex motions вывозят дерзкие повороты сюжета вроде танцев hip-hop, гоночных виражей и боксерских поединков. Модель понимает законы природы и разбирается в физике взаимодействий — точность резки поваром овощей на уровне мишленовских ресторанов.

Встроен редактор с такими инструментами, как инпейнтинг (дополнить внутри) и аутпейнтинг (расширить снаружи). В обоих случаях генератор учтет контекст — новое бесшовно соединяется с прежним. В отчете заявлены и такие настройки редактора, как Posture Maintenance (контроль поз объектов) и Multi-Image Reference (использование нескольких изображений для ориентира).

Модель генерирует текст (то есть надписи) прямо в видео на английском и китайском языках. Судя по представленным роликам, генерирует хорошо — лучше, чем другие модели. К Wan 2.1 прикрутили генерацию звуков – эффектов (плеск воды, шум толпы) и фоновой музыки (например, симфонической, если в ролике «снят» оркестр).

Модель обучили на 1,5 миллиардах видео и 10 миллиардах картинок. Училась, судя по черипикам, неплохо. Генерирует почти без артефактов, с хорошим мувментом. Производительность оценили в сравнении с другими генераторами (опенсорсными и закрытыми). В таблице VBench Wan 2.1 заняла место лидера с результатом 86.22% 🥇, обойдя конкурентов по критериям качества динамики, пространственных отношений, цветопередачи. Картинка — сочная и точная. Движения плавные и живые. Объекты взаимодействуют слаженно. Почти как в кино, только «снимал» не оператор, а генератор 🎬.

Модели доступны к загрузке в сообществе Alibaba Cloud, Model Scope и на платформе Hugging Face. Напомним, опенсорсная история Alibaba началась в августе 2023 года, когда компания выкатила первую масштабную модель Qwen-7B. До этого все крупные игроки держали свои разработки закрытыми. Alibaba поступила иначе — дала потрогать код 🔍, что сделало их пионерами среди больших tech-компаний в области опенсорс, усилило позиции на рынке и заставило многих переосмыслить свои стратегии. Поздравляем Alibaba с релизом, качаем, пробуем.