Компания Google DeepMind представила Genie 2 — новую модель, способную генерировать бесконечное множество интерактивных 3D-миров для обучения и оценки действий агентов, управляемых человеком или искусственным интеллектом.

Ключевое преимущество технологии — возможность мгновенного прототипирования интерактивных сред с помощью простого изображения или текстового описания.

Что умеет Genie 2?

  • Генерирует полноценные трехмерные миры с реалистичной физикой, сложной анимацией и разнообразными объектами. Эти миры интерактивны: в них можно ходить, исследовать, взаимодействовать с предметами и персонажами.
  • Реагирует на действия игрока или агента: например, правильно интерпретирует движение персонажа, задаваемое стрелками клавиатуры.
  • Запоминает элементы мира, которые вышли из поля зрения, и корректно отображает их при повторном появлении.
  • Позволяет создавать разные варианты развития событий. Например, одно и то же начало игры может привести к совершенно разным результатам в зависимости от действий пользователя.

Genie 2 основана на технологиях машинного обучения:

  • Модель обучена на больших видеодатасетах, что позволяет ей воспроизводить сложные сцены и взаимодействия.
  • Применяются автокодировщики и трансформеры, которые помогают моделировать движение, физику и анимацию в реальном времени.

В одной из демонстраций агент SIMA успешно выполнял задания, например, открывал двери или исследовал дома, взаимодействуя с миром, сгенерированным Genie 2. Эти тесты показали, что модель подходит для разработки универсальных систем искусственного интеллекта, способных решать широкий круг задач.

Технология уже на начальных этапах показала огромный потенциал: от ускорения разработки игр до решения научных задач. Разработчики подчеркивают, что дальнейшее развитие Genie 2 сделает миры еще более реалистичными и универсальными.