Компания Google DeepMind представила Genie 2 — новую модель, способную генерировать бесконечное множество интерактивных 3D-миров для обучения и оценки действий агентов, управляемых человеком или искусственным интеллектом.
Ключевое преимущество технологии — возможность мгновенного прототипирования интерактивных сред с помощью простого изображения или текстового описания.
Что умеет Genie 2?
- Генерирует полноценные трехмерные миры с реалистичной физикой, сложной анимацией и разнообразными объектами. Эти миры интерактивны: в них можно ходить, исследовать, взаимодействовать с предметами и персонажами.
- Реагирует на действия игрока или агента: например, правильно интерпретирует движение персонажа, задаваемое стрелками клавиатуры.
- Запоминает элементы мира, которые вышли из поля зрения, и корректно отображает их при повторном появлении.
- Позволяет создавать разные варианты развития событий. Например, одно и то же начало игры может привести к совершенно разным результатам в зависимости от действий пользователя.
Genie 2 основана на технологиях машинного обучения:
- Модель обучена на больших видеодатасетах, что позволяет ей воспроизводить сложные сцены и взаимодействия.
- Применяются автокодировщики и трансформеры, которые помогают моделировать движение, физику и анимацию в реальном времени.
В одной из демонстраций агент SIMA успешно выполнял задания, например, открывал двери или исследовал дома, взаимодействуя с миром, сгенерированным Genie 2. Эти тесты показали, что модель подходит для разработки универсальных систем искусственного интеллекта, способных решать широкий круг задач.
Технология уже на начальных этапах показала огромный потенциал: от ускорения разработки игр до решения научных задач. Разработчики подчеркивают, что дальнейшее развитие Genie 2 сделает миры еще более реалистичными и универсальными.