18 февраля был выпущен новый метод обучения машин физике нашего мира. И теперь ИИ смогут учиться с помощью просмотра ютубчика.

Родители новой методики – команда исследователей, возглавляемая руководителем Meta* по ИИ Яном Лекуном. Теперь искусственный интеллект понемногу учится интуитивному пониманию окружающего мира. Команда использует архитектуру совместного прогнозирования видео (V-JEPA). Обучение проходит по принципу прогнозирования скрытых или непонятных частей видео в абстрактном пространстве, этакой внутренней картине мира ИИ. Это серьезная альтернатива стандартному генеративному подходу, когда ИИ просто пытается самостоятельно достроить недостающие пиксели, как Sora от OpenAI.

Фича в том, что модели V-JEPA учатся в парадигме “нарушения ожиданий” для оценки моделей – метод, взятый из психологии развития, которая проверяет понимание законов физики детьми: модели показывают две похожие сцены – одну физически возможную, а другую нет (например, мяч, ползущий по стене). Измеряя реакцию удивления на нефизичные сцены, исследователи могут оценить понимание фундаментальных физических принципов нейросетью.

Всего систему протестили на трёх наборах полностью немаркированных данных: ntPhys для базовых физических концепций, GRASP для сложных взаимодействий и InfLevel для реалистичных сред. V-JEPA показала хорошую эффективность в понимании постоянства объектов, непрерывности и согласованности форм, в то время как такие LLM как Gemini 1.5 Pro и Qwen2-VL-72B, показали результаты ненамного лучше случайных. Лучшие модели V-JEPA достигают 82,0 % на Kinetics-400, 72,2 % на Something-Something-v2 и 77,9 % на ImageNet1K.

Прозвучит нереалистично, но для того, чтобы достичь такого эффекта, V-JEPA понадобилось всего 128 часов видео! При этом даже небольшие модели с 115 миллионами параметров показывали положительные результаты.

V-JEPA – это лишь часть более широкого исследования по иерархической архитектуре JEPA, посвященного разработке альтернативы генеративным моделям AI. Ян Лекун продолжает придерживаться позиции, что генеративный подход с точностью до пикселя – тупиковый путь развития ИИ. Цель исследований JEPA – создать AI, который прежде всего будет лучше понимать окружающую среду. Ранее этот подход уже применялся на I-JEPA, но был ориентирован на изображения, а не видео.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации