Не успели мы переварить новость о DeepSeek, как в мире ИИ зажглась очередная звезда 💥. Allen Institute for AI (Ai2) из Сиэтла выкатил модель, которая обошла и DeepSeek, и OpenAI. 405 миллиардов параметров и полностью open-source. Бери, пользуйся, тренируй.

Недолго Китай ликовал. США показали, что все-таки могут лучше. А пока на тредах и форумах чешут затылок «Как так быстро?», поговорим, что именно «порвала» Tülu3-405B — модель, которая спустя пару дней после победоносного шествия DeepSeek по планете расставила всех по местам. США — на место лидера, разумеется 🏆.

Если отставить маркетинговый шум, перед нами модель на 405 миллиардов параметров, обученная на 256 GPU 💪. Согласно внутренним тестам (ага, доверяем), демонстрирует конкурентоспособные и местами превосходящие результаты по сравнению с DeepSeek V3 и GPT-4o 📊. Особенно в тех уязвимых для нейронок местах, где нужно не растекаться мыслью по древу, а демонстрировать точность — математические задачи, следование инструкциям и т.д.

Пишут, что такая «дотошность» Tülu3-405B — следствие подхода «обучение с подкреплением на основе проверяемых вознаграждений» (Reinforcement Learning from Verifiable Rewards или RLVR). В переводе на понятный — модель не просто выдает ответ, а проверяет саму себя на достоверность, логичность, полезность. Алгоритмы настроены, чтобы анализировать, искать ошибки, исправлять, формулировать «мысли» иначе. Что-то вроде нейронки, которая «думает» 🧠.

Диаграмма, описывающая процесс обучения с подкреплением и проверяемым вознаграждением (RLVR)

Результат мы видим в результатах бенчмарков. В тесте PopQA (база из 14 000 сложных вопросов из Википедии) Tülu3-405B уделала DeepSeek V3, GPT-4o и даже Llama 3.1 405B. В задачах по математике GSM8K — снова победа. Верить на слово не надо. Можно потыкать самому в веб чат-боте Ai2. Коды лежат на GitHub и Hugging Face. Берите, пробуйте, тренируйте. А мы в этом месте отметим, что выдающиеся возможности Tülu3-405B — это «согласно результатам внутреннего тестирования Ai2». Ну понятно 🤔.

Производительность Tülu3-405B в сравнении с другими моделям (allenai.org)

Почему это круто и важно — Ai2 показали, что мощный ИИ может быть (не китайцем) доступным, открытым и не завязанным на корпорации. С одной стороны, обошли конем OpenAI — пусть теперь Альтман сидит и объясняет Трампу, почему его модель закрытая и дорогая. С другой — «они стояли за родину» — доказали, что никто не собирается терпеть лидерство Китая в ИИ. Понятно, что OpenAI и DeepSeek не оставят это дело просто так. Будут реагировать. Это значит, что гонка ИИ продолжается, а скорости стремительно растут 🚀.

Любопытно в этой истории то, что «Тулу» выкатилась прямо следом за «Дипсиком». Как будто по расписанию. Конечно, конкуренция вынуждает делать все быстро, но скорость, с которой залетела на арену моделька, мягко говоря, удивляет. «Внезапный релиз», скорее всего, что-то на базе чего-то, что мы уже знаем. Не прорыв, а апдейт. Или экстренная доработка того, что лежало в багажнике «на всякий случай» 🛠️.

Вот и первые тесты от энтузиастов примерно об этом: ну такое. Или даже — «работает хуже». Поэтому, вероятно, все дело в политике — надо было показать и рассказать, какой плохой DeepSeek. В общем, скандалы, интриги, расследования 🧐.