Команда Qwen из Alibaba представила QwQ-32B — модель, которая демонстрирует такую же производительность, как и намного более крупная модель DeepSeek-R1. Эта ситуация демонстрирует потенциал масштабирования обучения с подкреплением (RL) на основе надежных базовых моделей.

Борьба за производительность среди ИИ продолжает набирать обороты. Команда Qwen из группы Alibaba смогла успешно интегрировать возможности агента в ризонинг модель. Это позволило ей критически мыслить, использовать инструменты и в зависимости от реакции окружающей среды изменять свои рассуждения.

Команда заявила, что «масштабирование RL может повысить производительность модели по сравнению с традиционными методами предварительного и последующего обучения. Недавние исследования показали, что RL может значительно улучшить способность моделей к логическому мышлению».

Как можно понять из названия, QwQ-32B наделена 32 миллиардами параметров. Для сравнения у нас есть DeepSeek-R1, которая может похвастаться 671 миллиардом параметров (из которых 37 миллиардов активированы). И тем не менее малыш QwQ-32В умудряется соревноваться с DeepSeek в производительности. Из этого следует простой вывод: мы своими глазами видим возможности RL при применении к надежным базовым моделям, предварительно обученным на обширных мировых знаниях. Размер больше не имеет такого значения, раз более мелкие модели могут догнать китов индустрии.

Надо же было проверить ее возможности, поэтому модель прошла ряд тестов, в том числе AIME24, LiveCodeBench, LiveBench, IFEval и BFCL, которые позволяют оценить её математические способности, навыки программирования и общие возможности решения задач. В общем, базовые вещи, которые все требуют от умных ИИ.

Результаты разных моделей в основных бенчмарках на математические способности, навыков программирования и решения других задач

Команда Qwen, похоже, прочитала пособия по воспитанию, поэтому подкрепляла обучение модели вознаграждением за результат. В целом до начала обучения для модели проводился начальный контроль, после чего она проходила многоэтапное образовательный процесс. Первым этапом стало масштабирование обучения с подкреплением для задач, связанных с математикой и программированием, с использованием средств проверки точности и серверов выполнения кода. Второй этап расширял процесс обучения до общих задач, и так же включал вознаграждение и проверку на основе некоторых правил.

Для всех интересующихся код QwQ-32B является открытым исходным кодом и доступен на Hugging Face и ModelScope по лицензии Apache 2.0, а также через Qwen Chat. Разработчики говорят, что это можно рассматривать как долгосрочную перспективу для расширения возможностей логического мышления. Они верят, что в будущем «сочетание более надежных базовых моделей с машинным обучением на основе масштабируемых вычислительных ресурсов приблизит нас к созданию искусственного общего интеллекта». Возможно, это станет будущем обучения моделей ИИ. Более легкие модели нагонят тяжеловесов и будут ничуть не хуже. Тогда смысл в гигантских моделях не будет и нас ждет очередной перелом в тенденциях ИИ.