И снова про силу и мощь китайских стартапов в области разработок ИИ. Tencent, у которых есть, между прочим, генератор картинок и генератор 3D, выкатили большую языковую модель Hunyuan-Large 💪. В мире, где релизы новых нейронок перестали вызывать шок и трепет, эта новость могла бы раствориться в море других. Но 389 миллиардов параметров и 256 тысяч токенов притянули к себе внимание широких и узких специалистов. Давайте разбираться, чему здесь нужно удивляться и почему мы добавили новость о «какой-то» Hunyuan-Large в ленту Neiroset.
Начнем с того, что это опенсорс, а мы такое любим. Модели с открытым исходным кодом способствуют распространению и развитию технологий 🌐. Этим путем движется LLama, Deepseek и другие. Но Hunyuan-Larg – не просто еще одна опенсорс, а крупнейшая MoE (Mixture of Experts) модель на основе трансформеров с беспрецедентными 389 миллиардами параметров, способная обрабатывать контекст до 256K токенов. Не вдаваясь в подробности, это много.
Чтобы продемонстрировать выдающиеся возможности Hunyuan-Large, компания проводит эксперименты, сравнивая результаты с примерно похожими моделями. По разным бенчмаркам производительность Hunyuan-Large превосходит LLama 3.1 70B и сопоставима с LLama 3.1 405B.
Модель поддерживает как обычные способности языковых моделей (отвечать на вопросы, понимать прочитанное, рассуждать), так и специфические таланты (в математике, кодировании и т.д.). К ее обучению подошли с размахом и пристрастием. Во-первых, никакого треша и угара 🚫. Заливают надежные тексты на китайском и английском, и не просто что-то про кроликов и рецепты риса.
Контент проходит жесткую чистку по критериям грамотности, образовательной ценности и нулевой токсичности. Кроме естественного контента, модель накачали искусственным. Синтетика была не абы-какая, а грамотно замешанная. Для синтезирования данных заморочились и сделали «четырехактовую» систему. Подробности о технической «кухне» есть на arXiv.
В общем, обратите внимание. Tencent приглашает разработчиков к сотрудничеству 🤝. На Huggingface есть демо-версия. Можно попробовать без установки прямо сейчас. И проверить, так ли она хороша. В общем, в Tencent серьезно замахнулись. Могут себе позволить. Все же крупнейшая китайская компания в сфере ИТ.