Никогда такого не было, и вот еще одна. Та самая «рассуждающая» Gemini 2.5 Pro, которую недавно релизнули с хештегом «самая умная» 🧠. Главное о модели: контекст в миллион токенов, почти 19% в Humanity's Last Exam («Последний экзамен человечества») и первое место 🏆 на лидеборде в «слепом» тестировании обычными пользователями вроде нас с вами. Теперь разберемся, что это значит.
«Рассуждающие», «модели мышления», «thinking models» — новое поколение ИИ, которое не сразу выдает ответ на-гора, а останавливается, «чешет затылок» и «думает» 🤔. Пытается имитировать наше мышление. Такие системы пришлось создать потому, что «быстрый» ИИ ловко скакал по базе данных ⚡, выуживая релевантный ответ, но там, где нужна была логика или фантазия, «тупил» и нес чушь 🤯. «Рассуждающие» модели не ищут готовых решений. Они «включают голову» и начинают пошагово размышлять — почему это так, а не иначе.
Например, на вопрос «как спастись в тонущей шлюпке», обычный ИИ сразу скажет «гребите к берегу», а рассуждающий прикинет: «Почему шлюпка тонет — пробоина или перегруз? Если дыра, можно заткнуть одеждой и вычерпать воду. Перегруз — выбросить лишнее. Где берег? Если близко — можно грести. В противном случае лучше за что-то держаться — весло, спасательный круг, обломки — и звать истошно на помощь» 🆘. Подробно о ризонинг-моделях мы писали в рассылке — что это, куда приложить и когда не нужно «забивать микроскопом гвозди».
Примерно этим и занимается новая гугловская Gemini 2.5 Pro — анализирует, создает цепочку мыслей, принимает взвешенные решения 🎯. От «рассуждающих» o1 и o3 (OpenAI) ее отличает контекст в один миллион токенов (скоро два) 🔥. Это много. Очень. Примерно 700 тысяч слов, которые нейронка может принять, переварить и иметь в виду при обработке запроса. Для наглядности: четыре тома «Войны и мира» 📖📖📖📖 — примерно 188 тысяч слов.
Размер контекстного окна у «рассуждающих» конкуренток:
📌 o1 (OpenAI) — 128 тыс. токенов;
📌 o3 (OpenAI) — 200 тыс. токенов;
📌 DeepSeek R1 (DeepSeek) — 128 тыс. токенов;
📌 Kimi K1.5 (Moonshot AI) — 200 тыс. токенов;
📌 Claude 3.7 Sonnet (Anthropic) — 128 тыс. токенов.
Теперь о Humanity's Last Exam – «Последнем экзамене человечества». Тест существует, чтобы проверить, насколько искусственный интеллект готов заменить «естественный». Состоит из 3000 вопросов, охватывающих математику, биологию, физику и другие области знаний, включая гуманитарные. У Gemini 2.5 Pro — 18,8%. Выдающийся результат. К счастью, до уровня человека — «думать и думать» 🧐. Для сравнения: эксперты (те, кто создавал этот тест) набирают 70-80%. Правда, лишь в своих областях. Официально на полном наборе их никто не гонял.
Gemini 2.5 Pro лидирует в GPQA (научный бенчмарк) и AIME (математика) 🏆. Сильно продвинулся кодинг — по данным SWE-Bench Verified (стандарт для оценки качества генерации кода), набирает 63,8%, уступая лишь Claude 3.7 Sonnet. Зато в Aider Polyglot — бенчмарке, оценивающем навыки редактирования кода — Gemini 2.5 Pro набрала 68,6% и вот тут уделала всех, включая Клода.
Модель заняла первое место в рейтинге LMArena с существенным отрывом от конкурентов. LMArena — платформа для оценки нейронок обычными людьми в «слепых» баттлах ⚔️: пользователи общаются с моделями попарно, не зная названий, и выбирают, какая справляется лучше. Говорят, этот тест максимально приближен к объективным оценкам 🎯. Мол, не чета академическим бенчам 📊.
Модель, конечно, мультимодальная — работает с текстом, аудио, видео, картинками, репозиториями кода. Разработчики могут поиграться с Gemini 2.5 Pro в AI Studio. Подписчики Advanced найдут модель в выпадающем списке. Ход теперь за OpenAI. Ждем ⏳.