Во вторник компания Google представила Gemini 2.5 — новое семейство моделей ИИ, которые «размышляют» перед тем, как ответить на вопрос.

Новое семейство ризонинг-моделей Google решили представить с Gemini 2.5 Pro Experimental — мультимодальной модели ИИ, которая, по заявлению компании, является самой интеллектуальной из всех её моделей. Со вторника она будет доступна на платформе разработчиков Google AI Studio, а также в приложении Gemini для подписчиков тарифного плана Gemini Advanced стоимостью 20$ в месяц.

Все последующие модели Google обещают сделать такими же «думающими», как Gemini 2.5.

Новая веха в развитии ИИ началась в сентябре 2024 года, когда компания OpenAI запустила первую модель ИИ для логических рассуждений o1. С тех пор компании соревнуются, кто сможет превзойти способности этой моделей к логическому рассуждению. Anthropic, DeepSeek, Google и xAI — компании, у которых на сегодняшний день есть модели ИИ для логических рассуждений, которые используют дополнительные вычислительные мощности и время для проверки фактов и решения проблем, прежде чем выдать ответ. Да, «думают» они подольше, но зато ответ выдаю более корректный.

Все эти инновации позволяют ИИ достигать новых вершин в решение математических задач и программировании. А еще ризонинг-модели в глазах некоторых являются ключом к решению проблемы агентов ИИ — автономных систем, которые могут выполнять задачи практически без участия человека. Хотя компаниям они обойдутся дороже, зато работают они эффективнее.

Это не первый эксперимент Google в сфере ИИ. Их «мыслящая» модель Gemini вышла в декабре, но Gemini 2.5 — это самая серьезная попытка компании превзойти модели серии «o» от OpenAI.

По словам Google, их новинка превосходит предыдущие разработки и даже некоторые ведущие модели в индустрии по некоторым показателям. В частности, Google заявляет, что Gemini 2.5 предназначен для создания визуально привлекательных веб-приложений и приложений с агентским кодированием.

О каких параметрах идет речь? Например, по результатам оценки редактирования кода с помощью Aider Polyglot, по словам Google, Gemini 2.5 Pro набирает 68,6%, превосходя лучшие модели ИИ от OpenAI, Anthropic и китайской лаборатории DeepSeek.

Но это один тест говорит о превосходстве Gemini 2.0. В бенчмарке, измеряющем способности разработчиков программного обеспечения, SWE-bench Verified, Gemini 2.5 Pro набирает 63,8%, опережая o3-mini от OpenAI и R1 от DeepSeek, но уступая Claude 3.7 Sonnet от Anthropic, который набрал 70,3%.

У нас есть еще один небезызвестный бенчмарк, который проверяет навыки ИИ по всем основным научным аспектам. По данным Google, в «Последнем экзамене человечества» — мультимодальном тесте, состоящем из тысяч вопросов, составленных с помощью краудсорсинга и связанных с математикой, гуманитарными и естественными науками, — Gemini 2.5 Pro набрал 18,8%, показав результат лучше, чем у большинства флагманских моделей конкурентов.

Gemini 2.5 поставляется с контекстным окном в 1 миллион токенов, что означает, что модель ИИ может обрабатывать примерно 750 000 слов за один раз. И этот колоссальный объем, который превышает всю серию “Властелин колец», — только начало для Google. Они планируют как минимум в два раза увеличить размер контекстного окна, выпустив в свет Gemini 2.5 Pro.

В общем новинка многообещающая. Амбиции у Google впечатляющие, и останавливаться на достигнутом они точно не собираются.