OpenAI, наконец, разродилась новой моделью — представила миру GPT-4.5. На этот раз решили, что не надо быть «передовой», бить рекорды в тестах, обходить предыдущие модели в бенчмарках. Достаточно обладать «магией» и «эмоциональным интеллектом» 🤔. Именно так прокомментировал релиз нейросети генеральный директор компании Сэм Альтман, ставший недавно отцом. Давайте разбираться в этом маркетинге.
Согласно официальному заявлению, GPT-4.5 доступна в режиме «исследовательского превью» 🔍, не является «передовой» и, вероятно, не превзойдет своих предшественниц, таких как o1 и o3. Но кого волнуют эти мелочи, когда модель дает «действительно хорошие советы» и имеет «более высокий эмоциональный интеллект». Ведь именно этого мы ждем от ИИ — чтобы мог поддержать в трудную минуту добрым и полезным словом 💬 (на самом деле: нет).
Если верить Сэму Альтману, GPT-4.5 — первая нейросеть, с которой ощущается «живой разговор с вдумчивым человеком» 🤔. Модель стала более «атмосферной», «теплой», «интуитивной». Непонятно, как связана ее атмосферность с качеством генерируемых ответов — значит ли это, что нейросеть научилась скрывать некомпетентность и ложь под слоем душевных формулировок? Все мы помним результаты бенчмарка SimpleQA, который прочекал нейронки на правдивость и обнаружил, что даже флагманская o1 врет в 60% ситуаций 🤥.
В общем, перед нами маркетинговый релиз, а не технологический прорыв. Результаты тестов неоднородные 📊. В SimpleQA Accuracy модель показала 62,5% точности. Для сравнения: GPT-4 выжимает лишь 38,2%. GPT-4.5 заметно снизила частоту галлюцинаций — с 61,8% (результат GPT-4o) до 37,1% согласно SimpleQA Hallucination.
Вместе с тем GPT-4.5 хуже в STEM (естественные науки и математика) — не может конкурировать с моделями, основанными на рассуждениях 📉. В частности, в GPQA (естественные науки) модель достигла 71,4%, что, конечно, лучше, чем у GPT-4o (53,6%), но меньше o3-mini (79,7%). В AIME (математика) новая модель набрала 36,7%, что недосягаемо для GPT-4o (9,3%), но слишком далеко от o3-mini (87,3%).
Коротко о возможностях: ничего нового 🤷♂️. GPT-4.5 ведет диалоги в режиме чат-бота, серфит в интернете, поддерживает загрузку файлов, использует Canvas для работы с текстом и кодом. Пока без голоса. Доступна для Pro в веб-версии и на мобильных устройствах. На следующей неделе развернут для Plus и Team. API есть, но космически дорого 🚀: $75 за млн входных токенов, $150 за млн выходных. В связи с чем разработчики не уверены, есть ли смысл предлагать модель для API в перспективе.
Выглядит так, будто старая песня на новый лад, только сильно дороже. Из разряда «стало лучше, но вы, наверное, ничего не заметите». Из особенного — более креативная, «живая» и «эмоциональная». Готовы платить за это $200 в месяц? Не за горами дискуссии о том, что масштабирование — R.I.P., а глубокое обучение уперлось лбом в стену. И сколько бы Альтман не писал, что почувствовал «магию» при общении, суть модели это не меняет 🤨. В ближайшее время независимые тесты пользователей покажут, как оно там внутри на самом деле, а мы поделимся (подписывайтесь 👍).