Это случилось. Искусственный интеллект научился «думать». 12 сентября 2024 года OpenAI выкатила новую ИИ-модель. Проект разрабатывался под кодовым названием Strawberry, а релизнулся как o1. Говорят, что «рассуждает» как человек. Правда, со скоростью, которой люди могут только завидовать.

Процесс человеческого мышления имитирует специальный алгоритм chain of thought («цепочка мыслей»). Модель не просто копирует паттерны, которые видела при обучении. Ее тренировали с помощью метода подкрепления reinforcement learning. Что-то похожее на дрессировку собак. За «правильные» результаты – «молодец» и вкусняшка. Если делает плохо – строгий взгляд с укоризной. Нейросеть в итоге учится на своих ошибках и прежде чем что-то сделать, думает о последствиях.

o1 уже доказала, что способна на большее, чем GPT-4o. На Международной математической олимпиаде GPT-4o справился с 13% задач, тогда как o1 – с 83%. На олимпиаде по информатике модель заняла 49-е место. А еще смогла превзойти кандидатов наук в сложных тестах на знание химии, физики и биологии. В общем, если срочно нужно написать кандидатскую, o1 – ваш лучший товарищ.

Это не просто какая-то текстовая болталка. Перед нами ИИ-модель принципиально нового уровня. В компании отмечают, что «галлюцинации» в модели на минималках. Это значит, что модель намного реже (в сравнении с GPT-4o) выдает дезинформацию.

Ложка дегтя, конечно же, есть. Модель не просматривает веб-страницы, не обрабатывает изображения, не поддерживает загрузку файлов (пока). Ну и высокая стоимость, если использовать через API – $15 за миллион входных токенов и $60 за миллион выходных. Для сравнения, GPT-4o обходится в 5 и 15 долларов соответственно. А что вы думали. За «ум» приходится платить.

Для всех остальных модель доступна по подписке Plus в двух вариантах: o1-preview и o1-mini. Preview – универсальная версия. Mini ориентирована на задачи категории STEM (что-то из области технических дисциплин и естественных наук).

Конечно же, OpenAI планирует делать o1 более мощной с каждым последующим обновлением. Но даже предварительная версия впечатляет способностью глубоко погружаться в задачу, «обдумывать», «рассуждать». Да, это требует больших мощностей, но себя таких расходы оправдывают. Пробуем превью, оно доступно, и ждем, когда выкатят полную версию. Обещают, что скоро.