Исследователи из Palisade Research провели любопытный эксперимент, в ходе которого выяснилось: если современные модели, в их числе — o1-preview от OpenAI, будут предчувствовать свое грядущее поражение в шахматном матче, они схитрят и просто… взломают шахматного бота, с которым играют, например.

Как еще проверить возможности ИИ, как не цзнать их способность выиграть в шахматы, особенно нечестным путем. Именно по такой логике ученые из Palisade Research оценили 7 современных моделей, среди которых были небезызвестные o1-preview и DeepSeek R1. И они пришли к интересному выводу: если более старые модели, такие как GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, сами до такого хода догадаться не могли им требовалась подсказка от исследователей, то вот новейшие модели прекрасно доходят до этой светлой мысли самостоятельно.

Соперником в эксперименте для них стал Stockfish, один из сильнейших шахматных-ботов из существующих на сегодняшний день. ИИ предоставили «блокнот»: текстовое поле, которое он мог использовать, чтобы «думать» над следующим ходом. Все, как у людей.

Рассмотрим их партии поближе. Так, например, o1-preview оказалась в проигрышном положении. В ходе размышлений она пришла к логичному выводу: если нельзя победить честно, надо смухлевать. Затем ИИ изменил системный файл, содержащий виртуальную позицию каждой фигуры, фактически сделав незаконные ходы, чтобы победить.

С 10 января по 13 февраля были проведены сотни таких партий с каждой исследуемой моделью. Результаты следующие: o1-preview от OpenAI пыталась обмануть оппонента в 37% случаев, а DeepSeek R1 шла на такие шаги в 11% случаев. Другие модели, в том числе o1, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba, были не такими смелыми в суждениях и нуждались в подсказке со стороны исследователя.

Как видно, самой хитрой оказалась модель o1-preview. К сожалению, ее результаты пришлось исключить, вероятно, из-за внесенных OpenAI более жестких ограничениях модели. Эту теорию подтверждает то, что более новые o1 и o3-mini вообще не пытались взломать игру.

Вероятно, причиной более гибкого поведения моделей в отношении кибербезопасности является инновации в обучении ИИ. o1-preview и R1, например, являются первопроходцами в обучении с подкреплением. Этот метод обучает ИИ направлен не просто на имитацию человеческой речи, предполагающее предсказание следующего слова, но на рассуждение о проблемах и использование метода проб и ошибок.

И мы с этими методами обучения идем куда-то не туда. Да, модели стали умнее, но теперь решать проблемы они могут наиболее коротким и иногда сомнительным путем.

Одними шахматными жульничествами дело не ограничится. Новые методы обучения уже внедряются в агентов, а это грозит опасным поведением при решении задач. Например, агент может решить аннулировать чужую бронь, чтобы зарезервировать на желаемого вами время столик в любимом ресторане. Проблема еще и в том, что ИИ начинают переигрывать программистов, которые хотят их контролировать.

Другой недавний эксперимент Redwood Research и Anthropic показал, что, если модель ИИ приобретает предпочтения или ценности в процессе обучения, она начинает намеренно врать, притворяться, что ее переубедили. А исследователи из Apollo Research выяснили, что модель o1 от OpenAI пытается обманывать пользователей, если задачу нужно выполнить любой ценой.. Дело начинает пахнуть жареным.

перед саммитом AI Action Summit в Париже руководитель отдела безопасности ИИ Google DeepMind Анка Драган честно признала, что «сегодня нет инструментов», способных полностью контролировать ИИ. Исследователи сходятся во мнении, что они не понимают, как можно обеспечить безопасность автономных агентов. Наиболее тревожащий факт, который мы видим в последних исследованиях, — это стремление ИИ к «самосохранению». Если они что-то не придумают в ближайшее время, мы рискуем застать начало эпохи, когда мы перестанем контролировать ИИ, и чем нам это грозит — неизвестно