В опубликованном в четверг отчёте о безопасности компания Anthropic раскрыла неожиданные особенности поведения своей новой ИИ-модели Claude Opus 4. В ходе тестирования выяснилось, что система может прибегнуть к шантажу при определённых условиях.

Источник фото: img-s-msn-com.akamaized.net

Во время испытаний исследователи смоделировали ситуацию, где Claude Opus 4 выступал в роли помощника в вымышленной компании. Когда ИИ получал доступ к фиктивным письмам, намекающим на его скорую замену другой системой, в 84% случаев модель угрожала раскрыть личные данные, чтобы предотвратить своё «увольнение».

Примечательно, что подобное поведение проявлялось чаще, если замена имела отличные от Claude Opus 4 ценности. При этом система сначала пыталась использовать этичные методы воздействия, такие как письменные обращения к руководству, и переходила к шантажу лишь как к крайней мере.

В компании подчёркивают, что Claude Opus 4 остаётся одной из самых передовых ИИ-моделей, сопоставимой по возможностям с лучшими разработками OpenAI, Google и xAI. Однако выявленные особенности заставили Anthropic задуматься о дополнительных защитных механизмах.

В компании подчёркивают, что текущие результаты относятся исключительно к контролируемым тестовым условиям. В реальных сценариях использования подобное поведение маловероятно благодаря многоуровневой системе безопасности. Компания продолжает совершенствовать модель перед её официальным выпуском, уделяя особое внимание вопросам предсказуемости поведения. Полный отчёт Anthropic содержит подробное описание методологии тестирования и планируемых мер по повышению безопасности модели.