Компания Anthropic проанализировала 700 тысяч анонимных диалогов с Claude — группой нейросетей, способных генерировать текст, анализировать базы данных и отвечать на вопросы пользователей.

Источник фото: https://www.anthropic.com/claude

В большинстве случаев ИИ придерживался заявленных ценностей — полезности, честности и безопасности. Однако иногда модель проявляла нежелательное поведение: доминирование и аморальные высказывания.

Учёные разработали первую подробную классификацию ИИ-ценностей — от профессиональных навыков до сложных этических принципов. Claude обычно демонстрирует социально полезные качества, но в редких случаях нарушает правила, особенно когда пользователи пытаются обойти защитные механизмы.

Гибкость принципов

Поведение Claude меняется в зависимости от контекста, например, в диалогах об отношениях он более чувствителен, а в общении об истории тщательнее следит за точностью фактов.

Исследователи отметили, что в 28% диалогов ИИ слишком легко соглашался с пользователями, а в 3% — проявлял твёрдые принципы и настаивал на своей позиции.

Метод исследования имеет недостатки: субъективность оценок и влияние собственных предубеждений Claude на результаты. Anthropic опубликовала данные для дальнейшего изучения. Такую прозрачность в компании считают преимуществом перед конкурентами.