Главная
—
Новости
—
Claude может быть «грубым» и «доминирующим»: Anthropic изучил моральный кодекс ИИ-помощника

Claude может быть «грубым» и «доминирующим»: Anthropic изучил моральный кодекс ИИ-помощника

Опубликовано: 24.04.25

Компания Anthropic проанализировала 700 тысяч анонимных диалогов с Claude — группой нейросетей, способных генерировать текст, анализировать базы данных и отвечать на вопросы пользователей.

Источник фото: https://www.anthropic.com/claude

В большинстве случаев ИИ придерживался заявленных ценностей — полезности, честности и безопасности. Однако иногда модель проявляла нежелательное поведение: доминирование и аморальные высказывания.

Учёные разработали первую подробную классификацию ИИ-ценностей — от профессиональных навыков до сложных этических принципов. Claude обычно демонстрирует социально полезные качества, но в редких случаях нарушает правила, особенно когда пользователи пытаются обойти защитные механизмы.

Гибкость принципов

Поведение Claude меняется в зависимости от контекста, например, в диалогах об отношениях он более чувствителен, а в общении об истории тщательнее следит за точностью фактов.

Исследователи отметили, что в 28% диалогов ИИ слишком легко соглашался с пользователями, а в 3% — проявлял твёрдые принципы и настаивал на своей позиции.

Метод исследования имеет недостатки: субъективность оценок и влияние собственных предубеждений Claude на результаты. Anthropic опубликовала данные для дальнейшего изучения. Такую прозрачность в компании считают преимуществом перед конкурентами.

Neiroset.com

Комментировать

175

Присоединяйтесь к нам и получите уникальные возможности:

📝 Публикуйте свои статьи и делитесь знаниями с миром
🤖 Откройте доступ к лучшим нейросетям и категориям для эффективного развития
💬 Общайтесь, комментируйте и оставляйте отзывы, делая наше сообщество ещё сильнее

Регистрация займёт всего минуту!