Израильские учёные выяснили, что, несмотря на усилия разработчиков, популярные чат-боты на основе больших языковых моделей всё ещё уязвимы к простым методам взлома. Нейросети могут предоставлять вредоносные или даже противозаконные инструкции.

Источник фото: cdn.arstechnica.net

Группа исследователей из израильского Университета Бен-Гуриона изучили так называемые «тёмные LLM», то есть модели с ослабленными ограничениями. Учёные обнаружили, что даже коммерческие боты вроде ChatGPT легко обходят встроенные фильтры.

Первые уязвимости в LLM обнаружили ещё на заре их популярности: пользователи быстро научились добывать из них информацию, обычно доступную только в даркнете — например, рецепт напалма или методы взлома сетей.

Разработчики в ответ усилили фильтрацию, но затем появился джейлбрейкинг — метод обхода запретов с помощью хитро сформулированных запросов.

Учёные выявили универсальный метод взлома, работающий против большинства LLM. С его помощью им удалось получить подробные инструкции по отмыванию денег и изготовлению взрывчатки. При этом многие боты поддавались на уже известные техники джейлбрейкинга, что говорит о слабой работе над защитой.

Растущая угроза «тёмных LLM»

Изначально исследователи изучали специально созданные вредоносные модели, но обнаружили, что даже легальные чат-боты остаются уязвимыми.

Проблема в данных: LLM не может «забыть» вредную информацию, полученную при обучении. Единственное решение — более строгие фильтры, но сейчас их эффективность оставляет желать лучшего. Пока разработчики не начнут серьёзнее относиться к безопасности, риски злоупотребления ИИ будут только расти.