Израильские учёные выяснили, что, несмотря на усилия разработчиков, популярные чат-боты на основе больших языковых моделей всё ещё уязвимы к простым методам взлома. Нейросети могут предоставлять вредоносные или даже противозаконные инструкции.
Источник фото: cdn.arstechnica.net
Группа исследователей из израильского Университета Бен-Гуриона изучили так называемые «тёмные LLM», то есть модели с ослабленными ограничениями. Учёные обнаружили, что даже коммерческие боты вроде ChatGPT легко обходят встроенные фильтры.
Первые уязвимости в LLM обнаружили ещё на заре их популярности: пользователи быстро научились добывать из них информацию, обычно доступную только в даркнете — например, рецепт напалма или методы взлома сетей.
Разработчики в ответ усилили фильтрацию, но затем появился джейлбрейкинг — метод обхода запретов с помощью хитро сформулированных запросов.
Учёные выявили универсальный метод взлома, работающий против большинства LLM. С его помощью им удалось получить подробные инструкции по отмыванию денег и изготовлению взрывчатки. При этом многие боты поддавались на уже известные техники джейлбрейкинга, что говорит о слабой работе над защитой.
Растущая угроза «тёмных LLM»
Изначально исследователи изучали специально созданные вредоносные модели, но обнаружили, что даже легальные чат-боты остаются уязвимыми.
Проблема в данных: LLM не может «забыть» вредную информацию, полученную при обучении. Единственное решение — более строгие фильтры, но сейчас их эффективность оставляет желать лучшего. Пока разработчики не начнут серьёзнее относиться к безопасности, риски злоупотребления ИИ будут только расти.