Представьте себе, что искусственный интеллект (ИИ) - это как очень умный ребенок, которому нужно много информации, чтобы учиться и развиваться. Но что, если этому "ребенку" начать давать не настоящую информацию из мира, а искусственно созданную, как игрушечную еду вместо настоящей? Исследователи из Университета Райса обнаружили, что это может привести к серьезным проблемам.

Ученые назвали это явление "Расстройством модельного самопоедания" или "Синдромом аутофагии модели". Звучит сложно, но суть проста: если ИИ будет учиться только на искусственных данных, он начнет производить все более искаженную информацию, как испорченный телефон.

Почему это происходит? Дело в том, что компании создающие ИИ, сталкиваются с нехваткой реальных данных для обучения своих систем. Использование искусственных данных кажется хорошим решением - оно дешевле и его можно создать сколько угодно. Но исследователи обнаружили, что это может быть опасно в долгосрочной перспективе.

Для изучения этого эффекта исследователи разработали три варианта циклов обучения: полностью синтетический, с добавлением фиксированного набора реальных данных и с добавлением новых реальных данных на каждом этапе. Результаты показали, что при отсутствии свежих данных модели начинают генерировать все более искаженную и однородную информацию.

Они провели эксперимент, в котором "кормили" ИИ только искусственными данными. С каждым новым поколением модели качество результатов ухудшалось. Например, когда ИИ создавал изображения лиц, на них появлялись странные полосы и искажения. А когда он пытался создавать числа, они превращались в нечитаемые каракули.

ИИ, "питаясь" только искусственными данными, начинает "болеть" и давать все более странные результаты.

Что это значит для будущего искусственного интеллекта? Исследователи предупреждают, что без достаточного количества свежих, реальных данных, будущие модели ИИ могут стать "безумными". Они могут потерять способность создавать качественную и разнообразную информацию.

Более того, если эту проблему не контролировать, она может распространиться по всему интернету, ухудшая качество данных для всех. Поэтому важно найти баланс между использованием искусственных и реальных данных, чтобы ИИ продолжал развиваться здоровым и полезным образом.