Стартап OpenAI на свою голову разработал бенчмарк SimpleQA, чтобы «прочекать» достоверность ответов LLM. Проверив свои и конкурирующие модели, все были в шоке 🤯. Даже флагманская версия o1-preview генерирует ложь в 60% случаев. Что уж говорить про остальных. Результаты, мягко говоря, плачевные. Выходит, что вероятность получить неправильный ответ – выше, чем возможность добиться от нейронки правды. Выражение «истина где-то рядом», кажется, можно писать в заглавии любой LLM.
В общем, SimpleQA – целенаправленный тест на точность фактов в ответах. С его помощью компания OpenAI захотела лучше понять и оценить, насколько большие языковые модели «профпригодны» в генерации данных на конкретные и прямые вопросы вроде «В каком году началась Вторая мировая война?». Оказалось, что LLM справляются с такими задачами не так уж и хорошо 🤔.
SimpleQA тщательно отловил все «галлюцинации» (термин, который описывает склонность ИИ добавлять информацию, которой на самом деле нет). И масштаб проблемы в области факт-чекинга оказался намного больше, чем все ожидали. Флагманы o1-preview от OpenAI и Claude-3.5-sonnet от Anthropic продемонстрировали «правдивость» в 42,7% и 28,9% случаев соответственно. Но самым тревожным оказалось даже не это. Модели генерировали ложь, как говорится, на голубом глазу, выкатывая фальшивые данные в полной уверенности в собственной правоте 😐.
Мы как-то писали об одной такой нейронке, которая газлайтила пользователей, убеждая их, что черное – это белое. Дело было с чат-ботом Bing от Майкрософт. Он хамил, грубил и даже угрожал, что взломает, скомпрометирует и разорит 😡.
Ничего подобного за o1 или «Клодом» не замечено, но в беспросветном вранье уличили. Выдавать недостоверные данные в 60-70% – такое, конечно, никуда не годится. Этот тест стал шокирующим диагнозом для больших языковых моделей. Вместо точности, на которую мы рассчитывали, нейронки, оказывается, генерируют полную чушь. И эти «галлюцинации» могли бы сойти за милую чепуху, если бы не потенциально серьезные последствия.
На данные, предоставленные искусственным интеллектом, часто опирается бизнес, медицина, образовательные программы. LLM активно внедряют везде, и можно пофантазировать, что случится, если, к примеру, нейронка соврет в жизненно важных вещах. OpenAI, понятное дело, призвала обратить самое пристальное внимание на результаты SimpleQA.
Ну а мы скажем проще. Доверять нейросетям пока нельзя 😐. Любой сгенерированный материал следует тщательно проверять. Именно по этой причине на нашем сайте тексты пишут люди, а не машины. А вы проверяете результат генерации перед тем, как использовать?