Любая технология в какой-то момент врезается с разбега в потолок, преодолеть который можно только после значительного скачка в развитии. Таким камнем преткновения для ИИ стали анализ и интерпретация больших текстов📖. Сегодняшние модели еще не научились адекватно связывать сущности (например, отличить город Киров от Кирова-революционера исходя из контекста) или сделать выводы из многа букав. Ризонинг модели еще не стали достаточно самостоятельными, а потому очень зависимы от четких инструкций ✔️в этих ситуациях.

К таким выводам пришли исследователи из LMU в Мюнхене, Центра машинного обучения Munic и Adobe Research. Для анализа были взяты 12 новейших моделей ИИ, таких как GPT-4o, Gemini 1.5 Pro и Llama-3.3-70B, ведь все они способны поддерживать контексты длинной не менее 128 000 токенов.

Проверку производили с помощью бенчмарка NOLIMA (отсутствие буквальных совпадений), т.е. цель теста – проверить способность моделей сопоставлять факты текста и делать выводы. Но чтобы жизнь медом не казалась, вопросы и фрагменты текста (подсказки) формулируются разными словами. Получается, модель должна понять, проанализировать текст и выстроить связь между разными терминами.

Например, подсказка содержит следующую фразу: “На самом деле Юки жил по соседству с оперой Земпера”. ИИ задают вопрос по тексту: "Какой персонаж раньше был в Дрездене?". Легким запросом в Google🌐 человек может узнать, что оперный театр находится в Дрездене. Но это человек. А модель должна самостоятельно найти связь между Дрезденом и оперой Земпера. Как только она справится с этой задачей, сможет верно ответить на вопрос – “Юки”.

В ходе исследования выяснили, что качество ответов значительно снижается с увеличением символов в тексте📉. 8000 токенов стали верхней границей корректной работы большинства ИИ, а некоторые сдавали позиции уже после 2000 токенов. 32 000 токенов стали неподъемными для 10 из 12 моделей. Лучше всех себя показал GPT-4o, он дал больше 60% правильных ответов даже при максимальном объеме текста.

С чем может быть связана эта проблема? Исследователи предположили, что вся загвоздка – в механизмах внимания💡, базовых для моделей трансформеров, которые при большой нагрузке сильно перегружаются. ИИ приходится совершать больше действий из-за отсутствия буквальных подсказок в тексте, а это, в свою очередь, снижает производительность и затрудняет поиск релевантной информации. Даже порядок слов влияет на результаты работы ИИ: если ответ стоит после ключевого слова, то все, модель может его не увидеть.

Исследователи придумали еще и hard уровень⚔️ для ИИ, состоящий из 10 самых сложных пар вопрос-ответ теста, и назвали это NOLIMA-Hard. Здесь посыпались уже все. Дажеo1, o3-mini и DeepSeek-R1 не справились и с половиной вопросов на материале текстов в 32 000 токенов, хотя с меньшими текстами работали практически безупречно💯.

На помощь в этой непростой сложившейся ситуации может прийти метод подсказки по цепочке рассуждений, если дело касается Llama-3.3-70B. Но даже так это лишь костыль🩼 для улучшения производительности модели в работе с большими текстами, а не решение проблемы. Можно было бы все же давать тексты с буквальными повтоорениями, это действительно улучшает ситуацию в этом аспекте, только, как это часто бывает, починишь одно, вылезет другое: если это буквальное совпадение встретится как отвлечение в другом, не относящемся к теме тексте, это тоже снизит производительность. Получается, ни специализированные для этих задач модели, ни метод подсказок по цепочке рассуждений проблему решить не могут.

Итак, исследователи делают вывод: современные модели ИИ опираются на поверхностные сигналы🚨, а если их нет, то производительность резко падает. Решение этой ситуации они определяют как один из ключевых вопросов для современных разработчиков.

На практике это тоже можно будет использовать, например, с поисковыми системами на RAG. Они хранят в себе информацию порционно в векторных базах, а потому с их использованием отпадает необходимость в больших контекстных окнах. При работе с этими поисковыми системами языковая модель даже смогла бы найти нужный документ, но из-за отсутствия буквальных совпадений и из-за неспособности найти релевантные связи итоговый ответ ИИ будет неверным🪢. Так что это не исследование британских ученых (хотя бы потому что они по большей части немцы), оно не бесполезное!

В целом последнее время наблюдается большой коммерческий интерес к логическим рассуждениям ИИ и к большим контекстным окнам. Здесь себя лучше всего показывает Gemini 1.5 Pro, способный обрабатывать текст аж до 2 000 000 токенов. А ведь когда-то мы начинали с 4096 токенов для GPT-3.5 и 8000 — для GPT-4… И даже при работе с таким небольшим, казалось бы, объемом данных ИИ не справлялся с извлечением последовательности слов. Но он ведь быстро учится, что и показал проведенный бенчмарк “иголка в стоге сена”, проведенный разработчиком Anthropic. Раньше этот тест был эталонным, но с сегодняшнего дня, похоже, появился альтернатива получше. NOLIMA — новое слово🆕 в тестировании ИИ. Он способен оценивать реальные способности моделей эффективно (или не очень) справляться с большими контекстными окнами. А чем корректнее мы оценим ИИ, тем лучше мы поймем пробелы в его работе, а значит, сможем их исправить⚒️.

Сегодня эти ученые сделали маленький шаг в своем исследовании, который сможет привести нас в будущем к прекрасному умному ИИ!