ИИ появился в нашей жизни совсем недавно, а перед учеными уже возникают серьезные трудности, связанные с его тестированием. Большая часть тех тестов, которые мы имеем, проверяют навыки ИИ, необходимые разве что докторам наук👨🎓: FrontierMath, направленный на развитие ИИ в сфере высшей математики, или Humanity’s Last Exam, который охватывает вообще все самые сложные научные аспекты. Искусственный интеллект делает поразительные успехи в этом направлении, но все еще не способен решить элементарные детские загадки. А все из-за низкого уровня понимания причинно-следственных связей.
Именно эту проблему группа молодых исследователей из Колледжа Уэллсли, Оберлинского колледжа, Техасского университета в Остине, Северо-Восточного университета и стартапа Cursor взялись решить с помощью… загадок с радио📻. Да, именно в простых логических задачках от Уилла Шортца, специалиста по кроссвордам из The New York Times и ведущего сегмента Sunday Puzzle на радиостанции NPR, они видят ключ к разгадке этой дилеммы. Цель ученых, по словам Арджуна Гуха, студента IT направления Северо-Восточного университета и соавтора исследования, – «разработать тест с задачами, которые люди могут понять, обладая лишь общими знаниями».
А в чем преимущество такого метода? Все просто: ИИ не сможет использовать «механическую память» для решения головоломок и вынужденно будет прибегать к построению логических связей🧠. Насколько удачным будет этот опыт – покажет время. Хотя и у этого бенчмарка есть свои минусы: головоломки ориентированы на американцев и, естественно, созданы только на английском языке. Да и головоломки эти можно найти в общем доступе на сайте самого NPR, так что, вероятно, ИИ уже обучался на них и может в некотором смысле «жульничать» 👁, хотя Гуха отрицает такую вероятность за неимением доказательств. Группа ученых планирует обновлять тест каждую неделю с выходом новых «воскресных пазлов», чтобы прослеживать актуальные изменения производительности моделей.
Пока по полученным результатам лидируют о1 от OpenAI и R1 от DeepSeek. Хотя моделям логического мышления и тратят больше времени (может уйти несколько минут⏳), благодаря фактчекингу, о1 выдавал правильный результат в 59% случаев, о3-mini — 47% и R1 — 35%. Забавно, что R1 демонстрировал почти человеческое поведение в ходе теста: давал неправильные ответы, тут же сам признавал, что это не то, а потом и вовсе сдавался. Модели делали и другие странные выборы: бессмысленно объясняли ответ, бесконечно «размышляли», давали правильный ответ, но тут же предлагали неправильные альтернативы. «При решении сложных задач R1 буквально говорит, что он «разочарован» 😞, — сказал Гуха. Но как «разочарование» влияет на построение логических связей, еще никто не понял.
Дальше — больше💪. Следующим шагом исследователи планируют расширить спектр моделей рассуждения в тестировании, чтобы узнать, как улучшить эти ИИ. Не нужно быть доктором наук, чтобы уметь рассуждать. Если эти ученые смогут разработать бенчмарк, в основе которого лежат общие знания, это откроет возможности для других исследований в данной области. К тому же ИИ теперь нужны не только в бизнесе и науке, они используются повсеместно. Так что ИИ всем, и пусть никто не уйдет обиженным! 🌟