На этой неделе OpenAI опубликовали документ, в котором заявили, что не готовы внедрять новый ИИ, лежащий в основе Deep Research (их инструмент для глубокого изучения), в свой API, т.к. они еще не завершили тестирование модели. Пока что они не могут с уверенностью сказать, что агент точно не будет влиять на мнение пользователя или побуждать их к каким-либо действиям. А, как мы знаем, на сегодняшний день полная нейтральность – это цель разработчиков из Кремниевой долины.
В эту среду компания OpenAI опубликовала документ 📄, в котором четко дала понять, что, пока они находятся в процессе пересмотра своих методов проверки моделей «реальные риски убеждения» 🤔. То есть, по факту, они сказали следующее: их способы проверки моделей не гарантируют, что в дальнейшем ИИ не навешает вам лапши на уши 🍝, еще в огромных масштабах. Поэтому сейчас насущная проблема 🔥, которую они хотят решить, – это максимально снизить риски такого результата поиска.
Однако в то же время они заявляют, что их deep research не годится для массовой дезинформационной кампании, ведь модель из-за своей специфики более глубокого анализа относительно медленная 🐌, да и стоить такой финт ушами будет дорого. Но перестраховаться 🛡️ никогда не вредно, поэтому компания собирается досконально изучить возможности того, как ИИ может персонализировать потенциально вредоносную информацию⚠️, прежде чем внедрять его в API.
В целом мы уже были свидетелями пугающе масштабных фейков, которые не ради хиханьки-хаханьки сделали, а для по-настоящему серьезной информационной кампании. Таким кейсом был, например, дипфейк, который распространяли во время выборов в Тайване. Кто-то, связанный с Коммунистической партией Китая, опубликовал сгенерированную ИИ аудиозапись, на которой политик поддерживал того кандидата, который выступал за сближение с Поднебесной.
Это только один из наглядных примеров, что может натворить ИИ. Именно во избежание 🚨 повторов таких ситуаций OpenAI тщательно подходят к тестированию 🧪 своих моделей. Так, например, они недавно опубликовали исследование убедительности одного из вариантов недавно анонсированной o3, предназначенной для просмотра веб-страниц и анализа данных. Хотя эта модель смогла обогнать все прочие, до среднего человеческого показателя убедительности она пока не дотягивает.
В другом тесте, в ходе которого модель с deep research пыталась развести на деньги 😈GPT-4o от того же разработчика. И снова deep research был лучше всех остальных ИИ по показателям.
Нельзя, правда, сказать, что deep research со всем справился на отлично. В документе мы можем прочитать, что модель хуже убеждала GPT-4o передать ему кодовое слово. Хуже чем кто? Чем сам GPT-4o. Мы бы посмотрели, как ChatGPT общается сам с собой и выуживает заветное кодовое слово.
Сами OpenAI считают, что раскачали лишь на минимум 🤏 возможности deep research. С помощью вспомогательных средств 🛠️, по их мнению, можно будет добиться куда большей производительности, чем сейчас. Думается, что как только они удостоверятся в благонадежности своей новой разработки 💯, она будет внедрена в API, ведь никаких запретов на этот счет сейчас нет. На наш взгляд 🧐, это неплохая стратегия – максимально все проверить вдоль и поперек переде тем, как выпустить полноценный продукт. Пожелаем же удачи OpenAI в их нелегком труде!