У DeepSeek появился преемник. Китайский «агент» под названием Manus взорвал индустрию ИИ 💥. Никогда такого не было, и вот опять Поднебесная укрепляет позиции. Запущенная стартапом Manus AI модель умеет планировать, запускать и выполнять процессы типа создание сайтов, анализ фондовых бирж, составление инвест-планов. Сама. Демонстрационные видео стали вирусными 🔥 и вызвали ажиотаж с перепродажей кодов доступа, вынуждая всех сравнивать Manus с прорывом DeepSeek в начале 2025 года.

Напомним, в январе скромный китайский стартап DeepSeek из Ханчжоу выкатил модель R1, которая удивила мир качеством, сопоставимым с ChatGPT-o1 от OpenAI. В ряде тестов — AIME, MATH-500, SWE-bench Verified — DeepSeek превзошла американскую конкурентку. Из минусов — фильтрует контент, не соответствующий «социалистическим ценностям», и избегает обсуждения тем, которые могут вызвать неодобрение со стороны китайских властей.

Теперь вот Manus обходит другую модель OpenAI — DeepResearch. Китайская версия «агентского ИИ» может просматривать и сортировать резюме, анализировать рынки, генерировать отчеты, создавать туристические маршруты и все остальное. Это агент не специального, а универсального назначения. Может все и делает это «по-настоящему автономно». Система, как обычно, работает «от промпта» — пользователь пишет на естественном языке, что нужно, а Manus выполняет.

Снаружи Manus похож на Operator, который умеет по заданию планировать действия и выполнять их, используя веб-интерфейсы. Мы знаем, что под капотом у Operator — специально обученный и расширенный ChatGPT-4o 🤖. Manus, сообщает соучредитель и главный научный сотрудник проекта Yichao «Peak» Ji, опирается на Claude 3.5 Sonnet от Anthropic и Qwen от Alibaba. В срочном порядке тестируют Claude 3.7 Sonnet, которая, по словам Ичао «Пик» Джи, «показывает многообещающие результаты».

Бенчмарк, которым похвастались разработчики, пока один — это GAIA (General AI Assistants) 📊. Согласно тесту, ИИ-агент Manus превзошел DeepResearch OpenAI, демонстрируя преимущество по всем трем уровням сложности 🏆. Местами превзошел незначительно, как, например, на Level 2 (задачи средней сложности типа анализа данных), где Manus опередил DeepResearch на 1%, но будем иметь в виду, что «агента» еще допилят и, скорее всего, переведут на рельсы Claude 3.7 Sonnet.

Результаты бенчмарка GAIA: сравнение успешности выполнения задач для Manus, OpenAI DeepResearch и Previous SOTA

Самое главное: разработчики утверждают, что автономность агента превосходит существующие модели 🚀. Система интегрируется с инструментами и приложениями, что позволяет ей самостоятельно серфить в интернете, писать письма, заполнять формы, запускать скрипты и даже разрабатывать софт. В отличие от Operator, который работает через браузер, Manus действует в облаке ☁️. Можно дать агенту задание и выключить ПК — будет трудиться. Вот что значит «по-настоящему автономно».

Как оно на самом деле, сказать сложно 🤔. Manus доступен для тестировщиков по пригласительным кодам 🔒. Первые пользователи уже столкнулись с проблемами, намекающими на то, что продукт нужно сильно допиливать, потому что слишком сырой. Но широкий шаг в сторону будущего, о котором нам говорили (машины вместо людей), кажется, сделан ✅. Manus знаменует собой нечто большее, чем «еще один ИИ-агент». Искусственный интеллект из категории «помощник» переходит на уровень «независимо действующее лицо». Manus демонстрирует потенциал ИИ как самостоятельного субъекта, и этот сдвиг (снова) вынуждает серьезно задуматься о безопасности.