Главная
—
Новости
—
Китайская нейросеть DeepSeek V3 взорвала бенчмарки: мощная, но много цензуры

Китайская нейросеть DeepSeek V3 взорвала бенчмарки: мощная, но много цензуры

Опубликовано: 30.12.24

Еще один «ИИ на базе миллиардов параметров» поставил на уши западный мир 💥. Нейронка DeepSeek V3 из Китая собралась подвинуть OpenAI и Anthropic 🤖. Ну и всем показать, что такое китайский искусственный интеллект. Вложили в нее всего ничего – $5,5 миллионов 💸. К примеру, на ChatGPT-4 ушло примерно $100 млн. Это только на обучение. В общем, китайский стартап DeepSeek за копейки разработал и выкатил нейросеть, которая очень достойно выглядит в компании флагманов.

По данным внутренних тестов DeepSeek V3 обходит по ряду параметров передовые модели с открытым (open-source) и закрытым исходным кодом – Llama3.1, Claude-3.5 и GPT-4o 📊. Другой вопрос, насколько этим тестам можно доверять. Как часто (почти всегда) бывает с релизами, их любят красиво «упаковывать». Для этого всего-то нужно дать нейронке специально подобранные задачи. Стандартная практика для показательных тестов. Но пока что имеем, тем и пользуемся.

Эксперты назвали DeepSeek V3 «технологическим прорывом» по ряду причин. Заявленные возможности сопоставимы с флагманскими моделями рынка. DeepSeek V3 генерирует тексты, пишет код, переводит, анализирует. При этом нейросеть опенсорсная, что сразу сто плюсов в карму 🙌.

DeepSeek-V3 занимает лидирующие позиции в трех из шести бенчмарков, представленных платформой. Впечатляют ее результаты в задачах на рассуждение – 90,2% на математическом тесте MATH 500, а также высокие оценки в тестах на кодирование, таких как Codeforces и SWE.

DeepSeek V3 с 671 миллиардами параметров и 14,8 триллионами токенов опережает многих по масштабу 📈. Это внушительная архитектура, особенно если сравнивать с GPT-4. В техническом отчете компания OpenAI воздержалась от указания точных данных. Ходят слухи, что GPT-4 может содержать от 500 миллиардов до 1,76 триллиона параметров. Это значит, что DeepSeek, как минимум, конкурентоспособная 💪. Ох, не зря OpenAI предложила технарям всех стран объединяться против Китая. Понимает угрозу.

Масштаб – не гарантия качества. Важно, как модель применяет ресурсы в реальных задачах. Благодаря открытому исходному коду у разработчиков есть возможность не только проверить модель, но и адаптировать ее под себя. И сразу отметим первый из недостатков. DeepSeek V3 – «тяжеловес». 671 миллиард параметров – это серьезно. Поставить, обучить и обслуживать такой масштаб – удовольствие не из легких и не из дешевых.

Как и многие (все) китайские LLM, DeepSeek работает в условиях строгой цензуры 🛑. Законы КНР предусматривают жесткие рамки. Свобода слова модели ограничена в ряде «чувствительных» тем. О китайской политике исключительно – «слава стабильности». Про события («бойню») на площади Тяньаньмэнь вежливо молчит или уклоняется от ответов 🤐. При обсуждении Коммунистической партии Китая напоминает об экономическом росте. В общем, соблюдает законы КНР на 110%.

Фото: Habr.com (BotHub)

Политическая цензура ограничена лишь диалогами о Китае. А пока о Китае речь не заходит, DeepSeek демонстрирует все свои 671 миллиарда параметров во всей полноте. И показывает западному миру, что Восток – дело не только тонкое, но и быстрое. Модель обучили всего за 2 месяца. А про деньги мы уже говорили – копейки. Поэтому, да – прорыв 🌟.

Neiroset.com

Комментировать

1.3 тыс.

Присоединяйтесь к нам и получите уникальные возможности:

📝 Публикуйте свои статьи и делитесь знаниями с миром
🤖 Откройте доступ к лучшим нейросетям и категориям для эффективного развития
💬 Общайтесь, комментируйте и оставляйте отзывы, делая наше сообщество ещё сильнее

Регистрация займёт всего минуту!

Китайская нейросеть DeepSeek V3 взорвала бенчмарки: мощная, но много цензуры

ТОП-10 СПОСОБОВ ЗАРАБОТКА НА НЕЙРОСЕТЯХ