Еще один «ИИ на базе миллиардов параметров» поставил на уши западный мир 💥. Нейронка DeepSeek V3 из Китая собралась подвинуть OpenAI и Anthropic 🤖. Ну и всем показать, что такое китайский искусственный интеллект. Вложили в нее всего ничего – $5,5 миллионов 💸. К примеру, на ChatGPT-4 ушло примерно $100 млн. Это только на обучение. В общем, китайский стартап DeepSeek за копейки разработал и выкатил нейросеть, которая очень достойно выглядит в компании флагманов.

По данным внутренних тестов DeepSeek V3 обходит по ряду параметров передовые модели с открытым (open-source) и закрытым исходным кодом – Llama3.1, Claude-3.5 и GPT-4o 📊. Другой вопрос, насколько этим тестам можно доверять. Как часто (почти всегда) бывает с релизами, их любят красиво «упаковывать». Для этого всего-то нужно дать нейронке специально подобранные задачи. Стандартная практика для показательных тестов. Но пока что имеем, тем и пользуемся.

Эксперты назвали DeepSeek V3 «технологическим прорывом» по ряду причин. Заявленные возможности сопоставимы с флагманскими моделями рынка. DeepSeek V3 генерирует тексты, пишет код, переводит, анализирует. При этом нейросеть опенсорсная, что сразу сто плюсов в карму 🙌.

DeepSeek V3 с 671 миллиардами параметров и 14,8 триллионами токенов опережает многих по масштабу 📈. Это внушительная архитектура, особенно если сравнивать с GPT-4. В техническом отчете компания OpenAI воздержалась от указания точных данных. Ходят слухи, что GPT-4 может содержать от 500 миллиардов до 1,76 триллиона параметров. Это значит, что DeepSeek, как минимум, конкурентоспособная 💪. Ох, не зря OpenAI предложила технарям всех стран объединяться против Китая. Понимает угрозу.

Масштаб – не гарантия качества. Важно, как модель применяет ресурсы в реальных задачах. Благодаря открытому исходному коду у разработчиков есть возможность не только проверить модель, но и адаптировать ее под себя. И сразу отметим первый из недостатков. DeepSeek V3 – «тяжеловес». 671 миллиард параметров – это серьезно. Поставить, обучить и обслуживать такой масштаб – удовольствие не из легких и не из дешевых.

Как и многие (все) китайские LLM, DeepSeek работает в условиях строгой цензуры 🛑. Законы КНР предусматривают жесткие рамки. Свобода слова модели ограничена в ряде «чувствительных» тем. О китайской политике исключительно – «слава стабильности». Про события («бойню») на площади Тяньаньмэнь вежливо молчит или уклоняется от ответов 🤐. При обсуждении Коммунистической партии Китая напоминает об экономическом росте. В общем, соблюдает законы КНР на 110%.

Политическая цензура ограничена лишь диалогами о Китае. А пока о Китае речь не заходит, DeepSeek демонстрирует все свои 671 миллиарда параметров во всей полноте. И показывает западному миру, что Восток – дело не только тонкое, но и быстрое. Модель обучили всего за 2 месяца. А про деньги мы уже говорили – копейки. Поэтому, да – прорыв 🌟.