Новая нейросеть YandexART стала «умнее» и теперь генерирует текст на картинках

Главное в нише генеративных ИИ – не отставать от конкурентов. В идеале – делать круче. Разработчики Яндекс, следуя этой логике, обновили нейронку YandexART до версии 2.0. Новая нейросеть научилась генерировать надписи на картинках. Ну и в целом повысила качество. Пишут, что стала «умнее» за счет уникальной гибридной архитектуры, которая сочетает все лучшее из сверточных и трансформерных нейросетей.

Начнем с генерации текста. Вообще визуальные нейронки умеют делать буквы на картинках. Но чтобы составить из букв слова, для этого нужны специальные навыки. YandexART 2.0 для этого обучили. Разработчики расширили датасет сотнями тысяч изображений, на которых есть текст. Проще говоря, показали много примеров, как надо. В итоге нейронка научилась генерировать надписи. Правда, пока латинскими буквами. Говорят, что кириллица скоро подъедет.

Главное в нише генеративных ИИ – не отставать от конкурентов. В идеале – делать круче. Разработчики Яндекс, следуя этой логике, обновили нейронку YandexART до версии 2.0. Новая нейросеть научилась генерировать надписи на картинках. Ну и в целом повысила качество. Пишут, что стала «умнее» за счет уникальной гибридной архитектуры, которая сочетает все лучшее из сверточных и трансформерных нейросетей.

Начнем с генерации текста. Вообще визуальные нейронки умеют делать буквы на картинках. Но чтобы составить из букв слова, для этого нужны специальные навыки. YandexART 2.0 для этого обучили. Разработчики расширили датасет сотнями тысяч изображений, на которых есть текст. Проще говоря, показали много примеров, как надо. В итоге нейронка научилась генерировать надписи. Правда, пока латинскими буквами. Говорят, что кириллица скоро подъедет.

Теперь про гибридную архитектуру, на которой работает новая версия. Раньше YandexART «стояла» на сверточной. Было неплохо, но ничего особенного. Компания пробовала перейти на трансформеры, но качество сильно лучше не стало. Разработчики не стали выбирать и собрали гибрид, объединив в одной архитектуре сильные стороны двух.

В итоге YandexART, с одной стороны, работает как человеческий глаз (сверточная часть модели), идентифицируя на картинке ключевые параметры объектов – форму, текстуру и прочее. Трансформерная часть помогает учесть все детали контекста, то есть следовать длинному промпту. И теперь, например, для YandexART не проблема комбинировать несколько стилей в одной картинке. Cгенерировать реалистичную бутылку с лимонадом, этикетка которой в стиле поп-арт – легко.

Разработчики Яндекс с пристрастием (нет) модель оценили. Даже создали свою систему оценки. В ней четыре исследуемых параметра – релевантность, эстетика, комплексность (сложность), дефектность. Параметры сравнивали не только с предыдущей версий, но и с флагманами рынка. И что вы думаете – в двух случаях из четырех обновленная нейронка Яндекса победила Midjourney 6.1. Вот таблица, где зеленым отмечены преимущества YandexART 2.0 в сравнении с другими моделями.

Протестировать демо можно на «облаке» Yandex Cloud. Там же примеры изображений с промптами. И, конечно, нейронка доступна всем пользователям «Алисы». Только бесплатным подписчикам выдали 5 картинок в сутки. Пользователи Pro могут ни в чем себе не отказывать.