Пока Midjourney пилит «семерку», а Dall-E плывет ко дну, Ideogram выкатил версию 3.0. Картинки выглядят как фотоснимки 📸. Шрифты и текст стали лучше. В тестах, включая ELO, модель обошла конкурентов 🏆. Разработчики хотели размыть границу между реальным и сгенерированным. Кажется, получилось.
В человеческих тестах модель победила другие text-to-image. В подтверждение нам показали рейтинг ELO. Третья версия забрала наибольшее количество баллов (1132). Проще говоря, люди чаще выбирали Ideogram. Гугловский Imagen отстает на целую сотню (1023), ну а Dall-E, ожидаемо, на почетном первом месте с конца (910).
ELO — это вам не бенчмарки, которые покажут ровно то, что надо разрабам. Система пришла к нам из мира шахмат. Используется везде, где нужно что-то с чем-то объективно сравнить. В контексте генеративных моделей ELO реализуется как «баттл»: составляется список промптов, охватывающих разные стили, темы и уровни сложности → промпты даются моделям → те генерируют → генерации сравниваются в парах без указания авторства. Люди честно — «что вижу, то пою» — выбирают лучшее из двух. Потом начинается сложная математика с учетом фактического результата, коэффициента чувствительности и т.д. В результате: Ideogram 3.0 всех перегенерировал 🏆.
В новой модели появилась возможность загружать картинки в качестве референсов (Style Reference), чтобы нейронка сняла их стилистику и использовала при генерации. Можно, конечно, словами через текст: «неоновые 80-е в духе VHS с легким шумом и мягкими тенями» в надежде, что вас правильно поймут хотя бы с десятой попытки, но проще показать и сразу получить, что нужно. Для неожиданных экспериментов есть случайная стилизация на базе библиотеки из 4+ миллиардов (!!) предустановок (Random Style). Попалось что-то удачное — сохраняйте и пользуйтесь (Style Code) 📌.
Ideogram 3.0 как будто бы сделал прорыв в генерации текстов на картинке. Судя по пруфам, грамматически и графически все безупречно. Не самые простые времена наступают у фрилансеров с бирж. Ideogram 3.0 дает малому бизнесу и стартапам инструмент, который за секунды создает отполированные логотипы, промо-постеры, концепты лендингов, фотосессии товаров с идеально вписанным текстом. Без дизайнеров, правок и нервов. Быстро и дешево.
Разрабы напоминают о Batch Generation. Пакетную генерацию завезли на платформу еще в декабре для тех, кому генерировать картинки поштучно — это долго, потому что надо много и в одном и том же стиле. Загрузите таблицу с промптами, настройте пропорции, задайте палитру и получайте картинки оптом (доступно для Pro).
Главная ставка — на реализм 🎯. Ради него весь этот движ с обновлением и затевался. Ideogram 3.0 выходит из категории «неплохой прототип» и выводит синтетическое искусство на новый уровень, где настоящее бесшовно соединяется с генеративным. В целом, можно выдавать за студийную съемку. В перспективе это убьет рынок стоков. Ну, серьезно, зачем фотобанки, если можно генерить картинки фотореалистичного качества под любые задачи быстро, самостоятельно и бесплатно (или недорого).
Доступно в вебе и iOS-приложении. 10 slow кредитов в неделю раздали бесплатно — это 5 неторопливых генераций по 4 картинки на выходе при каждом запуске 🎁. Подписка — от $7 в месяц за Basic, куда включено: 100 «медленных» кредитов ежедневно, 400 «быстрых» кредитов ежемесячно, доступ к редактору Canvas и экспорт в высоком качестве. В общем, все красиво, по делу и недорого. Go тестировать!