Исследователи из Сингапура и Китая совместно с ByteDance представили ИИ для редактирования фотографий PhotoDoodle. Модель способна выделять отличительные черты стиля, основываясь на нескольких примерах, а после удивительно точно применять их при редактировании фото.

В основе модели лежит Flux.1 немецкого стартапа Black Forest Labs. ИИ использует собственную архитектуру диффузионного преобразователя вместе с параметрами, которые он получил из анализа изображений.

OmniEditor, вариант Flux стал первым шагом в разработке. Его настроили на обработку изображений с помощью LoRa (Low-Rank Adaptation – низкоранговая адаптация), которая только добавляет небольшие специализированные матрицы низкого ранга вместо того, чтобы изменять веса сети. Эти матрицы можно менять, и при этом исходная модель останется неизменной. Так можно вносить новые концепции, чуть ли не до полной функциональности. Однако для нового стиля модель все же требует добавления более крупных вариантов небольших сеток.

На помощь в разработке пришел опыт Byte Dance, которые уже разрабатывали в прошлом году редактор фотографий SeedEdit: оттуда предположительно взяли набор данных для новой нейронки. Больше мы ничего о наборе данных для PhotoDoodle не знаем, сами разработчики ничего толком не сказали.

После этого модель обучили на стилях разных художников с помощью EditLoRA (это вариант LoRa). Вроде как все честно и по закону, примеры изображений были получены с согласия авторов.

Такой метод помог органично совместить реалистичные изображения и декоративные элементы. Сами исследователи считают, что ранее подходы, предполагающие полное изменение изображения или работу с небольшим участком, менее практичные и с такой задачей не справились бы.

Клонирование позиционного кодирования – главная фича этого ИИ. По-простому говоря, модель запоминает позицию каждого пикселя исходного изображения. Благодаря этому PhotoDoodle вписывает новые элементы так, что итоговая картинка выглядит целостной, и вписанные элементы не бросаются в глаза своей несуразностью. Еще этот метод позволяет избежать дополнительного обучения, что, конечно, повышает эффективность модели.

Для корректной работы ИИ нужны фото высокого качества, иначе он не сможет точно уловить положение пискелей. Никаких приколов на фото с мыльницы, увы.

Чтобы продемонстрировать возможности своей модели, исследователи провели немало экспериментов с другими ИИ. Подсказки типа “сделай кошку белее” и “добавь розового монстра, взбирающегося на здание" оказались для него легче легкого, чего не скажешь о других ИИ такой же направленности.

По сходству итогового изображения с промптом PhotoDoodle показал лучшие результаты. При этом он прекрасно работает с глобальными изменениями фото, так и с добавлением каких-то элементов.

Пока что PhotoDoodle все еще опирается на сбор большого количества изображений и тысячи обучающий шагов, но в будущем исследователи планируют научить модель вытаскивать стиль только из одной пары изображений. Сейчас исследователи для того, чтобы развить свой проект, разместили наборы данных 6 разных стилей и более чем 300 изображениями. Если вам интересен код, то он размещен на GitHub, с ним можно свободно ознакомиться.