Stability AI крутые. В октябре обновили флагманскую модель Stable Diffusion до версии 3.5, а теперь вот и гайд подоспел. По промптингу. Для тех, что хочет выжать из SD3.5 все генеративные соки. Поговорим, как писать промпты для нейросети Stable Diffusion, чтобы на максимум выкрутить качество, креативность и точность.
Три версии SD3.5 (Medium, Large и Turbo) есть на Hugging Face. Отнеситесь к моделям, пишут разработчики, как к творческому партнеру. Пишите естественным языком. Никакого промпт-инжиниринга. Просто пишешь, что хочешь, и получаешь. Ну почти. Про структуру надо знать и помнить. К структуре промпта пока прихотливы все нейросети, включая ChatGPT, который, казалось бы, понимает нас с полуслова.
В структуре есть пару важных моментов. Первый – стиль. Это про «акварель», «масляная живопись» 🎨, «цифровое искусство», «сюрреализм». Stable Diffusion замечательно во всем разбирается и готова к экспериментам. Это значит можно смешивать стили.
Дальше по плану – объект и действие. Пишите конкретно и четко, кто чем занимается. Сначала, акцентируют разработчики – «кто» (отмечаем присутствие), а потом – «чем занимается» (описываем действие). Если, конечно, на картинке в принципе есть объект.
Следующий шаг – композиция. Близкий план, панорама и все остальное, что задает расположение камеры 📸, а значит и ракурсы элементов на фото. Один и тот же объект можно «снять» (сгенерировать) сверху, сбоку или снизу, крупно или как что-то, что маячит на горизонте в виде призрачной надежды или иллюзии.
Играем с цветом и светом. Ведь никто, конечно, не спорит, что освещение 💡– важный момент в визуальном искусстве. Одно дело – «приглушенный», и совсем другое – «жесткий и яркий». «Теплый» от «холодного» тоже отличается очень, как и «лунный» от «солнечного» и «сумеречного».
Самое сложное место в гайде – про технические параметры. Здесь надо выучить пару специфических (кинематографических 🎬) слов и понятий вроде «широкий угол», «съемка с крана», «с высоты птичьего полета» или «объектив рыбий глаз» (для выпуклой картинки). В целом, ничего экстремального. И даже можно без этого. Но мы же ведем разговор про выжать из Stable Diffusion все соки, поэтому учим матчасть.
Если что – модели этой линейки могут добавить текст на картинку. Если нужно, конечно. Просто возьмите это слово или несколько слов в кавычки, чтобы модель поняла – не промпт, а то, что нужно изобразить.
То, что в мире генеративных нейронок называется «негативным промптом», в переводе на понятный – чистим картинку от лишнего 🧹. Негативный промпт позволяет задать, чего на сгенерированном изображении быть не должно. В этом поле пишем, что НЕ нужно.
В общем, человеческий язык понимает. Но. Если хочется получить реально крутой результат, надо продумать детали – стиль, композицию, освещение и все остальное. Пробуем промптить по гайду и делимся результатами в комментариях 💬.