PONY GEN.ai на HSE Design

идея проекта

проект направлен на создание генеративной модели, способной генерировать персонажей (oc — original characters) в узнаваемом мультяшном стиле My Little Pony: Friendship is Magic (4 поколение). цель — обучить Stable Diffusion на кастомном датасете с изображениями пони, чтобы в дальнейшем можно было задавать описание и получать визуализации oc с нужными чертами.

исходная идея возникла из желания автоматизировать и ускорить создание персонажей для фан-контента, ролевых игр и визуального сторителлинга, а также для упрощения брейншторминга над ними. ну и просто ради веселья, конечно. :)

Исходный размер 2480x300

датасет и подготовка

для обучения была собрана подборка изображений персонажей MLP G4. изображения квадратные (300× 300 или 512× 512 пикселей), с чёткими силуэтами и характерными позами.

первая вариация модели тренировалась на типовых изображениях: черный фон, персонаж стоит, изображен в полный рост, смотрит налево но ожидаемых типовых изображений на выходе не получалось, поэтому было принято решение расширить датасет разными кадрами из мультсериала.

изображения сопровождались автоматическими подписями, сгенерированными через BLIP.

примеры исходных изображений

результаты генерации и анализ

ниже — примеры изображений, сгенерированных по различным prompt’ ам, отражающим oc с уникальными чертами: цвет, одежда, тематика.

prompt = «my little pony original character, a white pony with mint hair and mint tail, blue wings and a horn»

отчётливо прослеживается узнаваемый визуальный образ персонажа: белая пони с мятной гривой и хвостом, большими глазами в стиле My Little Pony, а также крыльями и рогом — то есть полноценный аликорн.

в принйипе, практически на всех изображениях удачно передана стилистика 4 поколения mlp: мягкие контуры, мультяшные пропорции и выразительные глаза.

особенно примечательна вариативность: от более упрощённого мультяшного изображения с чёткой стилизацией, до более реалистичных вариантов с тенью, деталями гривы и элементов декора.

рог и крылья присутствуют на большинстве изображений (в соответствии с промптом), но не всегда одновременно, что может указывать на ограниченную способность модели запомнить всю структуру персонажа. тем не менее, цветовая палитра, позы, формы глаз и наличие cutie mark (знака отличия) повторяются стабильно.

prompt = «my little pony original character, a pink and gold pony in the forest, happy»

вторая серия генераций демонстрирует другую вариацию оригинального персонажа — на этот раз розовую пони с золотыми акцентами, в лесной обстановке. все изображения чётко соответствуют промпту: присутствуют насыщенные оттенки розового и золота, выраженные детали брони (как элемента, который скорее всего бы сделали золотым), аксессуаров и узоров на теле.

модель в целом удачно интерпретирует настроение «happy» : персонажи улыбаются, находятся в движении или смотрят с энтузиазмом.

в большинстве генераций фон органично вписан в общую стилистику, создавая ощущение сказочного леса, как в мультфильме. стиль генераций на этот раз ближе к мультяшной 2D-анимации с яркими контурами и простой заливкой, никакого ухода в реализм, что усиливает сходство с эстетикой My Little Pony. при этом заметно разнообразие: на одних изображениях героиня одета в сложную золотую броню, на других — украшения минимальны. это говорит о том, что модель способна адаптировать образ под настроение или композицию, оставаясь в пределах образа oc.

prompt = «my little pony original character, a pony playing call of duty»

последняя серия демонстрирует интересный результат стилистического смешения: персонажи из мира My Little Pony в реалиях милитари и видеоигровой эстетики. почти каждая пони одета в бронежилет или военную форму, вооружена реалистично детализированным оружием и часто изображена в соответствующих позах.

визуальный стиль остается мультяшным, но узнаваемые элементы Call of Duty (экипировка, оружие, камуфляж) точно считываются.

некоторые образы кажутся особенно выразительными, например, из-за удачной композиции оружия на спине персонажа или деталей вроде флага, патчей, знаков различия. Это говорит о способности модели адаптировать и смешивать визуальные коды, выходя за пределы исходного стиля. однако, к сожалению, с артефактами в виде отростков дополнительных конечностей в таких условиях она пока не справилась.

итоги

после дообучения на кастомном датасете по методике LoRA + DreamBooth, модель на базе Stable Diffusion XL начала уверенно воспроизводить стилистические особенности четвёртого поколения My Little Pony: характерные пропорции, упрощённую анатомию, крупные выразительные глаза и плавную цветовую палитру с пастельными оттенками.

в приведенных трех вариациях промпта (конкретика о персонаже, типа цвета / условия, фон / смешанный промпт с кроссовером, который повлияет и на условия, и на внешний вид) заметно, как по-разному модель справлялась с задачей. особенно хорошо фиксировались ключевые элементы ос-персонажей: цвет гривы, форма хвоста, наличие крыльев или рога, а также настроение персонажа, заданное в промпте.

модель устойчиво перенимала стиль даже в случаях кроссоверов или стилистических смешений: персонажи, вдохновлённые эстетикой видеоигр (например, Call of Duty), или на заданном фоне (например, лес), сохраняли форму и настроение пони, даже при добавлении сложных аксессуаров и оружия. это говорит о высоком уровне адаптации модели к новому визуальному контексту.

однако наблюдались и ограничения. при использовании абстрактных или слишком насыщенных запросов (например, с упоминанием «Michael Jackson outfit»), модель иногда теряла характер пони и переходила к антропоморфным формам или стилистическим дрейфам. такие случаи корректировались ручной настройкой промптов и использованием negative промптов для удержания желаемого визуального языка, но не всегда удачно.

итак, если в первой серии модель удачно генерировала пони по запросу вполне в стиле четвертого поколения, то при добавлении лишних описаний, информации о которых нет в датасете, появлялись артефакты и неуверенная прорисовка.

в целом модель довольно хорошо схватывала пропорции, цветовую палитру и стиль MLP. как и было задумано изначально, оригинальных персонажей лучше всего генерировать пока что без лишних внешних условий.

код и обучение

для обучения использовались следующие Colab-ноутбук и датасет: https://drive.google.com/drive/folders/1Dt28GSJ-FI8jEAsLniljxz-FmMUPZ0Pa?usp=sharing

ключевые параметры: LoRA-формат resolution: 512 batch size: 2 gradient checkpointing: enabled max steps: 1000

описание применения генеративной модели

в процессе создания проекта были использованы:

Stable Diffusion XL (SDXL) + DreamBooth и LoRA для генерации изображений
BLIP для генерации описаний
ChatGPT (GenИИ) — для поиска ресурсов с изображениями, редактуры промптов, troubleshooting’ а, а также в качестве браузера. :)

Исходный размер 575x181

послание_от_друзей.jpgpt

friendship is machine learning🤗