Обучение генеративной нейросети под стиль Silksong на HSE Design

Описание идеи

Главной идеей проекта было попробовать обучить свою нейросетевую модель (LoRA-адаптер) методом DreamBooth на основе базовой модели Stable Diffusion XL 1.0 сразу двум вещам, главному персонажу и одновременно специфическому стилю присущему популярной игре в жанре метроидвании Hollow Knight: Silksong.

Исходный датасет был собран из 44 изображений 1024×1024(1:1) из игры Hollow Knight: Silksong, на каждом из которых есть главный персонаж, иногда присутствуют другие монстры, в разной обстановке, локациях, освещении.

Примеры исходных изображений

Florence 2

Для формирования captions (подписей) описывающих изображения в ходе работы планировалось использовалать BLIP модель для генерации, однако она не показала себя хорошо, поэтому использовалась модель Florence 2, которая уже справилась лучше. После этого captions были подправлены вручную.

Пример BLIP auto-captions: «h0rnt character, a cartoon character standing on a bridge over a fire»

Пример Florence 2: «h0rnt character, a group of cartoon characters standing on top of a boat, surrounded by various objects such as ropes, lights, and other items. The background is dark, giving the image a mysterious atmosphere.»

Процесс обучения

Исходный размер 5120x1024

Процесс обучения (200/300/400/500/600 шагов)

Как видно на изображениях:

на 200 training steps — модель явно недообучена, персонаж имеет дефекты.
на 400 training steps — модель отлично себя показывает и по итогу оказалась лучшим результатом, сохраняя баланс между вариативностью и передачей сходства с обучающим набором данных.
на 600 training steps — модель показывает неплохие результаты, но слишком строго привязана к обучающему набору что соответствует переобучению.

Исходный размер 5120x1024

Процесс обучения (200/300/400/500/600 шагов)

Сравнение значений lorascale

Исходный размер 3072x1024

lorascale = 0.8 / 1.0 / 1.2

Сравнение значений guidance_scale

Исходный размер 3072x1024

guidance_scale = 5 / 7 / 9

Итоговые генерации

prompt: «h0rnt character, standing near glowing pool in cavern, starfall, rippling light reflections on walls, cool tones, mist hovering above water, quiet and surreal mood»

Исходный размер 1024x1024

prompt: «h0rnt character, standing on wooden platform, dense green forest, glowing fireflies, vines and leaves, soft ambient light, dreamy atmosphere»

prompt: «h0rnt character, wooden platform, hanging lanterns, warm light, dark surroundings, soft glow, particles, calm cinematic scene, depth»

Исходный размер 1024x1024

prompt: «h0rnt character, resting on stone bench in quiet chamber, hanging lanterns, warm soft light, dark corners, subtle glow, calm and meditative atmosphere»

prompt: «h0rnt character, ritual platform, glowing symbols, floating particles, soft light, mystical environment, dark background»

Исходный размер 1024x1024

prompt: «h0rnt character, in cavern filled with giant mushrooms, soft green and blue glow, spores floating in air, organic shapes, diffused lighting, fantasy environment»

prompt: «h0rnt character, descending deep shaft, layered platforms, hanging roots, dim light from above, particles, vertical composition, moody»

Исходный размер 1024x1024

prompt: «h0rnt character, standing near underground lake, reflective water, glowing plants, soft blue light, fog, calm atmosphere, wide shot»

prompt: «h0rnt character, resting on stone bench in quiet chamber, hanging lanterns, warm soft light, dark corners, subtle glow, calm and meditative atmosphere»

Заключение

Результат обучения получился достаточно успешным: удалось одновременно передать как индивидуальные характеристики персонажа — контуры тела, черты лица, форму головы и глаз, атрибуты, одежду, — так и характерные черты стиля — общую атмосферу, штрихи, паттерны текстур, освещение и цветовую палитру.

Успех и качество обучения подобных LoRA адаптеров во многом зависит от:

качества исходного датасета, подобранных изображений и подписей к ним.
правильно подобранных параметров и настроек при обучении.

Необходимо найти «золотую середину» между количеством шагов обучения и скоростью обучения. В моем случае LR=0.0001 и 400 шагов показали наилучший результат.

Таким образом полученную модель можно успешно использовать как для креативных целей — исследовать новые стили или идеи созданные ИИ, так и для быстрого прототипирования — создания нескольких концепций, помогающее дизайнерам и инженерам в работе.

Использованные модели

«stabilityai/stable-diffusion-xl-base-1.0» — базовая модель.
«Salesforce/blip-image-captioning-base» — модель auto captions.
«florence-community/Florence-2-large» — модель auto captions.
«madebyollin/sdxl-vae-fp16-fix» — vae модель.
https://raw.githubusercontent.com/huggingface/diffusers/main/examples/dreambooth/train_dreambooth_lora_sdxl.py — скрипт обучения.

Блокнот и датасет

Оригинальный персонаж и окружение*

*Все права на оригинальные изображения и персонажа принадлежат законному правообладателю — студии разработчику игры, полученная модель использовалась только для исследовательских целей в качестве демонстрации в данной работе и никогда не распространялась.