Обучение нейросети Stable Diffusion на примере проекта Хозяин кузницы на HSE Design

Идея проекта

Я решил обучить нейросеть Stable Diffusion для создания персонажей новых иллюстраций в аниме стилистике, на основе своего прошлого проекта. Это пастельные цвета, нежные мазки, простые персонажи и детальные фоны.

Главная задача — проверить, можно ли научить ИИ создавать изображения в похожем стиле.

Сам проект

Из своего диафильма я вырезал фотографии размером 512 на 512. Структура отсылается к фильмам Хаяо Миядзаки, когда задние планы нарисованы темнее и детальнее, чем сами анимированные персонажи, поэтому в центре в основном именно персонажи.

Исходные изображения

Инструментарий:

— модель ИИ Stable Diffusion — среда обучения Google Colab — обработка фотографий Figma

Исходный размер 1996x1113

Хозяин кузницы

Обучение модели

Первым делом я загрузил проект на Google drive, после открыл код в Google colab. Далее проверка памяти и GPU, установка нужных библиотек и после подключение папки и исходными изображениями.

Google colab

Исходный размер 906x428

Исходный размер 3084x543

Исходный размер 848x260

Обработка изображений и начало обучения

Исходный размер 1172x109

Исходный размер 813x201

После количество шагов было выбрано 300 и обучение длилось около 40 минут.

Исходный размер 1990x367

Создание изображений

old yellow tram on a wet city street at sunset, low sun, overhead trolley wires, cinematic backlight, atmospheric haze, painterly brush strokes, high detail

Тут я попробовал создать трамвай, так как в моем проекте много линий и есть бамбуковые заросли, то линии передач превратились в подобные паутины

Исходный размер 1024x1024

painting in SKS_STYLE style, old yellow tram on a wet city street at sunset, low sun, overhead trolley wires, cinematic backlight, atmospheric haze, painterly brush strokes, high detail

Далее я попробовал сделать в зеленых тонах более привычную для аниме обстановку с полями, деревьями и домом. Цвета довольно сильно мельтешат и присутствует воздушная перспектива, что не может не радовать.

Исходный размер 1024x1024

calm urban canal in early autumn, golden trees, soft morning light, reflections in water, distant pedestrians, impressionist plein air mood, painterly texture

Тут довольно хороша справилась нейросеть и добавила множество деталей, как было в доме кузница. Быстрым взглядом можно окинуть всю картину и уловить атмосферу домашнего уюта

Исходный размер 1024x1024

sunlit cozy kitchen interior with a vase of sunflowers and daisies, warm natural window light, rustic details, airy atmosphere, oil painting texture

С лугами отлично справилась, дома в средневековом стиле (как у кузнеца), огромные просторы и множество зелени с многоплановостью

Исходный размер 1024x1024

wide pastoral valley with rolling green hills and small village houses, distant church, spring sunlight, soft clouds, serene countryside panorama, impressionist brush texture

Далее решил с генерацией людей в японском современном стиле

Человека довольно хорошо нарисовала, очень похожим на кузнеца в молодости с усами и в простой сельской одежде.

Исходный размер 1024x1024

expressive portrait of a young man playing cello, focused emotion, warm neutral background, soft directional light, realistic anatomy, textured brushwork

Исходный размер 1024x1024

crowded metro platform with commuters in coats, arriving train, bright overhead lights, retro urban setting, candid street-scene composition, painterly realism

Исходный размер 1024x1024

long empty corridor with peeling walls and many doors, symmetric perspective, fluorescent ceiling lights, abandoned building atmosphere, muted colors, painterly realism

И завершить решил неоновым токийским городом

Исходный размер 1024x1024

rainy neon street at night, wet asphalt reflections, vintage cars, glowing shop signs, cinematic urban mood, moody color contrast, detailed painterly lighting

Нейросеть смогла перенять пастельный аниме стиль, но добавила слишком много экспрессивных мазков красками и глянцевость. Подобному бамбуковым зарослями возвышаются и декорации с интерьером, картины словно получились натянутыми и вытянутыми.

Аниме стиль является довольно сложным для понимания нейросети, она одновременно упрощает важные детали и усложняет все остальные, от чего глазу не за что уцепиться, нет акцентов художественных, однако как инструмент для быстрых скетчей или композиций модель справляется прекрасно

При создании проекта, помимо обученной модели Stable Diffusion XL с LoRA, использовались генеративные ИИ-инструменты ChatGPT и Gemini.

Нейросети применялись в качестве помощи при разработке и отладке Python-кода, включая помощь в центрирование и обрезка изображений и оптимизации работы в Google Colab.

Также LLM использовались для формулирования и улучшения текстовых промптов.

Абсолютно все ключевые решения в разработке, отборе всех изображений и финальная редакция были выполнены автором самостоятельно.

Ссылки на использованные нейросети

https://chatgpt.com/ https://aistudio.google.com/