Идея проекта

Я решил обучить нейросеть Stable Diffusion для создания персонажей новых иллюстраций в аниме стилистике, на основе своего прошлого проекта. Это пастельные цвета, нежные мазки, простые персонажи и детальные фоны.
Главная задача — проверить, можно ли научить ИИ создавать изображения в похожем стиле.
Из своего диафильма я вырезал фотографии размером 512 на 512. Структура отсылается к фильмам Хаяо Миядзаки, когда задние планы нарисованы темнее и детальнее, чем сами анимированные персонажи, поэтому в центре в основном именно персонажи.
Инструментарий:
— модель ИИ Stable Diffusion — среда обучения Google Colab — обработка фотографий Figma

Хозяин кузницы
Обучение модели
Первым делом я загрузил проект на Google drive, после открыл код в Google colab. Далее проверка памяти и GPU, установка нужных библиотек и после подключение папки и исходными изображениями.
Обработка изображений и начало обучения
После количество шагов было выбрано 300 и обучение длилось около 40 минут.
Создание изображений
old yellow tram on a wet city street at sunset, low sun, overhead trolley wires, cinematic backlight, atmospheric haze, painterly brush strokes, high detail
Тут я попробовал создать трамвай, так как в моем проекте много линий и есть бамбуковые заросли, то линии передач превратились в подобные паутины
painting in SKS_STYLE style, old yellow tram on a wet city street at sunset, low sun, overhead trolley wires, cinematic backlight, atmospheric haze, painterly brush strokes, high detail
Далее я попробовал сделать в зеленых тонах более привычную для аниме обстановку с полями, деревьями и домом. Цвета довольно сильно мельтешат и присутствует воздушная перспектива, что не может не радовать.
calm urban canal in early autumn, golden trees, soft morning light, reflections in water, distant pedestrians, impressionist plein air mood, painterly texture
Тут довольно хороша справилась нейросеть и добавила множество деталей, как было в доме кузница. Быстрым взглядом можно окинуть всю картину и уловить атмосферу домашнего уюта
sunlit cozy kitchen interior with a vase of sunflowers and daisies, warm natural window light, rustic details, airy atmosphere, oil painting texture
С лугами отлично справилась, дома в средневековом стиле (как у кузнеца), огромные просторы и множество зелени с многоплановостью
wide pastoral valley with rolling green hills and small village houses, distant church, spring sunlight, soft clouds, serene countryside panorama, impressionist brush texture
Далее решил с генерацией людей в японском современном стиле
Человека довольно хорошо нарисовала, очень похожим на кузнеца в молодости с усами и в простой сельской одежде.
expressive portrait of a young man playing cello, focused emotion, warm neutral background, soft directional light, realistic anatomy, textured brushwork
crowded metro platform with commuters in coats, arriving train, bright overhead lights, retro urban setting, candid street-scene composition, painterly realism
long empty corridor with peeling walls and many doors, symmetric perspective, fluorescent ceiling lights, abandoned building atmosphere, muted colors, painterly realism
И завершить решил неоновым токийским городом
rainy neon street at night, wet asphalt reflections, vintage cars, glowing shop signs, cinematic urban mood, moody color contrast, detailed painterly lighting
Нейросеть смогла перенять пастельный аниме стиль, но добавила слишком много экспрессивных мазков красками и глянцевость. Подобному бамбуковым зарослями возвышаются и декорации с интерьером, картины словно получились натянутыми и вытянутыми.
Аниме стиль является довольно сложным для понимания нейросети, она одновременно упрощает важные детали и усложняет все остальные, от чего глазу не за что уцепиться, нет акцентов художественных, однако как инструмент для быстрых скетчей или композиций модель справляется прекрасно
При создании проекта, помимо обученной модели Stable Diffusion XL с LoRA, использовались генеративные ИИ-инструменты ChatGPT и Gemini.
Нейросети применялись в качестве помощи при разработке и отладке Python-кода, включая помощь в центрирование и обрезка изображений и оптимизации работы в Google Colab.
Также LLM использовались для формулирования и улучшения текстовых промптов.
Абсолютно все ключевые решения в разработке, отборе всех изображений и финальная редакция были выполнены автором самостоятельно.
Ссылки на использованные нейросети




