Обучение генеративной нейросети под художественный стиль Ёситомо Нара на HSE Design

Описание идеи

Моей целью было — обучить генеративную нейросеть рисовать в стиле Ёситомо Нара, японского художника, чьи работы цепляют своей эмоциональностью и простотой. Его персонажи с большими глазами и скрытой бунтарской энергией — это что-то особенное, и мне захотелось посмотреть, сможет ли нейросеть передать эту атмосферу.

Сбор датасета

Для начала я собрала датасет из 125 картинок работ Нара — в основном это были его характерные персонажи с большими глазами и пастельными фонами. Все изображения я предварительно обработала — выполнила обрезку до квадратного формата, что позволило создать качественный датасет для обучения модели.

Исходный размер 3584x512

Процесс обучения

Все изображения я загрузила в Google Colab, где и проходило обучение. Использовала Stable Diffusion XL как базу, а для дообучения подключила метод Dreambooth с адаптацией LoRA — это помогло сэкономить ресурсы и сделать процесс быстрее.

Исходный размер 1244x698

Генерация описаний к датасету для обучения модели

Исходный размер 1443x588

Процесс обучения модели на изображениях и описаниях к ним

Исходный размер 872x697

Проба генерации картинки с помощью обученной модели

Результаты и анализ

Обученная модель успешно генерирует изображения, в которых прослеживаются характерные элементы стиля Ёситомо Нара: большие выразительные глаза, мягкие цвета и легкая текстура карандаша.

prompt = «photo in my style A lone child with oversized, expressive eyes and a hint of mischif»

prompt = «photo in my style innocent yet rebellious figure with a slight smirk, set against a minimal, pastel background»

Я попробовала сгенерировать «милого персонажа с цветком» и «животное с человеческими чертами» — тоже получилось здорово. Правда, иногда руки или мелкие детали выходили кривоватыми, но в целом стиль угадывался сразу. Так же я проводила тесты с разным числом шагов генерации (от 25 до 95) — на 50-75 шагах результат был самый четкий.

prompt = «photo in my style cute, childlike character holding a flower, evoking both vulnerability and defiant energy»

prompt = «photo in my style stylized animal with human-like features and a playful yet enigmatic expression, in a simple color palette»

Исходный размер 925x925

prompt = «photo in my style stylized animal with human-like features and a playful yet enigmatic expression, in a simple color palette»

prompt = «photo in my style solitary figure in a whimsical, minimalist scene, blending innocence with a touch of rebellious spirit»

Исходный размер 925x925

prompt = «photo in my style solitary figure in a whimsical, minimalist scene, blending innocence with a touch of rebellious spirit»

Исходный размер 925x925

prompt = «photo in my style a painting of a girl and boy with oversized eyes and a hint of mischif»

prompt = «photo in my style a painting of a car»

Так же я попробовала сгенерировать изображения по описаниям, которые были созданы автоматически и сравнить их с изначальными изображениями.

prompt = «photo in my style cute, childlike character holding a flower, evoking both vulnerability and defiant energy»

Для улучшения генерации я попробовала немного дополнить промпт и увеличить количество шагов генерации, благодаря этому качество улучшилось.

Исходный размер 925x925

prompt = «photo in my style a painting of a cat with green eyes»

1 — prompt = «photo in my style a painting of a cat with green eyes and human like face» 2 — картинка из датасета

Выводы

Результаты меня порадовали — нейросеть уловила суть стиля Нара: простоту, эмоции и тот самый бунтарский вайб. Но есть куда расти. Например, если бы у меня было больше картинок в датасете, мелкие ошибки вроде странных рук могли бы исчезнуть. Еще я заметила, что модель лучше работает с персонажами, чем с окружением — машины, например, выходили не такими детальными.

Описание применения генеративной модели

https://chat.qwen.ai/ — был использован для генерации более сложных промптов и оптимизации кода

Код и датасет: https://drive.google.com/drive/u/0/folders/1s-wEH9moKJv5fwwkoAA8hSN-BC4xCzIq