Описание идеи
Моей целью было — обучить генеративную нейросеть рисовать в стиле Ёситомо Нара, японского художника, чьи работы цепляют своей эмоциональностью и простотой. Его персонажи с большими глазами и скрытой бунтарской энергией — это что-то особенное, и мне захотелось посмотреть, сможет ли нейросеть передать эту атмосферу.
Сбор датасета
Для начала я собрала датасет из 125 картинок работ Нара — в основном это были его характерные персонажи с большими глазами и пастельными фонами. Все изображения я предварительно обработала — выполнила обрезку до квадратного формата, что позволило создать качественный датасет для обучения модели.

Процесс обучения
Все изображения я загрузила в Google Colab, где и проходило обучение. Использовала Stable Diffusion XL как базу, а для дообучения подключила метод Dreambooth с адаптацией LoRA — это помогло сэкономить ресурсы и сделать процесс быстрее.

Генерация описаний к датасету для обучения модели

Процесс обучения модели на изображениях и описаниях к ним
Проба генерации картинки с помощью обученной модели
Результаты и анализ
Обученная модель успешно генерирует изображения, в которых прослеживаются характерные элементы стиля Ёситомо Нара: большие выразительные глаза, мягкие цвета и легкая текстура карандаша.


prompt = «photo in my style A lone child with oversized, expressive eyes and a hint of mischif»


prompt = «photo in my style innocent yet rebellious figure with a slight smirk, set against a minimal, pastel background»
Я попробовала сгенерировать «милого персонажа с цветком» и «животное с человеческими чертами» — тоже получилось здорово. Правда, иногда руки или мелкие детали выходили кривоватыми, но в целом стиль угадывался сразу. Так же я проводила тесты с разным числом шагов генерации (от 25 до 95) — на 50-75 шагах результат был самый четкий.


prompt = «photo in my style cute, childlike character holding a flower, evoking both vulnerability and defiant energy»


prompt = «photo in my style stylized animal with human-like features and a playful yet enigmatic expression, in a simple color palette»
prompt = «photo in my style stylized animal with human-like features and a playful yet enigmatic expression, in a simple color palette»


prompt = «photo in my style solitary figure in a whimsical, minimalist scene, blending innocence with a touch of rebellious spirit»
prompt = «photo in my style solitary figure in a whimsical, minimalist scene, blending innocence with a touch of rebellious spirit»
prompt = «photo in my style a painting of a girl and boy with oversized eyes and a hint of mischif»


prompt = «photo in my style a painting of a car»
Так же я попробовала сгенерировать изображения по описаниям, которые были созданы автоматически и сравнить их с изначальными изображениями.


prompt = «photo in my style cute, childlike character holding a flower, evoking both vulnerability and defiant energy»
Для улучшения генерации я попробовала немного дополнить промпт и увеличить количество шагов генерации, благодаря этому качество улучшилось.
prompt = «photo in my style a painting of a cat with green eyes»


1 — prompt = «photo in my style a painting of a cat with green eyes and human like face» 2 — картинка из датасета
Выводы
Результаты меня порадовали — нейросеть уловила суть стиля Нара: простоту, эмоции и тот самый бунтарский вайб. Но есть куда расти. Например, если бы у меня было больше картинок в датасете, мелкие ошибки вроде странных рук могли бы исчезнуть. Еще я заметила, что модель лучше работает с персонажами, чем с окружением — машины, например, выходили не такими детальными.
Описание применения генеративной модели
https://chat.qwen.ai/ — был использован для генерации более сложных промптов и оптимизации кода




