Обучение генеративной нейросети своему стилю на HSE Design

Описание идеи

Я очень люблю рисовать животных и создавать иллюстрации с ними. Для меня каждая линия, каждый силуэт — это способ передать характер, настроение, историю.

А сможет ли нейросеть воспроизвести мой стиль и показать мне животных, которых я сама ещё не рисовала?

Используя технологию LoRA, я решила обучить модель на своих рисунках, чтобы она научилась понимать мой почерк.

Исходные изображения

Процесс обучения

Я собрала 10 своих рисунков животных и загрузила их в Google Colab через интерфейс. Все изображения я привела к квадратному формату.

Чтобы модель понимала, что именно она видит, каждому рисунку нужно текстовое описание. Для этого я использовала модель BLIP, которая автоматически создала подписи. К каждому описанию я добавила уникальный идентификатор стиля — ключевую фразу «Animal style».

Исходный размер 1325x668

Добавление файлов

Исходный размер 1531x398

Уникальный идентификатор «Animal style»

В качестве базы я взяла предобученную модель stabilityai/stable-diffusion-xl-base-1.0. Обучение проводилось с такими настройками:

Разрешение 512×512
Размер батча 2
Скорость обучения 1e-4
500 шагов обучения,
Градиентное накопление для экономии памяти,
Смешанная точность fp16,
8-битный оптимизатор Adam

Эти параметры позволили обучить LoRA-веса за 40 минут в бесплатном Colab.

Исходный размер 1394x387

Настройки обучения

Результирующая серия изображений

Исходный размер 1024x1024

Вывод

Нейросеть, обученная на моих рисунках животных, уловила общую манеру: лёгкость контурной линии, внимание к силуэту и способность создавать цельную композицию. Модель смогла воспроизвести некоторых новых животных, сохранив при этом характерную для оригинала фактуру фона и мягкую штриховку.

Наиболее удачные генерации С оленем, медведем и волком модель справилась лучше всего.

Олень получился с изящными линиями рогов и воздушным пространством вокруг.

Медведь — с монументальностью и мягкой проработкой шерсти.

Волк — с напряжённым силуэтом на горе, передающим дикую грацию.

Частичный успех Генерация с лошадью удалась лишь наполовину: фон сохранил нужную фактуру и лёгкость, но само животное выглядит слишком реалистично, что нарушает стилистическое единство.

Неудачные примеры Лиса и киты получились менее выразительными. В этих случаях модель, видимо, «ушла» в более обобщённые или реалистичные образы.

Что получилось лучше всего Наиболее стабильно нейросеть передаёт фактуру фона — воздушную, с мягкими переходами и глубиной, что стало сильной стороной проекта.

Файл с кодом в Google Colab

Использование ГенИИ

Я использовала DeepSeek для помощи с кодом, текстом и генерации промптов.