Обучение Stable Diffusion. Финальный проект на HSE Design

— Концепция —

Целью работы было обучение модели Stable Diffusion на специфический художественный стиль — чёрно-белую графику, характерную для «новой картинной галереи». В качестве базовой модели использовалась Stable Diffusion 1.5. Для адаптации под новый стиль применялся метод LoRA (Low-Rank Adaptation), который позволяет эффективно дообучать модель на небольшом датасете (10–200 изображений) без значительных вычислительных затрат.

— Исходные изображения —

Я собрала датасет из своих чёрно-белых фотографий, соответствующих желаемому стилю: высокая контрастность, графичность, минимализм, характерные для современного галерейного искусства. Все изображения были приведены к квадратному формату (1:1) и сохранены в папку /content/black_white_gallery_style. Количество изображений в датасете составило 12 штук.

— Обучение —

Для обучения использовался официальный скрипт train_dreambooth_lora.py от Hugging Face.

Ключевые параметры: — instance_prompt: «bw_gallery_art style, black and white, high contrast, graphic» — этот промпт задаёт уникальный идентификатор стиля и описывает его визуальные характеристики, что помогает модели фокусироваться на нужных признаках.

— resolution: 512×512 — размер, к которому приводились все изображения датасета.

— train_batch_size: 1 — оптимально для работы в Google Colab с ограниченной видеопамятью.

— learning_rate: 1e-4 — стандартная скорость для дообучения LoRA.

— max_train_steps: 700 — количество шагов обучения; этого хватило для уверенного усвоения стиля.

— mixed_precision: fp16 — ускоряет вычисления и снижает потребление памяти.

Обучение заняло около 7 минут и завершилось сохранением LoRA-весов в папку /content/lora-bw-gallery-model.

— Генерации —

После обучения была загружена базовая модель Stable Diffusion, в неё загружены обученные LoRA-веса, и сгенерирована серия изображений. Для генерации использовались промпты, содержащие ключевую фразу «in bw_gallery_art style», которая активирует обученный LoRA-слой, и описание сюжета (пейзаж, портрет, городской пейзаж, абстракция и т. д.).

Параметры генерации: — num_inference_steps: 30 — количество шагов диффузии. — guidance_scale: 7.5 — степень влияния текстового промпта на результат.

Исходный размер 512x512

«an abstract portrait in bw_gallery_art style, bold strokes, high contrast»

«a cityscape at night in bw_gallery_art style, industrial, detailed», «an architectural detail in bw_gallery_art style, geometric, sharp»

Исходный размер 512x512

«a solitary figure in bw_gallery_art style, minimalist, poetic»

«a dreamlike scene in bw_gallery_art style, soft grain, ethereal», «a still life with objects in bw_gallery_art style, vintage, textured»

Исходный размер 512x512

«a futuristic machine in bw_gallery_art style, intricate lines»

Исходный размер 512x512

«a surreal landscape in bw_gallery_art style, dramatic shadows, graphic»

— Результат —

Полученные изображения демонстрируют устойчивую передачу чёрно-белого стиля: высокую контрастность, графичность, характерную текстуру, что подтверждает успешное усвоение модели. При этом сюжетное разнообразие позволяет оценить гибкость обученного LoRA-слоя. Наиболее удачно стиль проявился в изображениях с архитектурными деталями и абстрактными композициями, тогда как в портретах иногда наблюдается лёгкое искажение пропорций — это связано с тем, что исходный датасет содержал преимущественно пейзажи и натюрморты.

В проекте использовалась исключительно обученная модель Stable Diffusion. Все промпты и концепция разработаны автором. Код основан на открытых примерах Hugging Face, адаптирован под задачу обучения на стиль.

Ноутбук с кодом