Исходный размер 1240x1750

Обучение Stable Diffusion. Финальный проект

Проект принимает участие в конкурсе

— Концепция —

Целью работы было обучение модели Stable Diffusion на специфический художественный стиль — чёрно-белую графику, характерную для «новой картинной галереи». В качестве базовой модели использовалась Stable Diffusion 1.5. Для адаптации под новый стиль применялся метод LoRA (Low-Rank Adaptation), который позволяет эффективно дообучать модель на небольшом датасете (10–200 изображений) без значительных вычислительных затрат.

— Исходные изображения —

Я собрала датасет из своих чёрно-белых фотографий, соответствующих желаемому стилю: высокая контрастность, графичность, минимализм, характерные для современного галерейного искусства. Все изображения были приведены к квадратному формату (1:1) и сохранены в папку /content/black_white_gallery_style. Количество изображений в датасете составило 12 штук.

0

— Обучение —

Для обучения использовался официальный скрипт train_dreambooth_lora.py от Hugging Face.

Ключевые параметры: — instance_prompt: «bw_gallery_art style, black and white, high contrast, graphic» — этот промпт задаёт уникальный идентификатор стиля и описывает его визуальные характеристики, что помогает модели фокусироваться на нужных признаках.

— resolution: 512×512 — размер, к которому приводились все изображения датасета.

— train_batch_size: 1 — оптимально для работы в Google Colab с ограниченной видеопамятью.

— learning_rate: 1e-4 — стандартная скорость для дообучения LoRA.

— max_train_steps: 700 — количество шагов обучения; этого хватило для уверенного усвоения стиля.

— mixed_precision: fp16 — ускоряет вычисления и снижает потребление памяти.

Обучение заняло около 7 минут и завершилось сохранением LoRA-весов в папку /content/lora-bw-gallery-model.

— Генерации —

После обучения была загружена базовая модель Stable Diffusion, в неё загружены обученные LoRA-веса, и сгенерирована серия изображений. Для генерации использовались промпты, содержащие ключевую фразу «in bw_gallery_art style», которая активирует обученный LoRA-слой, и описание сюжета (пейзаж, портрет, городской пейзаж, абстракция и т. д.).

Параметры генерации: — num_inference_steps: 30 — количество шагов диффузии. — guidance_scale: 7.5 — степень влияния текстового промпта на результат.

Исходный размер 512x512

«an abstract portrait in bw_gallery_art style, bold strokes, high contrast»

«a cityscape at night in bw_gallery_art style, industrial, detailed», «an architectural detail in bw_gallery_art style, geometric, sharp»

Исходный размер 512x512

«a solitary figure in bw_gallery_art style, minimalist, poetic»

«a dreamlike scene in bw_gallery_art style, soft grain, ethereal», «a still life with objects in bw_gallery_art style, vintage, textured»

Исходный размер 512x512

«a futuristic machine in bw_gallery_art style, intricate lines»

Исходный размер 512x512

«a surreal landscape in bw_gallery_art style, dramatic shadows, graphic»

— Результат —

Полученные изображения демонстрируют устойчивую передачу чёрно-белого стиля: высокую контрастность, графичность, характерную текстуру, что подтверждает успешное усвоение модели. При этом сюжетное разнообразие позволяет оценить гибкость обученного LoRA-слоя. Наиболее удачно стиль проявился в изображениях с архитектурными деталями и абстрактными композициями, тогда как в портретах иногда наблюдается лёгкое искажение пропорций — это связано с тем, что исходный датасет содержал преимущественно пейзажи и натюрморты.

В проекте использовалась исключительно обученная модель Stable Diffusion. Все промпты и концепция разработаны автором. Код основан на открытых примерах Hugging Face, адаптирован под задачу обучения на стиль.

Обучение Stable Diffusion. Финальный проект
Проект создан 24.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше