Идея проекта
Клод Моне — основоположник импрессионизма, чей стиль строится на передаче впечатления от момента: размытые контуры, вибрирующие мазки, чистая цветовая гамма, игра света и отражений.
Цель проекта — обучить генеративную нейросеть Stable Diffusion создавать изображения в стиле Моне, сохраняя ключевые черты его живописи. Модель должна уметь не только воспроизводить классические сюжеты художника (пруд с кувшинками, стога сена), но и адаптировать стиль к новым, нехарактерным для Моне сценам — городским пейзажам, современным паркам, необычным композициям.
Исходные изображения
Для обучения я собрала датасет из 20 картин Клода Монэ, которые нашла на сайте rawpixel (https://www.rawpixel.com/all/claude%20monet?page=3&path=1633&sort=curated&tab=filters)
Все картины обладают лицензией СС0
Примеры из датасета
Процесс обучения
Обучение модели выполнялось по методике DreamBooth с применением LoRA (Low-Rank Adaptation) на основе предварительно обученной Stable Diffusion XL.
Подготовка данных. Для обучения было отобрано 6 репродукций картин Клода Моне, включая «Впечатление. Восходящее солнце», серию «Стога сена», «Пруд с кувшинками», «Японский мостик», «Руанский собор» и «Сад в Живерни». Все изображения были обрезаны до квадратного формата 768×768 пикселей и загружены в среду Google Colab. С помощью модели BLIP для каждого изображения автоматически сформировано текстовое описание с единым префиксом-триггером «painting in Claude Monet impressionist style». Полученные пары «изображение — описание» сохранены в файл metadata.jsonl.
Настройка и запуск обучения. Использовался официальный скрипт train_dreambooth_lora_sdxl.py. Основные параметры обучения: разрешение 768×768 пикселей, размер батча 1 с накоплением градиента через 4 шага, скорость обучения 1e-4, общее количество итераций — 500. Для экономии видеопамяти GPU были задействованы смешанная точность вычислений (fp16), контрольные точки градиента и 8-битный оптимизатор Adam. Это позволило провести обучение на бесплатном GPU T4 в Colab за 15–20 минут. В процессе дообучения корректировались только LoRA-адаптеры — незначительный объем дополнительных весов, что обеспечило сохранение исходных возможностей базовой модели SDXL при добавлении новых стилистических черт.
Генерация результатов. По завершении обучения LoRA-веса были сохранены локально в формате safetensors. При создании изображений веса подгружались в базовую модель, а степень влияния обученного стиля на результат регулировалась коэффициентом lora_scale = 0.7. Всего было сгенерировано 6–8 изображений в трех категориях: классические мотивы Моне, современные сцены в его стиле, а также вариации одного сюжета. Это позволило проанализировать, насколько хорошо модель обобщает усвоенные визуальные признаки и переносит их в новые контексты.
Результат
Использование гении в проекте
В проекте применялись следующие генеративные технологии:
• Stable Diffusion — базовая модель для генерации изображений;
• DreamBooth + LoRA — метод дообучения модели на пользовательских изображениях;
• BLIP — инструмент для автоматического описания (captioning) изображений в датасете;
• Recraft — использован для создания обложки проекта.