HSE University

Идея проекта

Клод Моне — основоположник импрессионизма, чей стиль строится на передаче впечатления от момента: размытые контуры, вибрирующие мазки, чистая цветовая гамма, игра света и отражений.

Цель проекта — обучить генеративную нейросеть Stable Diffusion создавать изображения в стиле Моне, сохраняя ключевые черты его живописи. Модель должна уметь не только воспроизводить классические сюжеты художника (пруд с кувшинками, стога сена), но и адаптировать стиль к новым, нехарактерным для Моне сценам — городским пейзажам, современным паркам, необычным композициям.

Исходные изображения

Для обучения я собрала датасет из 20 картин Клода Монэ, которые нашла на сайте rawpixel (https://www.rawpixel.com/all/claude%20monet?page=3&path=1633&sort=curated&tab=filters)

Все картины обладают лицензией СС0

Примеры из датасета

Исходный размер 1428x1157

Исходный размер 733x239

Процесс обучения

Обучение модели выполнялось по методике DreamBooth с применением LoRA (Low-Rank Adaptation) на основе предварительно обученной Stable Diffusion XL.

Подготовка данных. Для обучения было отобрано 6 репродукций картин Клода Моне, включая «Впечатление. Восходящее солнце», серию «Стога сена», «Пруд с кувшинками», «Японский мостик», «Руанский собор» и «Сад в Живерни». Все изображения были обрезаны до квадратного формата 768×768 пикселей и загружены в среду Google Colab. С помощью модели BLIP для каждого изображения автоматически сформировано текстовое описание с единым префиксом-триггером «painting in Claude Monet impressionist style». Полученные пары «изображение — описание» сохранены в файл metadata.jsonl.

Настройка и запуск обучения. Использовался официальный скрипт train_dreambooth_lora_sdxl.py. Основные параметры обучения: разрешение 768×768 пикселей, размер батча 1 с накоплением градиента через 4 шага, скорость обучения 1e-4, общее количество итераций — 500. Для экономии видеопамяти GPU были задействованы смешанная точность вычислений (fp16), контрольные точки градиента и 8-битный оптимизатор Adam. Это позволило провести обучение на бесплатном GPU T4 в Colab за 15–20 минут. В процессе дообучения корректировались только LoRA-адаптеры — незначительный объем дополнительных весов, что обеспечило сохранение исходных возможностей базовой модели SDXL при добавлении новых стилистических черт.

Генерация результатов. По завершении обучения LoRA-веса были сохранены локально в формате safetensors. При создании изображений веса подгружались в базовую модель, а степень влияния обученного стиля на результат регулировалась коэффициентом lora_scale = 0.7. Всего было сгенерировано 6–8 изображений в трех категориях: классические мотивы Моне, современные сцены в его стиле, а также вариации одного сюжета. Это позволило проанализировать, насколько хорошо модель обобщает усвоенные визуальные признаки и переносит их в новые контексты.

Результат

Исходный размер 1082x718

Исходный размер 1084x636

Исходный размер 926x178

Использование гении в проекте

В проекте применялись следующие генеративные технологии:

• Stable Diffusion — базовая модель для генерации изображений;

• DreamBooth + LoRA — метод дообучения модели на пользовательских изображениях;

• BLIP — инструмент для автоматического описания (captioning) изображений в датасете;

• Recraft — использован для создания обложки проекта.

Код

Обучение генеративной нейросети в стиле Клода Моне