Идея проекта
Концепция
Обучить генеративную нейросеть Stable Diffusion XL (SDXL) генерировать изображения конкретного объекта — лисы — в различных сценах и ракурсах
Задача
Реализовать fine-tuning базовой модели SDXL с помощью метода DreamBooth и техники LoRA, чтобы модель научилась рисовать узнаваемую лису по текстовому описанию
Обоснование выбора объекта
Лиса — выразительный и легко узнаваемый персонаж.
Собранный датасет позволяет модели зафиксировать характерный облик и стиль
Исходные изображения для обучения
Всего 11 изображений
Формат изображения 1:1
Разрешение 512×512
Выбранные кадры показывают лису в разных позах, ракурсах и условиях освещения, что помогает модели лучше обобщать и генерализовать объект
Загрузка датасета
Обучение
Параметры обучения
Этапы
Setup
Установка diffusers, transformers, accelerate, Загрузка скрипта train_dreambooth_lora_sdxl.py
Dataset
Загрузка 11 изображений из папки, Обрезка до 1:1, Resize до 512×512, Сохранение в «fox_data/»
Training
Запуск DreamBooth с LoRA:
— Базовая модель: SDXL
— VAE: madebyollin/sdxl-vae-fp16-fix
— Instance prompt: a photo of sks fox
— Размер батча: 1, gradient accumulation: 4
— 500 шагов, learning rate 1e-4, fp16, 8-bit Adam
Inference
Загрузка обученной LoRA, генерация серии по 10 промптам
Inference
Результат
Промпты
«a photo of sks fox sitting in a snowy forest»,
«a photo of sks fox running through an autumn meadow»,
«a photo of sks fox resting on a mossy log in the woods»,
«a photo of sks fox looking at the camera, close-up portrait»,
«a photo of sks fox hunting in tall grass at sunset»,
«a photo of sks fox standing on a rocky hilltop, dramatic sky»,
«a photo of sks fox in a flower field, spring morning light»,
«a photo of sks fox curled up sleeping under a tree»,
«a photo of sks fox walking along a frozen river in winter»,
«a photo of sks fox playing with its cub in a forest clearing»
Серия отражает основную идею: обученная LoRA-модель генерирует изображения лисы в новых сценах по текстовому промпту. Токен sks fox закрепляет связь между описанием и визуальным образом объекта
Модель успешно связывает текст «a photo of sks fox» с образом лисы из датасета и переносит его в разные контексты. Это подтверждает работоспособность DreamBooth + LoRA для обучения на малом датасете
Детали генерации
25 шагов инференса, seed фиксирован для воспроизводимости
Постобработка не применялась, использованы только веса обученной LoRA и базовая SDXL
Изображения обрезались до квадрата по центру, ресайзились до 512×512, для всех изображений использовался один instance prompt
Использование ИИ
Для генерации промптов к созданию изображений использовался DeepSeek
Для отладки кода и обработки ошибок использовался Cursor в Auto Mode




