Генеративные лисы на HSE Design

Идея проекта

Концепция

Обучить генеративную нейросеть Stable Diffusion XL (SDXL) генерировать изображения конкретного объекта — лисы — в различных сценах и ракурсах

Задача

Реализовать fine-tuning базовой модели SDXL с помощью метода DreamBooth и техники LoRA, чтобы модель научилась рисовать узнаваемую лису по текстовому описанию

Обоснование выбора объекта

Лиса — выразительный и легко узнаваемый персонаж.

Собранный датасет позволяет модели зафиксировать характерный облик и стиль

Исходные изображения для обучения

Всего 11 изображений

Формат изображения 1:1

Разрешение 512×512

Выбранные кадры показывают лису в разных позах, ракурсах и условиях освещения, что помогает модели лучше обобщать и генерализовать объект

Полный dataset

Загрузка датасета

Обучение

Параметры обучения

Этапы

Setup

Установка diffusers, transformers, accelerate, Загрузка скрипта train_dreambooth_lora_sdxl.py

Dataset

Загрузка 11 изображений из папки, Обрезка до 1:1, Resize до 512×512, Сохранение в «fox_data/»

Training

Запуск DreamBooth с LoRA: — Базовая модель: SDXL — VAE: madebyollin/sdxl-vae-fp16-fix — Instance prompt: a photo of sks fox — Размер батча: 1, gradient accumulation: 4 — 500 шагов, learning rate 1e-4, fp16, 8-bit Adam

Inference

Загрузка обученной LoRA, генерация серии по 10 промптам

Inference

Результат

Промпты

«a photo of sks fox sitting in a snowy forest»,

«a photo of sks fox running through an autumn meadow»,

«a photo of sks fox resting on a mossy log in the woods»,

«a photo of sks fox looking at the camera, close-up portrait»,

«a photo of sks fox hunting in tall grass at sunset»,

«a photo of sks fox standing on a rocky hilltop, dramatic sky»,

«a photo of sks fox in a flower field, spring morning light»,

«a photo of sks fox curled up sleeping under a tree»,

«a photo of sks fox walking along a frozen river in winter»,

«a photo of sks fox playing with its cub in a forest clearing»

Серия отражает основную идею: обученная LoRA-модель генерирует изображения лисы в новых сценах по текстовому промпту. Токен sks fox закрепляет связь между описанием и визуальным образом объекта

Модель успешно связывает текст «a photo of sks fox» с образом лисы из датасета и переносит его в разные контексты. Это подтверждает работоспособность DreamBooth + LoRA для обучения на малом датасете

Детали генерации

25 шагов инференса, seed фиксирован для воспроизводимости

Постобработка не применялась, использованы только веса обученной LoRA и базовая SDXL

Изображения обрезались до квадрата по центру, ресайзились до 512×512, для всех изображений использовался один instance prompt

Полный результат

Colab

Использование ИИ

Для генерации промптов к созданию изображений использовался DeepSeek

Для отладки кода и обработки ошибок использовался Cursor в Auto Mode