Исходный размер 1140x1600

Генеративные лисы

Проект принимает участие в конкурсе

Идея проекта

Концепция

Обучить генеративную нейросеть Stable Diffusion XL (SDXL) генерировать изображения конкретного объекта — лисы — в различных сценах и ракурсах

Задача

Реализовать fine-tuning базовой модели SDXL с помощью метода DreamBooth и техники LoRA, чтобы модель научилась рисовать узнаваемую лису по текстовому описанию

Обоснование выбора объекта

Лиса — выразительный и легко узнаваемый персонаж.

Собранный датасет позволяет модели зафиксировать характерный облик и стиль

Исходные изображения для обучения

Всего 11 изображений

Формат изображения 1:1

Разрешение 512×512

Выбранные кадры показывают лису в разных позах, ракурсах и условиях освещения, что помогает модели лучше обобщать и генерализовать объект

Загрузка датасета

Обучение

Параметры обучения

Этапы

Setup

Установка diffusers, transformers, accelerate, Загрузка скрипта train_dreambooth_lora_sdxl.py

Dataset

Загрузка 11 изображений из папки, Обрезка до 1:1, Resize до 512×512, Сохранение в «fox_data/»

Training

Запуск DreamBooth с LoRA:  — Базовая модель: SDXL  — VAE: madebyollin/sdxl-vae-fp16-fix  — Instance prompt: a photo of sks fox  — Размер батча: 1, gradient accumulation: 4  — 500 шагов, learning rate 1e-4, fp16, 8-bit Adam

Inference

Загрузка обученной LoRA, генерация серии по 10 промптам

Inference

Результат

0

Промпты

«a photo of sks fox sitting in a snowy forest»,

«a photo of sks fox running through an autumn meadow»,

«a photo of sks fox resting on a mossy log in the woods»,

«a photo of sks fox looking at the camera, close-up portrait»,

«a photo of sks fox hunting in tall grass at sunset»,

«a photo of sks fox standing on a rocky hilltop, dramatic sky»,

«a photo of sks fox in a flower field, spring morning light»,

«a photo of sks fox curled up sleeping under a tree»,

«a photo of sks fox walking along a frozen river in winter»,

«a photo of sks fox playing with its cub in a forest clearing»

Серия отражает основную идею: обученная LoRA-модель генерирует изображения лисы в новых сценах по текстовому промпту. Токен sks fox закрепляет связь между описанием и визуальным образом объекта

Модель успешно связывает текст «a photo of sks fox» с образом лисы из датасета и переносит его в разные контексты. Это подтверждает работоспособность DreamBooth + LoRA для обучения на малом датасете

Детали генерации

25 шагов инференса, seed фиксирован для воспроизводимости

Постобработка не применялась, использованы только веса обученной LoRA и базовая SDXL

Изображения обрезались до квадрата по центру, ресайзились до 512×512, для всех изображений использовался один instance prompt

Использование ИИ

Для генерации промптов к созданию изображений использовался DeepSeek

Для отладки кода и обработки ошибок использовался Cursor в Auto Mode

Генеративные лисы
Проект создан 24.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше