Генеративная лошадь: исследование дообучения Stable Diffusion XL на HSE Design

Идея проекта

Целью проекта является исследование возможности дообучения генеративной нейросети Stable Diffusion XL для генерации изображений конкретного объекта — лошади. В рамках проекта модель была дообучена методом DreamBooth LoRA на небольшом датасете изображений. После обучения модель получила способность генерировать изображения данного объекта в различных визуальных стилях и сценах. Основная задача проекта — изучить, насколько хорошо модель может сохранить визуальные характеристики объекта при генерации новых изображений.

Исходный размер 3504x584

посмотреть датасет

Для обучения был собран датасет изображений лошади. Изображения были приведены к квадратному формату и использованы для обучения модели Stable Diffusion XL методом DreamBooth LoRA. Датасет содержит 63 изображения, на которых представлен один и тот же объект. Это позволяет модели лучше выделить характерные визуальные признаки объекта: форму головы, пропорции тела и текстуру шерсти.

Процесс обучения

Исходный размер 3024x1532

Процесс обучения модели Stable Diffusion XL методом DreamBooth LoRA в среде Google Colab

Обучение модели проводилось в среде Google Colab с использованием скрипта DreamBooth LoRA для Stable Diffusion XL. Изначально было выбрано высокое разрешение 1024 px для получения более детализированных результатов. Однако из-за ограниченных ресурсов Colab обучение занимало слишком много времени и несколько раз прерывалось. Поэтому параметры были скорректированы: разрешение изображений уменьшено, а количество шагов обучения оптимизировано. В процессе обучения использовался специальный токен skshorse, позволяющий модели распознавать обученный объект при генерации изображений.

Результаты генерации

Серия изображений, сгенерированных обученной моделью с использованием токена skshorse.

Исходный размер 1024x1024

Модель генерирует портрет лошади и хорошо передает форму головы и текстуру шерсти. В промте специально указано, что у лошади должно быть четыре ноги, так как при генерации животных нейросеть иногда может ошибаться в анатомии, особенно если датасет для обучения был относительно небольшим.

Модель генерирует сцену с движущейся лошадью на открытом пространстве. Объект сохраняет основные пропорции тела и выглядит реалистично.

В данной генерации объект представлен в стиле масляной живописи. Основная форма лошади сохраняется, но изображение стилизовано под художественную картину.

Изображение выполнено в акварельном стиле. Модель сохраняет силуэт лошади, адаптируя его к мягкой художественной стилизации.

В этом изображении лошадь помещена в фантазийное окружение. Модель демонстрирует способность переносить обученный объект в различные сцены.

На изображении используется ночное освещение и более атмосферная сцена. Модель сохраняет форму объекта и адаптирует его к новой визуальной среде.

Для расширения серии были выполнены дополнительные генерации изображений с использованием различных сцен и условий освещения.

Анализ результата

В результате дообучения модели Stable Diffusion XL методом DreamBooth LoRA была получена серия изображений лошади, сгенерированных по различным текстовым запросам. Модель в большинстве случаев сохраняет основные визуальные характеристики объекта: форму головы, пропорции тела и текстуру шерсти.

На некоторых изображениях можно заметить небольшие ошибки в анатомии, например положение или количество ног, хотя у лошади должно быть четыре ноги. Это может быть связано с небольшим размером обучающего датасета и особенностями работы генеративных моделей.

Со всеми сгенерированными изображениями можно ознакомиться в папке с результатами генераций.

результат генераций

ноутбук с кодом

При подготовке текстов и структуры презентации использовался инструмент ChatGPT (chatgpt.com).