Идея проекта
Целью проекта является исследование возможности дообучения генеративной нейросети Stable Diffusion XL для генерации изображений конкретного объекта — лошади. В рамках проекта модель была дообучена методом DreamBooth LoRA на небольшом датасете изображений. После обучения модель получила способность генерировать изображения данного объекта в различных визуальных стилях и сценах. Основная задача проекта — изучить, насколько хорошо модель может сохранить визуальные характеристики объекта при генерации новых изображений.
Для обучения был собран датасет изображений лошади. Изображения были приведены к квадратному формату и использованы для обучения модели Stable Diffusion XL методом DreamBooth LoRA. Датасет содержит 63 изображения, на которых представлен один и тот же объект. Это позволяет модели лучше выделить характерные визуальные признаки объекта: форму головы, пропорции тела и текстуру шерсти.
Процесс обучения
Процесс обучения модели Stable Diffusion XL методом DreamBooth LoRA в среде Google Colab
Обучение модели проводилось в среде Google Colab с использованием скрипта DreamBooth LoRA для Stable Diffusion XL. Изначально было выбрано высокое разрешение 1024 px для получения более детализированных результатов. Однако из-за ограниченных ресурсов Colab обучение занимало слишком много времени и несколько раз прерывалось. Поэтому параметры были скорректированы: разрешение изображений уменьшено, а количество шагов обучения оптимизировано. В процессе обучения использовался специальный токен skshorse, позволяющий модели распознавать обученный объект при генерации изображений.
Результаты генерации
Серия изображений, сгенерированных обученной моделью с использованием токена skshorse.
Модель генерирует портрет лошади и хорошо передает форму головы и текстуру шерсти. В промте специально указано, что у лошади должно быть четыре ноги, так как при генерации животных нейросеть иногда может ошибаться в анатомии, особенно если датасет для обучения был относительно небольшим.
Модель генерирует сцену с движущейся лошадью на открытом пространстве. Объект сохраняет основные пропорции тела и выглядит реалистично.
В данной генерации объект представлен в стиле масляной живописи. Основная форма лошади сохраняется, но изображение стилизовано под художественную картину.
Изображение выполнено в акварельном стиле. Модель сохраняет силуэт лошади, адаптируя его к мягкой художественной стилизации.
В этом изображении лошадь помещена в фантазийное окружение. Модель демонстрирует способность переносить обученный объект в различные сцены.
На изображении используется ночное освещение и более атмосферная сцена. Модель сохраняет форму объекта и адаптирует его к новой визуальной среде.
Для расширения серии были выполнены дополнительные генерации изображений с использованием различных сцен и условий освещения.
Анализ результата
В результате дообучения модели Stable Diffusion XL методом DreamBooth LoRA была получена серия изображений лошади, сгенерированных по различным текстовым запросам. Модель в большинстве случаев сохраняет основные визуальные характеристики объекта: форму головы, пропорции тела и текстуру шерсти.
На некоторых изображениях можно заметить небольшие ошибки в анатомии, например положение или количество ног, хотя у лошади должно быть четыре ноги. Это может быть связано с небольшим размером обучающего датасета и особенностями работы генеративных моделей.
Со всеми сгенерированными изображениями можно ознакомиться в папке с результатами генераций.
При подготовке текстов и структуры презентации использовался инструмент ChatGPT (chatgpt.com).