Обучение нейросети в стиле Jelenhule на HSE Design

Идея проекта

Интересно наблюдать, как искусственный интеллект пытается повторить чужой стиль, привнося в него свои интерпретации. В данном проекте использовалась генеративная нейросеть Stable Diffusion, обученная на моих собственных иллюстрациях, чтобы понять, насколько хорошо она сможет воспроизвести и интерпретировать мой стиль.

Основной задачей было исследовать, насколько нейросеть способна уловить ключевые элементы и особенности моего стиля, который отличается достаточно высоким уровнем детализации, но в то же время варьируется в зависимости от времени и используемых техник. Стиль одного художника может развиваться и меняться, и было важно понять, насколько нейросеть может распознать общие тенденции в разных примерах.

Для обучения нейросети была собрана коллекция моих работ, представляющих собой изображения, выполненные в разных годах. Все изображения либо в соотношении 1:1 (квадрат), либо очень близки к этому формату. Работы были подобраны так, чтобы в них чётко прослеживались характерные персонажи, и каждое изображение отражало разные этапы моего творчества, включая некоторые вариации в технике и стилистике.

Цель заключалась в том, чтобы нейросеть сама выявила характерные элементы, которые делают мой стиль уникальным, и начала воспроизводить их при генерации новых изображений.

Папка с изображениями

Список использованных в проекте инструментов:

— Stable Diffusion — обучение генеративной нейросети под свой стиль; — Google Colab — выполнение кода и генераций; — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; — Adobe Photoshop — изменение формата изображения (для обложки), создание коллажей.

Исходные изображения

Мой стиль можно охарактеризовать как семиреалистичный, с акцентом на детализированные лица и фигуры. Важным аспектом является выраженная динамичность в изображённых персонажах, а также искажение анатомических пропорций — все фигуры вытянутые, удлинённые. Цветовая палитра в моих работах чаще всего холодная, преобладают фиолетовые, синие и розовые оттенки. Многие из моих картин имеют темный тон.

Исходный размер 5262x1713

Примеры моих иллюстраций

Описание процесса обучения

В данном проекте использовалась генеративная нейросеть Stable Diffusion, основанная на модели Stable Diffusion XL, для обучения на моем собственном художественном стиле. Процесс обучения был проведён с использованием DreamBooth и LoRA.

Для удобства хранения данных и моделей был настроен доступ к Google Диску. Все изображения для обучения, а также результаты модели, такие как чекпоинты, сохранялись в папке на Google Диске, что позволило легко управлять файлам и сохранять результаты.

Исходный размер 570x83

Фрагмент кода

Изменение в настройках обучения

Процесс обучения был настроен с определёнными параметрами, которые были адаптированы для оптимизации работы модели, чтобы избежать перегрузки памяти и завершения работы с ошибками из-за слишком высоких настроек.

— Количество шагов обучения было уменьшено с 500 до 300. Это изменение было сделано для того, чтобы сократить время обучения и избежать перегрузки памяти, сохраняя при этом эффективность модели. — Чекпоинты были настроены на сохранение каждые 150 шагов. Это позволяет регулярно сохранять промежуточные результаты, что важно для предотвращения потери данных при возможных сбоях и для возможности продолжения обучения в любой момент. — Размер батча (train_batch_size) был установлен в 1, что является стандартной практикой при обучении моделей на ограниченных вычислительных ресурсах. Это уменьшает нагрузку на память и позволяет работать с большими моделями, хотя и снижает скорость обучения. — Разрешение (resolution) было уменьшено до 256, поскольку при более высоких значениях (например, 512) обучение останавливалось из-за нехватки ресурсов. Это также помогло сэкономить память и ускорить процесс генерации изображений.

Исходный размер 684x477

Фрагмент кода

В остальном, процесс обучения использовал стандартный код из репозитория SDXL DreamBooth LoRA, который включает в себя следующие этапы:

Загрузка предобученных моделей: Модель Stable Diffusion XL загружалась из репозитория stabilityai/stable-diffusion-xl-base-1.0, а также использовалась предобученная модель vae для улучшения качества изображений. Обучение модели на подготовленных данных, где нейросеть должна была уловить ключевые характеристики моего стиля, такие как яркие цвета, текстуры и характерные черты персонажей.

Процесс обучения

— Загрузка и подготовка данных: данные (мои изображения) загружались и обрабатывались с использованием предварительно подготовленных файлов (например, metadata.jsonl), которые содержали описания изображений. — Обучение модели: на этом этапе модель обучалась распознавать характерные элементы моего стиля, такие как цветовые переходы, текстуры, форма персонажей и их выражения. Применялись различные параметры, такие как градиентный чекпойнтинг и смешанная точность (FP16) для ускорения обучения и экономии памяти. — Сохранение чекпоинтов: промежуточные результаты сохранялись каждые 150 шагов с использованием параметра checkpointing_steps, что позволяло предотвратить потерю прогресса. — Генерация изображений: в конце обучения модель генерировала изображения, которые сравнивались с исходными, чтобы проверить, насколько точно нейросеть воспроизводит мой стиль.

Промт: art in Jelenhule style, a woman with black hair in the hat

Первая попытка генерации оказалась успешной в плане воспроизведения стиля. В сгенерированных изображениях действительно узнавались несколько ключевых элементов моего стиля и персонажа, который чаще всего встречался в работах, использовавшихся для обучения. Это подтвердило, что нейросеть смогла уловить основные характеристики, которые я стремилась передать.

Однако, как и в случае с любыми генеративными моделями, без огрехов не обошлось. Одной из основных проблем была анатомия персонажей, которая сохранилась в области лица, но с рядом ошибок в других частях тела. Особенно это было заметно в руках, которые традиционно являются слабым местом для большинства генеративных нейросетей. Нейросеть не обошла проблему и вместо нормальных пальцев создала осьминогоподобные конечности.

Исходный размер 1024x1024

Первая генерация, женский портрет по плечи

Промт: art in Jelenhule style, a full body woman looking at the camera, her skin is bright and her hair is brown and long

Исходный размер 1024x1024

Вторая генерация, женский портрет по плечи

Интересным моментом является то, что нейросеть смогла выделить ключевые особенности моего стиля, такие как удлинённые шеи и характерная вытянутость фигур и лиц. Это оказалось как плюсом, так и минусом: в процессе генерации нейросеть гипертрофировала эти черты, что делало персонажей всё более далекими от анатомической правильности, но в то же время сохраняло особую узнаваемость стиля.

Другим интересным моментом было то, что на моих изображениях присутствовали подписи. Нейросеть, заметив это, пыталась также воссоздавать эти элементы.

Промт: art in Jelenhule style, a portrait of a man with a beard and glasses, wearing a black hat and a focused expression

Исходный размер 1024x1024

Третья генерация, мужской портрет по плечи

Несмотря на то, что в обучающем наборе было всего одно изображение мужчины, нейросеть смогла успешно воспроизвести мужской образ в моём стиле. Она точно передала характерный стиль покраса, анатомические особенности и цветовую гамму, характерные для моих работ. Это показало, что нейросеть способна обобщать и применять принципы, даже если таких примеров в обучении было мало.

Удачные генерации

Портрет по плечи

Исходный размер 2607x2575

Генерации, женский портрет по плечи

Портреты по плечи сгенерировались наиболее успешно. На этих изображениях нейросеть продемонстрировала максимальное соответствие моему стилю: персонажи получались достаточно собранными и чёткими, а стиль покраса и композиции были близки к оригиналу.

Промты:

a portrait of a woman with long dark hair, wearing a large bow on her head, smiling softly;
a portrait of a woman with red hair, holding a bouquet of flowers, looking directly at the viewer;
a portrait of a woman with long curly hair, wearing a wide-brimmed hat and a chic smile;
a portrait of a woman with short curly hair, wearing round glasses, with a thoughtful expression.

Исходный размер 3172x1024

Генерации, мужской портрет по плечи

Промты:

a portrait of a man with short blonde hair, wearing a thick scarf, with a mysterious expression;
a portrait of a man with short hair and a playful smile, wearing a casual jacket;
a portrait of a man with short gray hair, wearing a fedora hat and a scarf, with a calm expression.

Портрет в половину тела

Исходный размер 4193x1024

Генерации, портрет в половину тела

Портреты в половину тела, сгенерировались вполне успешно. На этих изображениях нейросеть также продемонстрировала максимальное соответствие моему стилю.

Если изображения не включали в себя кисти рук, то критичных ошибок не выявлялось.

Промты:

a portrait of a man with short beard and hooded jacket, looking down;
a half-body woman with long straight hair, wearing a white blouse and holding a coffee mug;
a portrait of a man with a thick beard and mustache, wearing a simple white shirt, looking directly at the viewer;
a full body man with black hair, wearing a baseball cap, a white t-shirt, and jeans, with a friendly smile.

Неудачные генерации

Изображения в полный рост

Исходный размер 2098x1024

Неудачные генерации, полный рост

Проблемы начали появляться при генерации изображений в полный рост. Этот процесс оказался для нейросети гораздо более сложным, и количество ошибок значительно возросло. На этих изображениях чаще всего возникали раздвоенные конечности и другие искажения. Очевидно, для более сложных и детализированных изображений нейросеть нуждается в большем количестве данных.

Промты:

a full body man with messy hair, jumping in the air, wearing a hoodie and jeans;
a full body woman with long bright hair, wearing a casual dress, standing confidently.

Резюмируя

Исходный размер 2098x1024

1. a portrait of a woman with medium-length wavy hair, wearing a silver necklace and a soft smile; 2. a portrait of a woman with curly hair, with a single drop of rain on her cheek, looking up.

Процесс обучения нейросети оказался весьма успешным, особенно в плане улавливания ключевых особенностей моего стиля. Однако, как и следовало ожидать, нейросеть столкнулась с трудностями при генерации изображений с более сложной композицией. Тем не менее, результаты, особенно в части портретов и половины тела, показали, что нейросеть может эффективно адаптировать стиль и создавать работы, близкие к моим.

Что касается анатомических ошибок, их можно оправдать тем, что такие проблемы часто присутствуют и в моих собственных работах. Нейросеть, в этом плане, оказалась не совсем идеальной, но её способность воспринимать и адаптировать основные элементы стиля, такие как цветовая гамма и формы, была достаточно впечатляющей.

Исходный размер 2097x1024

Генерация vs. моя иллюстрация

Ссылка на модель на Hugging Face

Ссылка на блокнот с кодом

Использованные нейросети

Chat GPT — использовался для написания промтов.

Промт: сделай 20 промтов, которые начинаются с art in Jelenhule style, это должны быть простые короткие промты для иллюстраций — девушки или мужчины в полный рост (с коротким описанием внешности) — портрет (с каким-то аксессуаром) — халфбади в какой-то позе