Обучение нейросетей по стилю Мела Одома на HSE Design

Концепция

Мел Одом — современный американский художник- иллюстратор в адаптированном стиле ар-деко, который создал обложки для многочисленных романов, в частности, несколько книг фантастики автора Guy Gavriel Kay (Гай Гавриэль Кей), такие, как The Fionavar Tapestry trilogy, Tigana, A Song for Arbonne, and The Lions of Al-Rassan. Его мистические работы появлялись на обложках журналов Time, Playboy, OMNY и других.

Исходные изображения

Для обучения модели я выбрала 26 лучших портретов Одома, так как он специализировался на портретах. Мел делает лица геометричными, но плавными и несимметричными, плоскими, но объёмными за счет особой стилизации теней. Несколько лучших картинок представлены ниже.

Исходный размер 1400x1400

Сгенерированные изображения

Первые генерации получились хорошо. Наблюдается ысокая детализация и хороший повтор стиля художника, несмотря на незначительные артефакты.

1 — a woman with a baby tiger, 2 — a tiger with blue eyes

1 — persian kid holding a hawk, 2- geisha holding a blue bird

При повышении шагов обработки с 30 до 40 картинки внезапно начали окрашиваться в малиновый, пока я выясняла, в чём дело. Однако детализация стала еще выше.

Исходный размер 1024x1024

a black man with a snake around his neck

1 — sumo fighters, 2 — a jester

Здесь я перезагрузила модель, вернула обратно 30 шагов обработки и цветовая палитра сбросилась в нормальное состояние. Что касается картинок с собакой породы борзой, на первой генерации она больше похожа на ретривера. На второй попытке появилась настоящая борзая, но на фоне сгенерировался корги.

a white borzoi dog

На следующих картинках людей все еще повторяется фэнтезийный стиль рисунка, но фигуры больше ушли в реализм.

1 — a white-haired woman jumping over the moon, 2 — kanye west in a boat

В финальной генерации заметно, что нейросеть лучше всего рисует портреты, так как их я их загружала в обучение. Животных было очень мало, поэтому аллигатор на картинке потерпел проблемы с конечностями, но силуэт морды сеть уловила хорошо.

Исходный размер 1376x1370

an albino man holding an alligator

Использование нейросети

Для генерации изображений были проделаны несколько этапов настройки модели. Я собрала датасет из 26 работ Мела Одома и обучила ее с использованием Fine-tuning Stable Diffusion XL, а также методов DreamBooth и LoRA. Работа была выполнена в двух средах — в Google Colab и в Kaggle (для увеличения лимита по генерациям), поэтому местами пришлось адаптировать код на две разные платформы. Модель была обучена за 1000 шагов.

Модель базирована на stable-diffusion-xl-base-1.0»

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Ссылка на код Colab: https://colab.research.google.com/drive/1ObZQ5f8EiQYks-TfpFG5v6iQuBOdB2Om?usp=sharing Kaggle: https://www.kaggle.com/code/klmteees/notebook9a63160ab9