
Концепция
Мел Одом — современный американский художник- иллюстратор в адаптированном стиле ар-деко, который создал обложки для многочисленных романов, в частности, несколько книг фантастики автора Guy Gavriel Kay (Гай Гавриэль Кей), такие, как The Fionavar Tapestry trilogy, Tigana, A Song for Arbonne, and The Lions of Al-Rassan. Его мистические работы появлялись на обложках журналов Time, Playboy, OMNY и других.
Исходные изображения
Для обучения модели я выбрала 26 лучших портретов Одома, так как он специализировался на портретах. Мел делает лица геометричными, но плавными и несимметричными, плоскими, но объёмными за счет особой стилизации теней. Несколько лучших картинок представлены ниже.






Сгенерированные изображения
Первые генерации получились хорошо. Наблюдается ысокая детализация и хороший повтор стиля художника, несмотря на незначительные артефакты.


1 — a woman with a baby tiger, 2 — a tiger with blue eyes


1 — persian kid holding a hawk, 2- geisha holding a blue bird
При повышении шагов обработки с 30 до 40 картинки внезапно начали окрашиваться в малиновый, пока я выясняла, в чём дело. Однако детализация стала еще выше.
a black man with a snake around his neck


1 — sumo fighters, 2 — a jester
Здесь я перезагрузила модель, вернула обратно 30 шагов обработки и цветовая палитра сбросилась в нормальное состояние. Что касается картинок с собакой породы борзой, на первой генерации она больше похожа на ретривера. На второй попытке появилась настоящая борзая, но на фоне сгенерировался корги.


a white borzoi dog
На следующих картинках людей все еще повторяется фэнтезийный стиль рисунка, но фигуры больше ушли в реализм.


1 — a white-haired woman jumping over the moon, 2 — kanye west in a boat
В финальной генерации заметно, что нейросеть лучше всего рисует портреты, так как их я их загружала в обучение. Животных было очень мало, поэтому аллигатор на картинке потерпел проблемы с конечностями, но силуэт морды сеть уловила хорошо.
an albino man holding an alligator
Использование нейросети
Для генерации изображений были проделаны несколько этапов настройки модели. Я собрала датасет из 26 работ Мела Одома и обучила ее с использованием Fine-tuning Stable Diffusion XL, а также методов DreamBooth и LoRA. Работа была выполнена в двух средах — в Google Colab и в Kaggle (для увеличения лимита по генерациям), поэтому местами пришлось адаптировать код на две разные платформы. Модель была обучена за 1000 шагов.
Модель базирована на stable-diffusion-xl-base-1.0»
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0