Обучение генеративной нейросети картинам Кассиуса Маркеллуса Кулиджа на HSE Design

Концепция

В основе моего проекта лежит обращение к самой узнаваемой работе американского художника Кассиуса Маркеллуса Кулиджа — циклу Dogs Playing Poker. Кулидж жил в 1844–1934 годах и вошёл в историю искусства прежде всего как автор антропоморфных сцен с собаками, которые играют в карты, курят, общаются и попадают в бытовые или комические ситуации. Именно эта особенность сделала его работы легко узнаваемыми и превратила их в важную часть массовой американской визуальной культуры.

В своём проекте я решила сохранить главную художественную идею Кулиджа — соединение серьёзной карточной игры с ироничным изображением животных, ведущих себя по-человечески. Однако вместо буквального повторения собак я использую этот визуальный принцип для генерации других животных, играющих в покер. Мне было важно не просто скопировать известный сюжет, а проверить, насколько хорошо нейросеть сможет уловить и перенести сам стиль: композицию вокруг стола, атмосферу напряжения и азарта, характерные позы, костюмы, мимику и общее ощущение слегка комичной театральной сцены. Это позволяет сохранить узнаваемую эстетику Кулиджа, но при этом создать новые образы внутри той же художественной логики.

Исходные изображения

Собаки играют в покер, серия картин Кассиуса Кулиджа

Генерации

prompt: photo collage in COOLIDGE style, bears playing poker, prompt: photo collage in COOLIDGE style, bunnies playing poker

prompt: photo collage in COOLIDGE style, cats playing poker, prompt: photo collage in COOLIDGE style, foxes paying poker

prompt: photo collage in COOLIDGE style, goats playing poker, prompt: photo collage in COOLIDGE style, horses playing poker

prompt: photo collage in COOLIDGE style, kangaroos, prompt: photo collage in COOLIDGE style, lions playing poker

prompt: photo collage in COOLIDGE style, monkeys playing poker, prompt: photo collage in COOLIDGE style, moose playing cards

prompt: photo collage in COOLIDGE style, owls playing poker, prompt: photo collage in COOLIDGE style, racoons playing poker

prompt: photo collage in COOLIDGE style, rhinos playing poker, prompt: photo collage in COOLIDGE style, tigers playing poker

Исходный размер 1024x1024

prompt: photo collage in COOLIDGE style, wolves playing poker

Описание применения генеративной модели

В своей работе я собрала пайплайн для обучения собственной LoRA-модели в Google Colab. Сначала в ноутбуке были установлены все нужные библиотеки для Diffusers, DreamBooth и ускоренного обучения, после чего я загрузила изображения в локальную папку и проверила их через предпросмотр. Затем код автоматически создал подписи к рисункам с помощью BLIP и сохранил их в metadata.jsonl, чтобы подготовить датасет к обучению. После входа в Hugging Face я запустила тренировку SDXL LoRA с разрешением 512, 500 шагами и сохранением чекпоинта на 250-м шаге, а затем выгрузила результат в репозиторий marcellus_style_LoRA. В финале ноутбук сразу позволяет протестировать модель через генерацию изображений на базе Stable Diffusion XL с подключёнными LoRA-весами.

Моя модель опубликована на Hugging Face как SDXL LoRA DreamBooth-адаптация для stabilityai/stable-diffusion-xl-base-1.0. В карточке модели указано, что для генерации используется триггерная фраза «photo collage in COOLIDGE style», обучение текстового энкодера не включалось, а в качестве VAE использовалась madebyollin/sdxl-vae-fp16-fix.

Итог

Генеративная модель смогла научиться распознавать чтиль Кулиджа, однако, из-за небольшого количества датасета (поскольку серия работ про собак довольно ограничена), нейросеть взяла за основу один четкий сюжет с определенной мебелью. Изображение карт и фишек местами нечеткое, однако сами животные отлично совпадают с визуалом собак на исходных изображениях.

Модель на Hugging Face

Блокнот с кодом