Обучение генеративной нейросети на картинах Марии Головкиной на HSE Design

Описание идеи

Мария Головкина — визуальная художница из Тулы, работающая на пересечении графики, энкаустики и инсталляции. В своих работах она исследует темы идентичности, постсоветского пространства и экологических изменений эпохи антропоцена — то, что остаётся на периферии официального взгляда, но формирует среду и память.

Меня привлекла прежде всего работа Головкиной с цветом и атмосферой: её работы существуют в состоянии между чёткостью и растворением, где форма угадывается, но никогда не договаривается до конца. Особый интерес вызвала техника — художница работает соусом на картоне, что даёт бархатистую, почти осязаемую фактуру поверхности и мягкие переходы тона, недостижимые в обычной графике. Именно эта телесность материала и приглушённая, но насыщенная цветовая среда стали для меня главным вызовом: удастся ли нейросети уловить не просто визуальный образ, но и ощущение от работы.

Этот проект — это попытка научить нейросеть видеть мир так, как видит его Головкина: через характерную пластику линий, фактуру и специфическую цветовую интонацию её работ.

Можно ли передать авторский язык художника с помощью алгоритма, и что при этом теряется, а что неожиданно сохраняется?

Исходные изображения

Для обучения модели было собрано около 30 работ из личного портфолио Марии Головкиной — с её разрешения на использование в учебных целях.

Изображения подбирались так, чтобы охватить характерные черты её визуального языка: работу с тоном, фактуру соуса на картоне и атмосферу, типичную для разных серий.

Все изображения были приведены к квадратному формату 1:1 для корректной подачи в модель.

Процесс обучения

Исходный размер 1112x670

Фрагмент кода

За основу был взят скрипт официальной библиотеки Diffusers от HuggingFace.

Базовая модель — Stable Diffusion XL, которая дообучалась методом DreamBooth + LoRA: вместо полного переобучения всех весов модели техника LoRA обновляет лишь небольшое подмножество параметров, что позволяет запустить процесс на одном GPU T4 в Kaggle без потери качества.

Перед обучением каждое изображение из датасета было автоматически подписано с помощью модели BLIP (Salesforce), которая генерирует текстовое описание к каждой работе.

Для экономии памяти GPU использовались: смешанная точность (float16), градиентный чекпоинтинг и оптимизатор 8-bit Adam из библиотеки bitsandbytes.

Обучение проводилось на платформе Kaggle с ускорителем Tesla T4.

Ноутбук проекта

Результирующая серия изображений

Исходный размер 2048x2048

prompt = «photo collage in GOLOVKINA style, red square, Moscow, Russia, black and white colors»

Исходный размер 1024x1024

prompt = «photo collage in GOLOVKINA style, portrait a man»

Исходный размер 1024x1024

prompt = «photo collage in GOLOVKINA style, lake»

Нейросети удалось уловить наиболее «поверхностные» характеристики стиля Головкиной: цветовые отношения, общую тональность работ и отчасти характер мазка. В сгенерированных изображениях узнаётся приглушённая, насыщенная цветовая среда, типичная для её серий.

Однако то, что делает работы Головкиной по-настоящему сильными, передать не получилось.

Нейросеть воспроизводит визуальную поверхность, но не смысловой слой: из изображений уходит напряжение, внутренняя тишина и ощущение материала как высказывания.

Это, пожалуй, главный вывод проекта: генеративная модель способна обучиться языку художника, но не его интонации.

Ссылка на все материалы