Врубель как генеративный образ на HSE Design

Попытка перевести узнаваемый живописный язык в генеративную форму

В этом проекте я исследую, можно ли обучить генеративную нейросеть создавать изображения, которые не копируют конкретные произведения, а воспроизводят характерные черты определённого художественного языка. В качестве основы для эксперимента я выбрала стиль Михаила Врубеля — художника, чьи работы легко узнаются по напряжённой декоративности, сложной цветовой среде, кристаллической пластике формы и особой эмоциональной атмосфере.

Меня интересовало не буквальное повторение уже существующих картин, а создание новой серии, в которой нейросеть опирается на художественные признаки стиля и переносит их на другие сцены, образы и композиции. Поэтому итоговый результат — это не реконструкция известных произведений, а серия самостоятельных генераций, в которых считываются характерные особенности живописного мира Врубеля.

Проект находится на пересечении дизайна, визуального анализа и машинного обучения. Для меня было важно проверить, какие элементы стиля лучше всего поддаются генеративному переносу, а какие, наоборот, теряются, упрощаются или становятся слишком шаблонными.

Стиль, в котором декоративность сочетается с драматизмом

Стиль Врубеля оказался особенно интересным для обучения по нескольким причинам. Во-первых, его работы обладают очень сильной визуальной цельностью: даже без подписи в них часто распознаются характерные цветовые переходы, мозаичная фактура, острые силуэты и напряжённая эмоциональная интонация. Во-вторых, этот стиль находится на границе между живописью, символизмом и декоративным мышлением, а значит хорошо подходит для проверки того, как нейросеть усваивает не только форму, но и атмосферу.

Мне было важно посмотреть, сможет ли модель уловить не один внешний признак, а совокупность особенностей: глубокие сине-фиолетовые и жемчужно-серые оттенки, ощущение мерцания поверхности, сложную трактовку складок, орнаментальность, мистическую выразительность персонажей и напряжённую театральность пространства.

Цель проекта состояла в том, чтобы обучить Stable Diffusion XL на небольшом тематическом датасете и получить серию изображений, в которых визуальный язык Врубеля читается не как случайная стилизация, а как более или менее консистентная система признаков.

Передо мной стояли три основные задачи. Первая — собрать подходящий датасет и подготовить его к обучению. Вторая — настроить и провести обучение LoRA-модели на базе Stable Diffusion XL. Третья — сгенерировать итоговую серию изображений и проанализировать, какие признаки стиля были переданы наиболее убедительно.

Исходные изображения для обучения

Для обучения я собрала датасет из 20 квадратных изображений хорошего качества. При отборе изображений я обращала внимание не только на техническое качество, но и на визуальную репрезентативность: в датасет вошли работы, в которых хорошо читаются цветовая палитра, пластика, характер композиции и декоративные элементы, типичные для выбранного стиля.

При подготовке датасета я старалась сохранить разнообразие внутри одной художественной системы. Это было важно, чтобы модель не заучила одну-две композиционные схемы, а уловила более широкий набор признаков. В датасет вошли изображения с разными сюжетами, но с близкой эстетической логикой: мифологические и сказочные персонажи, драматические портреты, декоративные детали, сложные фоны и живописные поверхности.

Ниже представлены несколько примеров изображений, использованных для обучения модели.

Техническая часть

В основе проекта лежит модель Stable Diffusion XL, дообученная под конкретный художественный стиль с помощью метода DreamBooth LoRA. Такой подход позволяет не переобучать всю базовую модель полностью, а обучить более компактный набор параметров, который отвечает за перенос выбранных визуальных признаков.

Работа проходила в ноутбуке на основе предоставленного учебного кода. Сначала был подготовлен датасет: изображения были приведены к квадратному формату, затем для них были созданы текстовые описания, чтобы связать визуальные данные с промптами. После этого была запущена процедура обучения LoRA на базе SDXL. На финальном этапе модель использовалась для генерации серии новых изображений по авторским текстовым запросам.

В процессе работы я столкнулась с типичной для SDXL технической проблемой: среда выполнения могла перегружаться по памяти после обучения и генерации в рамках одной сессии. Поэтому важной частью процесса стало разделение этапов на обучение и отдельную финальную генерацию результатов.

Итоговая серия

Ниже представлена итоговая серия генераций. Все изображения были созданы одной и той же обученной моделью, но по разным текстовым запросам. Это позволило проверить, насколько устойчиво стиль переносится на разные сюжеты и композиции.

Исходный размер 1024x1024

В итоговую серию вошли пять изображений, сгенерированных обученной моделью на основе разных сюжетов, но в единой визуальной логике. Мне было важно проверить, сможет ли нейросеть удержать стиль не только в одном типе композиции, а в нескольких разных направлениях: в светлом символическом образе, в сказочной сцене, в динамичном сюжете, в декоративном женском портрете и в тёмном мистическом мотиве. Благодаря этому серия показывает не один удачный результат, а диапазон того, как модель работает с разными образами внутри одной стилистической системы. Изображения различаются по настроению: от мягкой, почти воздушной ангельской сцены и сказочного образа с лебединой темой до напряжённого всадника, цветочного портрета и тяжёлой демонической композиции.

Если рассматривать серию целиком, можно увидеть, что нейросети удалось передать несколько ключевых признаков выбранного художественного языка: сложную приглушённую палитру, живописную фактуру, декоративную обработку формы и общее ощущение мистики и внутреннего напряжения. При этом серия не выглядит однообразной: в одних работах сильнее проявляется символическая мягкость, в других — драматизм и тревожность. Именно эта вариативность делает результат убедительным, потому что модель не просто повторяет один и тот же образ, а переносит усвоенные стилистические признаки на разные визуальные ситуации.

Описание применения генеративной модели

В этом проекте генеративная модель использовалась как основной инструмент визуального эксперимента. С её помощью была обучена стилистическая LoRA-модель на базе Stable Diffusion XL, предназначенная для генерации новых изображений в художественной логике выбранного стиля. Искусственный интеллект применялся не для автоматической подмены авторской работы, а как исследовательский инструмент, позволяющий проверить, какие признаки художественного языка могут быть перенесены в генеративную систему.

В проекте использовалась модель Stable Diffusion XL и метод DreamBooth LoRA.

Для подготовки и описания проекта также использовался ChatGPT и Claude. Он применялся для оптимизации кода, помощью в ошибках.

Код