вИИктор васнецов на HSE Design

Идея проекта

Проект посвящен исследованию возможностей современных генеративных нейросетей в области воспроизведения и интерпретации художественного наследия. В качестве объекта исследования выбран уникальный стиль Виктора Михайловича Васнецова (1848–1926) — великого русского живописца, основоположника «неорусского стиля» в искусстве. Основная цель — сохранить художественный стиль Васнецова, включая характерные композиционные приёмы, драматическое освещение, детализированные костюмы и традиционную русскую атмосферу, и при этом адаптировать его к современным генеративным методам нейросетей.

Фрагменты работ Васнецова

Датасет изображений

Для обучения модели был собран датасет из 20 картин Васнецова в формате PNG с разрешением 1024×1024. Я кадрировала изображения так, чтобы герои оставались в центре композиции, и искусственный интеллект обучился нужному расположению персонажей на изображении.

Фрагменты работ Васнецова

Процесс обучения

Проект использует Stable Diffusion XL с обученной LoRA-моделью, которая была дообучена на подборке картин Васнецова. Это позволяет нейросети воспроизводить художественные приёмы и детали, характерные для мастера, и переносить их на новые персонажи и сцены. LoRA позволила нейросети акцентировать внимание на характерных особенностях стиля без переобучения всей SDXL модели. Для генерации использовались промпты с указанием персонажа, исторического или сказочного контекста, что обеспечило разнообразие серии. Размер изображений 512×512 и 50 шагов диффузии обеспечили баланс между качеством и скоростью генерации.

Фрагменты работ Васнецова

Данные помещались в рабочую директорию (/content/images/), которая затем передавалась в скрипт обучения как параметр --instance_data_dir. Также был задан триггер-промпт (), который используется для активации выученного стиля при генерации изображений. Метод LoRA (Low-Rank Adaptation) позволяет дообучать модель с минимальными вычислительными затратами, и это было особенно важно при работе в Google Colab с ограниченными ресурсами моего компьютера. Обучение происходило с использованием библиотеки Accelerate, которая упрощает работу с GPU. Во время обучения модель автоматически сохраняла промежуточные результаты через каждые 50 шагов. Финальный результат сохранялся в виде файла, который содержит только обученные LoRA-веса и может быть подключён к базовой модели SDXL для генерации изображений. После завершения обучения LoRA подключалась к базовой модели через pipeline Diffusers. При генерации использовался триггер-промпт, что позволяло применять обученный стиль к новым сценам.

Результирующая серия изображений

В итоговой серии представлены изображения сказочных или былинных образов, которые были выполнены генеративной моделью в стиле работ Васнецова, для чего я использовала специальный промпт, поэтому получившиеся изображения повторяют основы его неорусского стиля. Концепция проекта заключалась в создании модели, способной не просто копировать, а творчески интерпретировать стиль Васнецова. Результаты демонстрируют, что модель усвоила основные характеристики стиля.

Примеры генераций с промптами: «princess», «hero of a Russian fairy tale»

LoRA относительно успешно передала общие характерные черты Васнецова — насыщенные натуральные цвета, драматическое освещение, цветовая гамма, эпическое настроение. Персонажи выглядят аутентично, они одеты в традиционные русские костюмы и головные уборы. Модель также передает характерную для Васнецова манеру письма — плотный мазок, внимание к деталям костюмов и доспехов, орнаментальность в украшениях и костюме. Однако модель недостаточно хорошо смогла распознать анатомические детали вроде рук и выражений лиц.

Примеры генераций с промптами: «peasant woman», «knight»

Для улучшения качества изображений я попробовала использовать апскейл в EzEnhancer. Этот генеративный инструмент сделал изображения более яркими и четкими.

Примеры генераций, улучшенных в апскейле, с промптами: «queen», «tsarevna», «witch Baba Yaga»

Примеры генераций, улучшенных в апскейле, с промптами: «bogatyr», «forest spirit»

Ноутбук с кодом

Папка с датасетом и итоговой серией

Описание применения генеративной модели

В проекте использована модель Stable Diffusion XL, дообученная методом DreamBooth с применением LoRA на наборе из 20 изображений картин Виктора Васнецова. Обучение и генерация изображений проводились в среде Google Colab. Текстовые промпты для генераций, описание процесса обучения и экспликация были подготовлены с использованием ChatGPT. Итоговые изображения сгенерированы с помощью обученной нейросети и улучшены в Ezenhancer.AI.