HSE University

Концепция проекта основана на переносе художественного языка Мишель Раушер в пространство генеративных моделей и проверке того, насколько точно нейросеть способна освоить и воспроизвести его визуальные принципы.

Творчество Раушера отличается вниманием к форме, активной работой с цветом и балансом между абстрактным и фигуративным. Его композиции сочетают кажущуюся спонтанность с внутренней структурой: визуальный ритм и логика построения сохраняются даже при свободной подаче. Существенную роль играет фактура и насыщенность изображения, создающие эффект материальности и глубины.

В рамках проекта планируется обучить генеративную модель на подборке работ художника, чтобы зафиксировать ключевые характеристики стиля: композицию, цветовые решения, тип линий и уровень абстракции. Важной задачей является не только воспроизведение внешних признаков, но и передача общего визуального ощущения — динамики, ритма и эмоциональной выразительности.

Основная цель — оценить, насколько генеративная модель способна адаптироваться к сложному авторскому стилю и создавать новые изображения, которые сохраняют его визуальную идентичность, оставаясь при этом самостоятельными и оригинальными.

Датасет состоит из 11 картин художника.

Исходный размер 3332x1724

Датасет, блокнот и генерации

Обучение модели

Сначала изображения работ Мишель Раушер были загружены в Google Colab, где из них собрали датасет для обучения. В него вошли 11 картин, отражающих основные особенности стиля художника — работу с цветом, формой и композицией.

Исходный размер 3571x934

Затем для каждого изображения автоматически создавались текстовые описания с помощью модели BLIP. Это помогло связать визуальные элементы с текстом и улучшить качество обучения.

После этого началось обучение модели. В качестве основы использовалась Stable Diffusion XL, а настройка под стиль выполнялась с помощью DreamBooth и LoRA. Обучение запускалось через специальный скрипт.

Параметры подбирались с учётом ограничений Google Colab, чтобы модель обучалась стабильно и при этом сохраняла основные черты стиля.

После обучения полученные веса подключались обратно к модели через библиотеку Diffusers. Это позволило генерировать новые изображения в стиле художника.

В итоге модель смогла передать основные особенности стиля Раушера: цвет, композицию и общее визуальное ощущение. Это показывает, что даже с небольшим количеством данных можно обучить нейросеть работать в авторском стиле.

Исходный размер 2427x1414

Итоги

«Michel Rauscher inspired, small house in water with long path and figure»

«Michel Rauscher inspired, two figures pulling a boat to shore»

«Michel Rauscher inspired, tall figure among oversized plants in water»

«Michel Rauscher inspired, child sitting on a wooden dock, feet in water»

«Michel Rauscher inspired, man standing in water holding a lantern»

«Michel Rauscher inspired, three figures around a table in water»

Исходный размер 1024x1024

«Michel Rauscher inspired, woman carrying fish across a narrow bridge»

Использование генеративной модели

Для решения задачи была разработана система на основе нескольких передовых ИИ‑технологий, объединённых в единый рабочий пайплайн.

Основой системы выступила модель Stable Diffusion XL (SDXL), способная генерировать высококачественные изображения по текстовым описаниям. Чтобы адаптировать её под конкретный художественный стиль, применялся метод DreamBooth. Он позволил провести тонкую настройку модели на относительно небольшом наборе изображений, закрепив необходимые визуальные особенности.

Для повышения качества взаимодействия между визуальными данными и текстовыми запросами использовалась модель BLIP. Она автоматически создавала описания для изображений, что улучшало понимание контекста и помогало формировать более точные промпты. Дополнительно ChatGPT применялся для генерации и редактирования самих текстовых запросов, делая их более эффективными для работы с SDXL.

Техническая реализация пайплайна была выполнена на языке Python с использованием библиотеки Diffusers. Это позволило последовательно организовать все этапы работы: от загрузки и обработки данных до обучения модели и финальной генерации изображений с применением обученных весов.

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 https://arxiv.org/abs/2208.12242 https://huggingface.co/Salesforce/blip-image-captioning-base https://chat.openai.com

Работы в стиле Мишеля Раушера