Модильяни после Модильяни: интерпретация стиля в генеративной модели на HSE Design

Идея проекта

Целью проекта было исследовать, насколько генеративная модель может воспроизводить характерные особенности художественного языка Амедео Модильяни.

В рамках проекта была обучена LoRA-адаптация модели Stable Diffusion XL на датасете из изображений его работ. Основное внимание уделялось особенностям стиля художника — вытянутые лица, удлиненные шеи, упрощенные черты, приглушенная цветовая гамма и портретная композиция.

Отдельной задачей для меня стало проверить, насколько модель способна выходить за пределы портретов и корректно генерировать фигуру и руки, сохраняя стилистическое единство.

Датасет

*Все изображения были взяты из источников, находящихся в общественном достоянии.

Для обучения был собран датасет из 72 изображений работ Амедео Модильяни.

Изображения были приведены к квадратному формату (1:1), чтобы соответствовать требованиям модели. В датасет включены как классические портреты, так и изображения с частично или полностью видимой фигурой, включая руки, что позволило расширить диапазон возможных генераций.

Процесс обучения

Обучение проводилось с использованием LoRA-адаптации модели Stable Diffusion XL.

Датасет был загружен в Google Colab, где изображения были автоматически обработаны и приведены к единой структуре. Для обучения использовался единый текстовый дескриптор, описывающий ключевые признаки стиля (портретность, вытянутые пропорции, живописная манера).

Обучение проходило в течение ~600 шагов, что позволило модели усвоить основные визуальные характеристики без переобучения.

Итоговая серия изображений

Исходный размер 3500x2480

Анализ

В результате обучения модель успешно воспроизводит ключевые особенности стилистики Модильяни. Наиболее стабильно передаются вытянутые пропорции лица, удлиненные шеи, упрощенные черты и общая живописная атмосфера.

Модель демонстрирует высокую консистентность в передаче портретной композиции. Во многих изображениях сохраняется характерная фронтальность, спокойная поза и обобщенная форма лица.

Также хорошо воспроизводится цветовая палитра — приглушенные, мягкие тона, близкие к оригинальным работам художника.

Исходный размер 3500x2480

При генерации полнофигурных изображений модель демонстрирует менее стабильный результат. В некоторых случаях фигура обрезается или композиция смещается в сторону портретного кадра.

Однако отдельные генерации показывают, что модель способна воспроизводить тело и руки, если это явно указано в текстовом запросе. Это подтверждает, что соответствующие признаки были частично усвоены, но требуют более точного контроля.

Изображения различаются по композиции, цвету и степени детализации. Несмотря на единый стиль, модель создает разнообразные вариации.

Наблюдаются типичные ограничения генеративных моделей: искажения анатомии, нестабильность при генерации рук и зависимость от формулировки промпта.

Использование GenAI

В проекте дополнительно использовались генеративные инструменты (в частности, ChatGPT) для помощи в написании кода, структурировании текста и описании результатов. Генерации изображений осуществлялись с помощью обученной модели Stable Diffusion XL.

Ноутбук с кодом для обучения