Madonna_project на HSE Design

КОНЦЕПЦИЯ.

Одной из наиболее интересующих меня тем в классическом искусстве является изображение Мадонн. Им я посвящала несколько визуальных исследований, в одном из которых даже подняла тему репетативности используемых художниками приемов для изображения Марий.

В связи с этим мне стало интересно: может ли нейросеть обучиться корректному воспроизведению образа Мадонны на небольшом датасете?

ИЗОБРАЖЕНИЯ ДЛЯ ОБУЧЕНИЯ.

Для обучения нейросети я использовала картины художников, преимущественно Эпохи Возрождения, написанные не менее чем 100 лет назад.

Для создания датасета я вручную обработала каждое изображение, обрезав его до квадратного разрешения и сосредоточившись на лице Мадонны и младенце на ее руках.

РЕЗУЛЬТАТ.

После обучения нейросети я использовала проверочный промпт: «renaissance portrait of madonna and her baby»

Исходный размер 512x512

Убедившись, что механизм генерации работает корректно, я сгенерировала изображения с похожими промптами, слегка меняя порядок слов и их сочетания: «portrait of madonna», «renaissance portrait of madonna», «virgin Mary and the baby», «Madonna with the baby».

Исходный размер 512x512

После этого, рассмотрев описания, которые Blip сгенерировал к оригинальному датасету, я решила попытаться сгенерировать какие-то более редкие случаи.

«Renaissance Madonna with an angel»

«Renaissance Madonna with a man»

«Lonely renaissance Madonna»

Несмотря на мои попытки сформулировать промпт, который воспроизводил бы сильные отличия от оригинала, нейросеть не была способна создать что-то сильно отличающееся от картин, приведенных в датасете.

РАЗВЕРНУТЫЙ КОММЕНТАРИЙ РЕЗУЛЬТАТОВ.

Несмотря на то, что изображение человека для генеративных ИИ — сложная задача, датасета из 46 изображений хватило для того, чтобы обучить нейросеть повторять основные, наиболее характерные элементы при изображении Мадонны. Практически везде появляется характерный наряд Марии, а также ребенок, даже если промпт этого не предполагает. Это обусловлено тем, что и на первоисточниках Мадонна практически не появляется без Иисуса на руках.

Также нейросети удалось удачно повторить стиль приведенных картин — колористическая имитация вышла почти идеальной. На некоторых генерациях даже наблюдаются затертости по краям, что характерно для картин Эпохи Возрождения.

Из всего вышесказанного можно подвести итог, что нейросети было достаточно иметь датасет из 46 картин, чтобы узнаваемо воспроизвести основные особенности картин, посвященных Мадонне.

ТЕХНИЧЕСКАЯ РЕАЛИЗАЦИЯ.

Процесс обучения Архитектура и параметры: — Базовая модель: Stable Diffusion v1.5 — Метод адаптации: LoRA fine-tuning — Размер датасета: 46 изображения — Количество шагов обучения: 138 — Разрешение: 256×256 пикселей — Learning rate: 5e-6

Описание процесса Обучение проводилось на собранном вручную датасете с изображениями. Подписи к изображениям автоматически генерировались моделью BLIP. Для оптимизации использования видеопамяти применялась смешанная точность вычислений (FP16).

ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ.

Использованные модели ИИ

Stable Diffusion v1.5 Ссылка: https://huggingface.co/runwayml/stable-diffusion-v1-5 Цель: Базовая диффузионная модель для генерации изображений, на основе которой выполнялось дообучение стиля с использованием LoRA.

BLIP (Bootstrapping Language-Image Pre-training) Ссылка: https://huggingface.co/Salesforce/blip-image-captioning-base — Цель: Автоматическая генерация текстовых описаний (caption) для обучающих изображений, используемых при тренировке модели.

LoRA Цель: Параметрически эффективное дообучение модели Stable Diffusion, позволяющее адаптировать ее под конкретный художественный стиль при изменении небольшого количества параметров.

> БЛОКНОТ.