Обучение нейросети стилю работ Татьяны Мавриной на HSE Design

ИДЕЯ ПРОЕКТА

Основная цель проекта — обучение модели Stable Diffusion XL генерации изображений в уникальном стиле советской художницы Татьяны Мавриной. Для этого будут использованы методы обучения DreamBooth и LoRA.

Татьяна Маврина — яркая представительница русского искусства XX века, известная своим самобытным стилем, сочетающим народные мотивы, импрессионистические приемы и экспрессивную цветовую палитру. Выбор художницы для данного проекта обусловлен желанием исследовать, как генеративная модель сможет уловить и воспроизвести не только узнаваемые визуальные элементы её живописи, но и передать её авторское видение — радостное, яркое и наполненное жизнью.

Исходный размер 2480x398

Иллюстрации Татьяны Мавриной

Сможет ли модель перенять не только внешние признаки живописи, но и сам визуальный язык художницы? Прежде всего — настроение, ритм линий, эмоциональную выразительность и общую декоративность.Текст

Исходный размер 2480x1750

Иллюстрации Татьяны Мавриной

Для обучения модели был сформирован датасет из 44 изображений, включающий разнообразные работы Татьяны Мавриной. В него вошли: пейзажи, портреты, натюрморты, а также иллюстрации к сказкам и литературным произведениям

Такой набор был нужен, чтобы модель увидела стиль в разных жанрах. Это важно, потому что задача состояла не в повторении одного сюжета, а в переносе общего художественного языка на разные сцены.

Исходный размер 3455x1508

Исходные изображения до перевода в формат 512 × 512

Техническая реализация

Подготовка инфраструктуры и аутентификация:

Подключение Google Drive для хранения данных. Аутентификация в Hugging Face Hub для доступа к базовым моделям (notebook_login). Установка необходимых библиотек (diffusers, transformers, accelerate). Обработка данных (Preprocessing):

Кроппинг: Использование PIL для обрезки изображений в квадратный формат (crop_to_square). Организация: Создание структуры папок и очистка имен файлов. Автоматическое аннотирование (Image Captioning):

Загрузка предобученной модели BLIP (BlipForConditionalGeneration) для автоматического создания текстовых описаний к изображениям. Генерация caption для каждого изображения, что критически важно для последующего обучения модели понимать контекст. Конфигурация и обучение:

Настройка окружения через библиотеку accelerate для эффективного использования GPU. Запуск процесса обучения (вероятно, Dreambooth или LoRA) на основе загруженных изображений. Используются скрипты обучения из библиотеки diffusers. Генерация и визуализация (Inference):

Загрузка обученных весов в DiffusionPipeline. Генерация новых изображений по текстовым промптам. Визуализация результатов с помощью matplotlib: создание сеток изображений (plt.imshow) для оценки качества обучения.

Исходный размер 2480x622

Кодовая вставка 1: обрезка изображений под формат 512×512

Исходный размер 2480x972

Кодовая вставка 3: генерация картинок

Итоговая серия: 10 изображений и промпты

ссылка на датасет

ИСПОЛЬЗОВАННЫЕ НЕЙРОСЕТИ:

Stable Diffusion XL https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

BLIP https://huggingface.co/Salesforce/blip-image-captioning-base

DreamBooth https://huggingface.co/papers/2208.12242

LoRA https://huggingface.co/papers/2106.09685