Muha Style: обучение генеративной модели. на HSE Design

Проект направлен на исследование генеративных моделей как инструмента работы с визуальным стилем. В центре внимания — возможность перенести художественную манеру в нейросеть и использовать её для создания новых изображений.

В условиях современной визуальной индустрии это даёт возможность быстрее работать с идеями, получать разные варианты и расширять творческий процесс.

В основе проекта лежит разработка собственного визуального подхода, который затем обучается и воспроизводится с помощью модели. При этом генерация изображений рассматривается не как замена художника, а как дополнительный инструмент, который помогает развивать и дополнять авторский стиль.

Концепция проекта

В этом проекте я исследую, как генеративные нейросети могут воспроизводить и развивать художественный стиль. Мне было интересно проверить, можно ли «научить» модель работать в определённой визуальной манере и использовать её как инструмент для генерации новых изображений.

В качестве основы я взяла стиль иллюстраций с женскими образами, вдохновлённый книжной графикой и декоративной живописью. В этих работах важны мягкость, внимание к деталям и общая атмосферность. Основная идея проекта — не заменить художника, а показать, что нейросеть может помогать в создании новых визуальных решений, сохраняя при этом узнаваемый стиль.

Исходные изображения для обучения

Для обучения модели я собрала датасет из изображений с похожей стилистикой. В него вошли иллюстрации с женскими персонажами, а также работы, где есть декоративные элементы и живописная подача.

Все изображения я привела к квадратному формату, чтобы они подходили для обучения. Я старалась отбирать картинки, которые максимально похожи друг на друга по стилю, чтобы модели было проще выделить общие характеристики.

Подготовка данных

Так как изображения в датасете всё равно немного отличались друг от друга, я использовала текстовые описания, чтобы задать более чёткое направление для обучения.

Для этого я применила модель BLIP, которая автоматически создала подписи к изображениям. Эти подписи потом использовались как промпты.

Это помогло сделать датасет более структурированным и дало модели больше информации о том, что именно она должна запомнить.

Датасет

Обучение проводилось на базе Stable Diffusion XL с использованием методов DreamBooth и LoRA.

Весь процесс был реализован в Google Colab. Сначала настраивалось окружение и загружались библиотеки, затем в систему добавлялся датасет, после чего запускалось обучение.

LoRA в этом случае выступает как небольшой набор параметров, который «накладывается» на базовую модель и позволяет адаптировать её под конкретный стиль без полного переобучения. Я увеличила количество шагов обучения, чтобы модель лучше уловила особенности стиля.

Использование модели

После завершения обучения полученные LoRA-веса были подключены к базовой модели, и я начала генерировать изображения с помощью текстовых описаний.

Для активации стиля использовался специальный промпт: «in the style of muha». Он задаёт модели нужное направление, и дальше к нему добавляется описание персонажа, освещения и других деталей.

Таким образом можно получать разные изображения, но в рамках одного визуального языка.

Результирующая серия изображений

В результате я получила серию изображений с женскими образами в едином стиле. Несмотря на то что промпты отличались, все картинки выглядят связанными между собой.

На изображениях можно увидеть разные вариации: меняется поза персонажа, композиция, освещение, но при этом сохраняется общее ощущение иллюстрации.

Генерации

По итогам можно сказать, что модель достаточно хорошо усвоила основные особенности стиля. В первую очередь это заметно по тому, как она передаёт лица, форму и общую атмосферу.

Изображения выглядят не как фотографии, а именно как иллюстрации, что и было основной задачей. Также сохраняется мягкая цветовая гамма и декоративность.

При этом результаты не одинаковые — модель даёт разные варианты, что позволяет использовать её для генерации новых идей. Иногда встречаются неточности в деталях, но в целом стиль остаётся узнаваемым.

Описание применения генеративных моделей

В проекте использовались несколько инструментов. Основной — это Stable Diffusion XL, на котором и происходила генерация изображений.

Для автоматического создания описаний применялась модель BLIP.

Также я использовала ChatGPT для помощи с формулировками, описанием проекта и решением некоторых проблем, связанных с кодом.

Код

В результате проекта мне удалось обучить модель, которая может генерировать изображения в заданном стиле. Она не заменяет художника, но может использоваться как инструмент для поиска идей и ускорения работы.