Обучение генеративной нейросети под свой стиль на HSE Design

Идея проекта

Идея проекта заключается в исследовании возможностей генеративных моделей для создания fashion-объектов в наивной детской стилистике. Основной концепт — совмещение двух противоположных визуальных языков: примитивного, «детского» рисунка и более сложной структуры дизайнерской одежды. (исходное изображение)

исходные изображения

В качестве исходных данных был использован набор изображений (датасет), включающий рисунки, выполненные в детской манере: с упрощёнными формами, яркими цветами, неровными линиями и отсутствием реалистичной проработки. Все изображения были предварительно обработаны: — приведены к единому формату (512×512 пикселей) — очищены от лишних деталей, не соответствующих стилю — отобраны по принципу визуального сходства

Данный датасет позволил задать модели чёткое представление о целевом стиле генерации. (исходное изображение)

Результирующая серия изображений

В результате обучения была получена серия изображений, представляющая собой коллекцию платьев, выполненных в детской наивной стилистике.

Каждое изображение отражает вариации одного и того же визуального языка, но отличается по: — форме (объём, силуэт, пропорции) — декоративным элементам (узоры, символы, линии) — цветовым решениям

Серия воспринимается как единая коллекция, объединённая общей эстетикой.

Результирующая серия изображений

Развёрнутый комментарий и анализ результатов

Результаты в целом соответствуют первоначальной концепции проекта: изображения выглядят как дизайнерские эскизы, выполненные ребёнком, но при этом сохраняют читаемость формы одежды.

С точки зрения генерации, важную роль сыграли текстовые промпты, которые задавали направление (например, указание на «childlike drawing», «crayon texture», «naive style»). Дополнительные методы улучшения не использовались — упор был сделан на базовое обучение модели и подбор формулировок. (Результирующая серия изображений)

Модели удалось успешно передать ключевые элементы стиля: - неровные, «живые» линии - плоские цветовые заливки - намеренно упрощённые пропорции - эффект рисования мелками или маркерами

Результирующая серия изображений

Нейросеть обработала исходные данные, выделив наиболее устойчивые признаки стиля и начав комбинировать их в новых вариациях. При этом наблюдаются различия между изображениями: — в одних сильнее выражена декоративность — в других — акцент на форме силуэта — варьируется степень «хаотичности» линий

Ноутбук с кодом и описание процесса обучения

Обучение модели проводилось в среде Google Colab. В качестве базовой архитектуры использовалась Stable Diffusion.

Процесс включал следующие этапы:

Установка необходимых библиотек
Подключение Google Drive и загрузка датасета
Загрузка предобученной модели
Подготовка изображений (ресайз и нормализация)
Настройка параметров обучения (LoRA)
Запуск обучения в несколько эпох
Генерация итоговых изображений с помощью текстовых промптов

Обучение происходило на GPU, что позволило ускорить процесс. Количество эпох было ограничено для предотвращения переобучения.

ноутбук

Код был проверен Google Gemini