Обучение генеративной модели на спортивный пиксель-арт на HSE Design

Я работаю иллюстратором в дизайн студии, и мы часто разговариваем между коллегами о вопросе использования генеративного искусственного интеллекта. Недавно мы делали пиксельную игру на мобильные устройства. Для неё мне приходилось отрисовать много персонажей в разных позах и состояниях. Мне стало интересно, могу ли я натренировать нейросеть таким образом, чтобы она могла на основе моих иллюстраций воспроизводить персонажей и рисовать дальнейших героев только с помощью моих промтов. Сможет ли неиросеть заменить меня как иллюстратора и упростить мне работу?

Исходный размер 1920x687

Персонажи выдержаны в одном стиле, а именно

— Пиксель-арт — Яркие цвета/ Яркая заливка — Немного гипертрафированные конечности — Связаны со спортом

Исходный датасет (картинки)

Исходный размер 1489x1190

В работе я использовала

— Stable Diffusion — обучение генеративной нейросети под свой стиль — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт — Google Colab — выполнение кода и генераций — Figma — для коллажирования готовых работ

Сначала я установила все нужные библиотеки для работы с AI изображениями, а так же библиотеки для оптимизации работы GPU. Затем я загрузила изображения, которые предварительно положила на облачное хранилище Google Disc

Исходный размер 1920x1031

Затем я обучила неиросеть саму генерировать описания к каждому изображению так, чтобы каждая из 20 картинок была подробно описана. Это подготовительный этап к работе с изображениями

Исходный размер 1939x799

Далее я начинаю настраивать модель на конкретный стиль моих пиксельных спортсменов. Мне нужно чтобы моя нейросеть генерировала: — pixel art — чёрный фон — минимализм — спортивная форма — полный персонаж

Выбрано разрешение 512, выставлен максимальный шаг тренинга на 800, чекпоинт установлен на 200.

Исходный размер 1939x977

После подготовки нейросети начинается этап запуска. На этом этапе я подгружаю LoRA, расширение для SDXL, без которого мои картинки не были бы похожими на мой стиль

Исходный размер 1939x613

Генерация

В финальном этапе я загружала все ранее сгенерированные изображения из папки результатов и выводила их на экран для визуальной проверки. Сначала код открывает каждую сохранённую картинку и собирает их в список. Затем изображения раскладываются в сетку, чтобы можно было быстро посмотреть всю серию генераций сразу.

У меня не было как такового основного промта, я использовала список описаний для генерации множества изображений сразу. К каждому описанию добавлялся единый стилистический блок, который фиксировал визуальный язык генерации: пиксель-арт, ограниченная палитра, высокий контраст, чёрный фон и ретро-эстетика.

Исходный размер 1941x1469

После этого я делала сравнение между исходными референсами и новыми изображениями, которые создала модель. Для этого строилась таблица из двух рядов: в верхнем ряду показывались оригинальные изображения из датасета, а в нижнем — соответствующие сгенерированные варианты

Исходный размер 1941x802

Покрутив по-разному промты и настройки я стабильно вышла на более-менее приемлемые генерации. Конечно, они далеки от идеала, но для маленькой генеративной модели — я довольна результатом

Ниже показываю перегенерированные по моим исходникам (справа) результаты (слева)

Исходный размер 1941x958

Как оказалось, модель может генерировать силуэты не только на основе уже вгруженных, но и придумывать новые решения

Исходный размер 1941x958

Многие картинки получаются с артефактами, но зато получается интересная нейросетевая интерпритация

Исходный размер 1941x958

В конце кода добавлено полное описание модели и советы по её использованию

Исходный размер 1941x602

Мои личные выводы из эксперимента такие: использование генеративных нейросетей для упрощения своей работы — это интересный и достаточно сложный способ себе упростить работу. Обученная нейросеть может выдавать как совершенно непригодные для жизни результаты, так и интересную базу для доработки. Пока что, у меня не удалось сделать из нейросети своего приемника, но я думаю, что, технически, это возможно

Ссылка на Google Collab