Я работаю иллюстратором в дизайн студии, и мы часто разговариваем между коллегами о вопросе использования генеративного искусственного интеллекта. Недавно мы делали пиксельную игру на мобильные устройства. Для неё мне приходилось отрисовать много персонажей в разных позах и состояниях. Мне стало интересно, могу ли я натренировать нейросеть таким образом, чтобы она могла на основе моих иллюстраций воспроизводить персонажей и рисовать дальнейших героев только с помощью моих промтов. Сможет ли неиросеть заменить меня как иллюстратора и упростить мне работу?

Персонажи выдержаны в одном стиле, а именно
— Пиксель-арт — Яркие цвета/ Яркая заливка — Немного гипертрафированные конечности — Связаны со спортом

В работе я использовала
— Stable Diffusion — обучение генеративной нейросети под свой стиль — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт — Google Colab — выполнение кода и генераций — Figma — для коллажирования готовых работ
Сначала я установила все нужные библиотеки для работы с AI изображениями, а так же библиотеки для оптимизации работы GPU. Затем я загрузила изображения, которые предварительно положила на облачное хранилище Google Disc
Затем я обучила неиросеть саму генерировать описания к каждому изображению так, чтобы каждая из 20 картинок была подробно описана. Это подготовительный этап к работе с изображениями
Далее я начинаю настраивать модель на конкретный стиль моих пиксельных спортсменов. Мне нужно чтобы моя нейросеть генерировала: — pixel art — чёрный фон — минимализм — спортивная форма — полный персонаж
Выбрано разрешение 512, выставлен максимальный шаг тренинга на 800, чекпоинт установлен на 200.
После подготовки нейросети начинается этап запуска. На этом этапе я подгружаю LoRA, расширение для SDXL, без которого мои картинки не были бы похожими на мой стиль
Генерация
В финальном этапе я загружала все ранее сгенерированные изображения из папки результатов и выводила их на экран для визуальной проверки. Сначала код открывает каждую сохранённую картинку и собирает их в список. Затем изображения раскладываются в сетку, чтобы можно было быстро посмотреть всю серию генераций сразу.
У меня не было как такового основного промта, я использовала список описаний для генерации множества изображений сразу. К каждому описанию добавлялся единый стилистический блок, который фиксировал визуальный язык генерации: пиксель-арт, ограниченная палитра, высокий контраст, чёрный фон и ретро-эстетика.
После этого я делала сравнение между исходными референсами и новыми изображениями, которые создала модель. Для этого строилась таблица из двух рядов: в верхнем ряду показывались оригинальные изображения из датасета, а в нижнем — соответствующие сгенерированные варианты
Покрутив по-разному промты и настройки я стабильно вышла на более-менее приемлемые генерации. Конечно, они далеки от идеала, но для маленькой генеративной модели — я довольна результатом
Ниже показываю перегенерированные по моим исходникам (справа) результаты (слева)
Как оказалось, модель может генерировать силуэты не только на основе уже вгруженных, но и придумывать новые решения
Многие картинки получаются с артефактами, но зато получается интересная нейросетевая интерпритация
В конце кода добавлено полное описание модели и советы по её использованию
Мои личные выводы из эксперимента такие: использование генеративных нейросетей для упрощения своей работы — это интересный и достаточно сложный способ себе упростить работу. Обученная нейросеть может выдавать как совершенно непригодные для жизни результаты, так и интересную базу для доработки. Пока что, у меня не удалось сделать из нейросети своего приемника, но я думаю, что, технически, это возможно




