Исходный размер 512x768

Обучение генеративной нейросети под стиль видеоигры The Walking Dead

Концепция

Проект посвящён созданию кастомной нейросети на базе Stable Diffusion XL  для генерации изображений в стилистике игры The Walking Dead от Telltale Games. Основой послужила визуальная эстетика игры, вдохновлённая комиксами: грубые контуры, выразительная штриховка, ограниченная палитра, мягкие тени для создания объёма и акцент на эмоциональной выразительности глаз персонажей.

Модель обучается на специально собранном датасете квадратных изображений, отражающих визуальные особенности этой стилистики, включая постапокалиптическую атмосферу — с грязью, повреждениями и мрачной средой. Цель — получить инструмент, способный генерировать оригинальные сцены и персонажей в духе игры, сохраняя её уникальное сочетание комиксовой графики и реализма.

Создание датасета

Для начала я собрала 217 скриншотов из всех частей игры The Walking Dead от Telltale Games, чтобы обеспечить нейросеть разнообразным и репрезентативным визуальным материалом. Все изображения были приведены к квадратному формату 512× 512 пикселей непосредственно в Google Colab, что позволило сразу подготовить их к обучению модели.

big
Исходный размер 1000x1000

Скриншоты из серии игр The Walking Dead

Подготовка

Для обучения я использовала метод DreamBooth с LoRA-адаптацией — он позволяет эффективно дообучать модель даже при ограниченных ресурсах видеопамяти (VRAM).

Исходный размер 1182x292
Исходный размер 1233x463

Создание метаданных для обучения

Для корректной работы модели Stable Diffusion необходимо, чтобы каждое изображение сопровождалось текстовым описанием, помогающим нейросети лучше улавливать визуальные особенности стиля. С этой целью формируется специальный файл metadata.jsonl, в который для каждого изображения добавляется подпись, составленная из заданного префикса и автоматически сгенерированного текста.

Исходный размер 1233x463

Подключение к HuggingFace

Чтобы получить доступ к ресурсам на Hugging Face, я инициировала авторизацию через функцию notebook_login (). После ввода персонального API-ключа стала доступна загрузка моделей и датасетов, необходимых для процесса обучения.

Исходный размер 776x503

Обучение модели

Исходный размер 808x515

Сохранение модели

Исходный размер 1823x152

Загрузка модели на Hugging Face начинается с определения имени пользователя с помощью токена. Затем автоматически формируется уникальное название репозитория, в который сохраняются результаты обучения и сама модель.

Исходный размер 588x570

Работа с моделью

Активирую VAE, загружаю Stable Diffusion XL  в формате float16 и указываю репозиторий с LoRA-весами, чтобы модель могла работать в требуемом стиле. Затем переношу всё на графический процессор для ускорения генерации изображений и оптимизации использования памяти.

Исходный размер 1337x455

Результаты генерации

Исходный размер 1024x1024

prompt = «close-up of a young man with fire reflected in his eyes, expression of shock and anger, light from flames on face, dark surroundings, in The Walking Dead art style.»

После обучения нейросеть смогла приблизиться к визуальному стилю, характерному для The Walking Dead. В сгенерированных изображениях проявляется «рисованная» графика с чёткими контурами, контрастными цветами и грубыми тенями, что приближает их к атмосфере оригинальной игры.

Исходный размер 2048x1024
  1. prompt = «a  zombie standing still in  a  foggy field, its face resembles someone familiar, staring blankly at  the camera, surrounded by  silence and tall grass, in  The Walking Dead art style.»
  2. prompt = «makeshift surgery in  an  abandoned hospital room, dirty tools, flashlight illumination, tense expressions, in  The Walking Dead art style.»

На мой взгляд, большим достижением стало то, что нейросеть смогла передать сложные эмоции, которые я закладывала в изображения. Например, зомби в поле, увидевший кого-то родного, что придаёт сцене трагизм и эмоциональную глубину.

Исходный размер 2048x1024
  1. prompt = «a  hand-drawn map on  the floor, with blood drops on  it, a  compass and flashlight lying next to  it, the camera looking from above, in  The Walking Dead art style.»
  2. prompt = «a  handwritten message on  a  wall saying „we  on&nbsp0; next on&nbsp1; blood stains and arrows, on&nbsp2; The Walking Dead art style.“

Нейросеть хорошо справилась с созданием антуража, однако с текстом возникли проблемы, и она не смогла создать его должным образом.

Исходный размер 2048x1024
  1. prompt = «a  man pointing a  gun with trembling hands at  his infected best friend, who kneels in  front of  him with a  sad smile, both covered in  dirt and blood, in  The Walking Dead art style.»
  2. prompt = «a  group of  survivors speeding away a&nbsp0; a&nbsp1; old car, zombies chasing behind, broken road ahead, the driver crying silently, golden hour lighting, a&nbsp2; The Walking Dead art style.»
Исходный размер 1024x1024

prompt = «a fierce woman covered in dirt and blood, standing on top of an overturned car with a machete in her hand, fighting off a horde of zombies at sunset, her face determined, clothes torn.»

Динамичные сцены, такие как атаки зомби, погони и битвы, оказались сложными для обученной модели. Видны недостатки в анатомии персонажей, что связано с ограниченным количеством обучающих изображений, не позволивших модели полностью освоить сложные структуры.

Исходный размер 2048x1024
  1. prompt = «a  tense man yelling while pointing at  someone off-frame, blood on  face, torn clothes, intense tension, abandoned building, in  The Walking Dead art style.»
  2. prompt = «a  group of  zombies stumbling through a  storm, strong wind and rain blurring their features, flashes of  lightning revealing details, in  The Walking Dead art style.»
Исходный размер 1024x1024

prompt = «a  girl with messy hair and a  backpack, walking alone through the ruins, pistol in  hand, face dirty and angry, in  The Walking Dead art style.»

Исходный размер 2048x1024
  1. prompt = «a  man kneeling by  a  handmade grave in  a  field, sunrise in  background, in  The Walking Dead art style.»
  2. prompt = «a  man kneeling near a  burning radio transmitter, night scene, tears in  his eyes, flames reflecting by&nbsp0; his face, emotional moment, by&nbsp1; The Walking Dead art style.»
Исходный размер 512x768

prompt = «close-up of a young man with fire reflected in his eyes, expression of shock and anger, light from flames on face, dark surroundings, in The Walking Dead art style.»

Модель отлично справилась с изображением лиц, точно передавая атмосферу комикса и характерную штриховку.

Вывод

Обученная модель успешно передала стиль The Walking Dead, включая жирные контуры, ограниченную палитру и грубые тени. Однако, из-за небольшого объема датасета, появились некоторые артефакты, например, ошибки в анатомии и деталях динамичных сцен. Для улучшения качества потребуется больше изображений для обучения. В целом, модель хорошо передала атмосферу и общий стиль.

Описание применения генеративной модели

ChatGPT был использован для помощи в отладке кода и устранении ошибок. Кроме того, он помог создать более детализированные промпты.

Обучение генеративной нейросети под стиль видеоигры The Walking Dead
Проект создан 10.04.2025
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше