Naive Horror: генеративные монстры в детском стиле на HSE Design

Генерация хоррор-персонажей в детском стиле с помощью Stable Diffusion

Исходный размер 2106x422

Идея проекта

В этом проекте я хотела проверить, может ли нейросеть воспроизводить не просто стиль, а именно «ощущение» рисунка — в моём случае это детский стиль.

Я выбрала довольно контрастную тему: взяла известных хоррор-персонажей и попыталась представить, как бы они выглядели, если бы их рисовал ребёнок 6–8 лет. Мне было интересно, что произойдёт, если соединить что-то пугающее с очень наивной и простой визуальной формой.

В итоге проект стал не только про стиль, но и про восприятие: как меняется ощущение страха, если его «упростить» до детского рисунка.

Исходный размер 2106x422

Концепция

В основе проекта лежит контраст между формой и содержанием. С одной стороны — детский рисунок: простой, яркий, немного неровный. С другой — образы, которые изначально воспринимаются как страшные.

Мне было важно сохранить узнаваемость персонажей, но при этом упростить их до уровня детского восприятия. За счёт этого возникает странный эффект: рисунки вроде бы простые, но при этом в них остаётся тревожность.

Особенно хорошо это видно в лицах — большие глаза, странные улыбки, прямой взгляд на зрителя. В детском рисунке это нормально, но в контексте хоррора это начинает выглядеть немного пугающе.

Датасет фотографий

Для обучения модели я собрала датасет из своих собственных рисунков. Это важно, потому что по условиям задания можно использовать только авторские изображения или материалы с разрешением.

Все рисунки я делала в одном стиле: — простые фигуры (голова, тело, руки); — неровные линии; — яркие цвета; — минимальные детали; — акцент на лице. (просто потому, что это мои детские рисунки)

Все изображения были приведены к квадратному формату (1:1), чтобы их можно было использовать для обучения модели.

Всего в датасете — 50 изображений.

Примеры изображений из обучающего датасета

Рисунки «маленькой Аминат», на них обучалась нейросеть, чтобы создать последующие рисунки по запросам

На многих рисунках подписано мое имя (Ната). Рисунки были собраны и бережно хранились моей прабабушкой.

Больше рисунков можно найти по этой ссылке

Исходный размер 2106x422

Процесс обучения

Для обучения я использовала Stable Diffusion XL и метод DreamBooth LoRA. Я работала в Google Colab, используя готовый ноутбук, который был дан в задании.

Перед обучением я подготовила изображения (обрезала, проверила формат), после чего загрузила их в ноутбук.

Сам процесс обучения занял некоторое время — модель постепенно подстраивалась под мой стиль. После этого я начала тестировать генерации и подбирать промпты, чтобы добиться нужного результата.

Отдельно пришлось поработать с формулировками: сначала изображения получались слишком абстрактными или не похожими на персонажей, но со временем удалось настроить промпты так, чтобы сохранялась узнаваемость.

Скрины из Colab

Исходный размер 1429x609

В этом блоке запускается обучение модели Stable Diffusion XL с использованием метода DreamBooth LoRA.

Я указываю путь к датасету, параметры обучения и директорию для сохранения результата. В процессе обучения модель анализирует изображения и выделяет характерные особенности моего стиля.

Использование LoRA позволяет обучить модель быстрее и с меньшими ресурсами, при этом сохраняя ключевые визуальные признаки: упрощённые формы, неровные линии и искажённые пропорции.

Исходный размер 2306x359

Здесь происходит подготовка датасета для обучения. Для каждого изображения автоматически создаётся текстовое описание (caption), которое затем используется моделью.

Я задаю общий текстовый префикс (caption_prefix), который описывает стиль моих изображений — наивный, нарисованный от руки, с использованием цветных карандашей.

Этот этап важен, потому что именно через текст модель «понимает», какой стиль ей нужно выучить и воспроизводить при генерации.

Исходный размер 2323x263

В этом блоке происходит генерация изображения на основе текстового описания (prompt). Я описываю персонажа максимально подробно: внешний вид, одежду, пропорции и окружение.

Также задаются параметры генерации: количество шагов (num_inference_steps) и степень следования промпту (guidance_scale). Эти параметры влияют на то, насколько точно модель воспроизводит заданный образ.

На этом этапе я проверяла, насколько хорошо модель передаёт мой стиль и насколько узнаваемым получается персонаж.

После генерации изображения сохраняются на Google Drive.

Исходный размер 2106x422

Итоговая серия изображений

В результате я получила серию изображений, где каждый персонаж интерпретирован в детском стиле.

Я старалась сохранить ключевые признаки каждого: — Slenderman — вытянутая фигура и отсутствие лица; — Cartoon Cat — голова кошки и злая ухмылка; — Momo — большие глаза и странное лицо; — Pyramid Head — треугольная голова и оружие; — Jeff the Killer — черные длинные волосы, нож и зловещая улыбка.

Несмотря на упрощение, персонажи остаются узнаваемыми, что было одной из главных целей проекта.

Исходный размер 1024x1024

Слендермен из крипипасты

PROMT: " a creepy monster in alikidsketch style, A tall white monster in a black jacket and black trousers, with a red tie, no face, long arms and legs. He stands in the forest, with three trees behind him, on a path, childlike drawing, colored pencils, naive illustration, eerie but playful, "

Исходный размер 1024x1024

Картун Кэт из крипипасты

PROMT: " a creepy monster in alikidsketch style, a huge humanoid cat monster with a mouth full of human-like teeth. It’s completely black and wears white gloves. The monster stands in the forest in alikidsketch style, childlike drawing, colored pencils, naive illustration, simple forms "

Исходный размер 1024x1024

Персонаж Момо из крипипасты

PROMT: " a creepy monster in alikidsketch style, a monster young girl with long dark hair, large, bulging eyes, a wide smile, the girl’s body is feathered, she has no arms, but wings, and no legs, but chicken feet., a monster girl standing in the forest in alikidsketch style, childlike drawing, colored pencils, naive illustration "

Исходный размер 1024x1024

Пирамидоголовый из игры Сайлэнт Хилл

PROMT: " a creepy monster in alikidsketch style, humanoid body, large triangle helmet covering head, holding huge knife, simple clothes, in the forest in alikidsketch style, childlike drawing, colored pencils, naive illustration, simple forms "

Исходный размер 1024x1024

Джефф Убийца из крипипасты

PROMT: " a creepy monster in alikidsketch style, human with white face, big black eyes, very wide red smile, long black hair, holding knife, in the forest, childlike drawing, colored pencils, naive illustration, simple forms "

Исходный размер 1024x1024

Смайл Дог из крипипасты

PROMT: " a creepy dog monster in alikidsketch style, dog head, triangle ears, very wide smile with many sharp teeth, round eyes, facing forward dog in the forest, childlike drawing, colored pencils, naive illustration, children’s drawing by a 6 to 8 year old, colored pencils and markers, hand-drawn, clear outlines, simple recognizable shapes, slightly uneven proportions, flat colors, white paper background, school drawing style "

Исходный размер 1024x1024

Херобрин из крипипаст по майнкрафту

PROMT: " a creepy herobrine monster in alikidsketch style, blocky character, square head, beige skin, blue shirt and pants, white big eyes with no pupils, scary smile, in the forest, childlike drawing, colored pencils, children’s drawing by a 6 to 8 year old "

Исходный размер 1024x1024

Промт на персонажа из игры Пять ночей с Фредди. Мишка Фредди:

PROMT: «a creepy monster in alikidsketch style, An anthropomorphic animatronic bear with a light brown coat and blue eyes. His appearance is completed with a black top hat and bow tie, as well as a silver microphone in his right hand. He stands in the forest, with three trees behind him, on a path, childlike drawing, colored pencils, naive illustration, eerie but playful, childlike drawing, colored pencils, children’s drawing by a 6 to 8 year old "

Анализ

Самое интересное в результате — это то, как модель интерпретирует стиль.

С одной стороны, она довольно хорошо сохраняет основные признаки: линии, цвета, пропорции. С другой — иногда появляются искажения: слишком большие глаза, странные формы, лишние элементы.

Но именно это, на мой взгляд, делает изображения более интересными. Они выглядят не просто как «детские», а как немного тревожные.

Для улучшения результатов я использовала negative prompts, чтобы убрать реалистичную стилизацию и сохранить ощущение детского рисунка.

Также я подбирала параметры генерации (guidance_scale и num_inference_steps), чтобы найти баланс между узнаваемостью персонажей и сохранением стиля.

Исходный размер 2106x422

Вариация:

Даже при одинаковых промптах изображения получаются разными. Меняются цвета, выражения лиц, пропорции.

Это показывает, что модель не копирует конкретные изображения из датасета, а действительно генерирует новые варианты на основе стиля.

Иногда эти вариации получаются даже более удачными, чем исходная задумка.

Вывод

В ходе проекта мне удалось обучить модель генерировать изображения в заданном стиле и применить этот стиль к разным персонажам.

Я увидела, что даже небольшой датасет может дать хороший результат, если стиль достаточно чётко выражен.

Также стало понятно, насколько важны промпты — без точного описания модель быстро уходит в абстракцию.

В целом проект показал, что нейросеть можно использовать не только для копирования стиля, но и для создания новых интерпретаций.

Применение ИИ в проекте

В проекте использовалась генеративная модель Stable Diffusion XL с дообучением методом DreamBooth LoRA.

Модель применялась для: — генерации изображений в заданном визуальном стиле; — интерпретации текстовых описаний персонажей; — создания вариаций на основе обученного стиля.

Дополнительно генеративный ИИ (ChatGPT) использовался для: — для более четкого формулирования текстов и описаний проекта (мною закидывался текст и прогонялся через ИИ для убирания ошибок в текстах и более гармоничных предложений); — уточнения структуры промптов; — анализа и улучшения результатов генерации.

Ссылка на Colab