concept art in khubrikov style на HSE Design

Проект направлен на исследование генеративных моделей как инструмента работы с авторским визуальным языком. В центре внимания — возможность переноса индивидуального художественного стиля в нейросеть и последующего использования этой модели для создания новых концептов. В условиях современной индустрии визуального производства это открывает перспективы ускорения работы с идеями, вариативности решений и расширения авторской практики.

Основой проекта становится разработка собственного визуального подхода, который затем интерпретируется и воспроизводится с помощью модели. Таким образом, генерация изображений рассматривается не как замена художника, а как расширение его выразительных средств.

Исходный размер 1535x587

Концепция

Концепция строится на контрасте двух визуальных уровней: детализированной среды и упрощённых персонажей. Живописные пейзажи формируют основу изображения — именно они задают атмосферу, эмоциональный тон и глубину сцены. Пространство прорабатывается через мягкие мазки, рассеянный свет, туман и приглушённую цветовую палитру, создавая эффект погружения и визуальной «воздушности».

Цель проекта — обучить генеративную модель на базе Stable Diffusion XL воспроизводить данный авторский стиль, включая особенности композиции, цветовой палитры и соотношения деталей.

ДАТАСЕТ

Датасет был собран из собственных рисунков разного формата: концепты, технические рисунки, персонажи, пейзажи.

Исходный размер 2965x1174

КОД

Обучение модели

Исходный размер 3549x582

Исходный размер 3553x983

На первом этапе изображения были загружены вручную в рабочую папку. Для компенсации неоднородности датасета использовали расширенные текстовые описания (промпты):

С помощью модели BLIP автоматически сгенерировали базовые описания для каждого изображения.

Исходный размер 846x558

Исходный размер 3555x942

Промпты выполнили две ключевые функции:

1. Компенсировали разнородность датасета, задавая чёткие ориентиры для обучения.

2. Задали жёсткое направление генерации, помогая модели выделить и запомнить стилевые паттерны.

Исходный размер 3544x738

Обучение проводилось по схеме DreamBooth + LoRA на базе Stable Diffusion XL с использованием скрипта train_dreambooth_lora_sdxl.py. Ключевые особенности процесса:

оптимизированные настройки позволили обучить модель в условиях ограниченных ресурсов Google Colab;
параметры подобраны так, чтобы сохранить стабильность обучения и избежать переобучения;
фокус на выделении и закреплении стилевых характеристик (цветовая палитра, геометрия форм, эмоциональная глубина).

Исходный размер 3552x1424

После завершения обучения:

1. LoRA‑веса были подключены к базовой модели SDXL через библиотеку Diffusers;

2. модель готова к генерации новых изображений по текстовым промптам;

3. для активации авторского стиля используется специальный промпт‑идентификатор.

Итог:

Генерация изображений рассматривается не как замена художника, а как расширение его выразительных средств — модель помогает развивать идеи, сохраняя узнаваемость авторского стиля.

«concept art in khubrikov style, dark misty forest path, tall pines and sharp rocks, man with a sword, soft fog»

«concept art in khubrikov style, narrow forest road with dense trees and fog, a group of people walking»

«concept art in khubrikov style, ancient forest clearing with stone structure, light rays from above, contrast between dark woods and warm light, detailed painterly environment»

«concept art in khubrikov style, mountain cliff overlooking vast landscape, wind bending trees, dramatic clouds, soft painterly shading, two sketch figures standing at edge»

«concept art in khubrikov style, eerie swamp with twisted trees and still water, heavy atmosphere, muted colors, painterly blur, two sketchy figures near water edge»

«concept art in khubrikov style, wide valley with distant mountains and river, soft light breaking through clouds, earthy greens and grays, two tiny sketch characters walking away»

Исходный размер 1024x1024

«concept art in khubrikov style, dark misty forest path, tall pines and sharp rocks, soft fog, desaturated palette, painterly background, two small sketchy characters in foreground, rough black lineart, minimal shading, one with sword one with cloak, cinematic composition»

Исходный размер 1535x587

«concept art in khubrikov style, hillside path with ruined fences and leaning wooden posts, bones and rusted blades scattered along the slope, wind-swept grass, cinematic composition, two small sketch characters looking down»

Наблюдается явная зависимость визуального результата генерации от длины и детализированности промпта. При недостаточной проработке описания модель выдаёт изображения с размытыми контурами либо в виде схематичных набросков. Напротив, развёрнутый промпт с чёткими характеристиками (композиция, освещение, ракурс) позволяет получить кадр с кинематографической выстроенностью и высокой детализацией.

Использование генеративной модели:

Stable Diffusion XL (SDXL) — мощная диффузионная модель для создания высококачественных изображений по текстовому описанию (промпту). https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
DreamBooth — тонкая настройка диффузионной модели (в т. д. SDXL) под конкретный визуальный стиль или объект на небольшом датасете (3–5–10 изображений). https://arxiv.org/abs/2208.12242
BLIP — модель для автоматического создания текстовых подписей (промптов) к изображениям. https://huggingface.co/Salesforce/blip-image-captioning-base
ChatGPT — языковая модель для генерации, редактирования и расширения текстовых промптов. https://chat.openai.com