Генерации в стиле KOLOMNA sketchbook pencil style на HSE Design

Однажды создательницы открыток решили втроем поехать в Коломну, и им настолько понравилось, что они решили проиллюстрировать свое путешествие для того, чтобы запечатлеть лучшие моменты и помочь будущим гостям Коломны в поиске достопримечательностей и других интересных мест.

Концепция

Проект посвящён созданию серии авторских открыток с достопримечательностями города Коломна, выполненных в едином графическом стиле. Иллюстрации интерпретируют архитектуру и атмосферу города через упрощённые формы, цвет и композицию, формируя целостный визуальный язык. Работа ведётся в соавторстве и фокусируется на поиске выразительных средств в формате малой графики. Проект рассматривает открытку как медиум, сочетающий художественную практику и исследовательский подход.

На основе созданных открыток формируется датасет для обучения нейросети с целью воспроизведения и анализа авторского стиля.

Архив открыток

Обучение нейросети

Исходный размер 1945x931

Обучение модели проводилось в среде Google Colab с использованием графического процессора, что позволило реализовать полный пайплайн дообучения генеративной модели. На начальном этапе была настроена техническая среда: установлены необходимые библиотеки и подготовлен обучающий скрипт на базе DreamBooth с поддержкой LoRA, что обеспечило возможность адаптации Stable Diffusion XL под авторский графический стиль проекта.

Датасет был сформирован на основе серии авторских открыток с видами города Коломна, выполненных в единой визуальной манере KOLOMNA sketchbook pencil style. Изображения были структурированы и отобраны таким образом, чтобы зафиксировать ключевые характеристики графического языка — работу линии, упрощённую форму, композицию и особенности штриховки — и обеспечить целостность обучающей выборки.

Для каждого изображения автоматически генерировались текстовые описания с использованием модели BLIP. Полученные подписи дополнялись единым стилевым префиксом «KOLOMNA sketchbook pencil style» и сохранялись в стандартизированном формате, формируя пары «изображение — текст», необходимые для условного обучения модели.

Исходный размер 3560x1411

В процессе дообучения применялся метод LoRA, позволяющий адаптировать ограниченное количество параметров модели при сниженных вычислительных затратах. Обучение проводилось на основе пар «изображение — текст», благодаря чему модель постепенно перенимала особенности авторского визуального языка — характер карандашной линии, композиционные приёмы и типичные сюжетные сцены.

После завершения обучения полученные веса использовались для генерации новых изображений. Подключение LoRA-модуля к базовой модели Stable Diffusion XL и управление параметром lora_scale позволили гибко контролировать степень влияния выученного стиля и варьировать итоговый визуальный результат, воспроизводя эстетику авторских открыток и расширяя её за счёт генеративных интерпретаций.

Блокнот

Итоговые изображения

KOLOMNA sketchbook pencil style, art communal apartment, clothesline, old objects, cluttered room

KOLOMNA sketchbook pencil style, cozy cafe interior, round table, curtains, chandelier, light hatching

KOLOMNA sketchbook pencil style, hand-drawn map, small buildings, river, handwritten labels

KOLOMNA sketchbook pencil style, historical collage, ships, factory, medieval towers, handwritten dates

Исходный размер 1024x1024

KOLOMNA sketchbook pencil style, city gate architecture, symmetrical, bold dark arches, minimal background

KOLOMNA sketchbook pencil style, museum entrance, open door, woman in long dress, quiet scene

KOLOMNA sketchbook pencil style, old russian church with onion domes, front view, handwritten title

KOLOMNA sketchbook pencil style, small bakery facade, sign in cyrillic, large windows, simple composition

KOLOMNA sketchbook pencil style, toy shop interior, dolls and stuffed animals on shelves, soft shading

В результате генерации были получены визуально выразительные изображения, в которых нейросеть успешно воспроизводит характер карандашных набросков и особенности авторского графического стиля. Работы сохраняют цельность композиции и передают живость ручной линии, что делает их убедительными с точки зрения стилизации.

Вместе с тем в ряде случаев наблюдаются характерные искажения: модель допускает ошибки в логике изображения, создавая несуразные или избыточные элементы. Например, может появляться чрезмерное количество повторяющихся объектов — таких как куклы или колокола на архитектурных сооружениях, — что нарушает реалистичность сцены. Эти артефакты указывают на ограничения модели в контроле структуры и семантической согласованности изображения.

Использование генеративной модели

ChatGPT — использовался в качестве вспомогательного инструмента для решения задач программирования, а также для разработки, формализации и оптимизации текстовых промптов, применяемых в генеративных моделях.

Stable Diffusion XL (SDXL) — генеративная диффузионная модель, предназначенная для синтеза изображений на основе текстовых описаний; в рамках проекта применялась как базовая архитектура для последующего дообучения.

DreamBooth — метод дообучения нейросетевых моделей, обеспечивающий адаптацию предобученной архитектуры к пользовательскому датасету с целью воспроизведения специфических стилистических и визуальных характеристик.

LoRA (Low-Rank Adaptation) — параметроэффективный подход к дообучению, позволяющий существенно снизить вычислительные затраты за счёт обучения низкоранговых представлений при сохранении качества генерации.

Источники: https://huggingface.co/docs/diffusers/training/lora https://chatgpt.com https://huggingface.co/docs/diffusers/training/dreambooth https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0