Стиль Билибина в LoRA на HSE Design

Исходный размер 700x275

Иллюстрация, И. Я. Билибин

«Только совершенно недавно, точно Америку, открыли старую художественьную Русь, вандальски искалеченную, покрытую пылью и плесенью. Но и под пылью она была прекрасна, так прекрасна, что вполне понятен первый минутный порыв открывших ее: вернуть! вернуть!»

— И. Я. Билибин

Концепция

Стиль Ивана Билибина — один из самых узнаваемых среди русских художников и иллюстраторов. Его уникальными чертами являются декоративность, чёткий контур, отсутствие глубокой перспективы и теней. И самое важное для моей концепции — фольклорные сюжеты и мотивы: сказки, былины, мифологические персонажи.

Исходный размер 1708x1118

Иллюстрация, И. Я. Билибин

Исходный размер 1559x2004

Иллюстрация, И. Я. Билибин

Целью проекта было обучить генеративную нейросеть воспроизводить уникальный стиль Билибина, создавая новые изображения в его неповторимой фольклорной эстетике. Сегодня культура наполнилась множеством новых мифологических миров и историй в разных жанрах и медиа.

Исходный размер 1626x1118

Иллюстрация, И. Я. Билибин

Исходный размер 1090x480

Иллюстрация, И. Я. Билибин

Я выбрала Ивана Билибина, потому что его уникальный стиль очень хорошо подходит к серии книг «Ведьмак» Анджея Сапковского и видеоигре «Ведьмак 3: Дикая Охота» от студии CD Projekt RED. Сама вселенная «Ведьмака» изначально наполнена сказочными и мифологическими мотивами. Мне захотелось взять стиль художника, который в прошлом черпал вдохновение из культуры и фольклора, и применить этот визуальный язык к сюжетам современных произведений, создав синтез классического наследия и современного нарратива.

Исходный размер 1160x400

Иллюстрация, И. Я. Билибин

Результат

«Но мы не в сказке, Геральт. Мы здесь, в реальности, ты, я и наша проблема. Это не сказка, это жизнь.»

— «Ведьмак», Анджей Сапковский

В итоге работы нейросети получилось 24 изображений в стиле и эстетике Билибина.

Я использовала 9 промптов дважды, чтобы посмотреть, как будет отличаться результат между ними. Ещё 6 промптов были дописаны чуть позже и использовались только один раз.

Скриншот кода

Один промпт: Слева первая генерация // Справа вторая генерация

Нейросеть хорошо справилась с природой и архитектурой, придерживаясь стиля Билибина. Видно чёткий контур, плоскость (отсутствие теней и глубокой перспективы).

Результат двух дополнительных промптов

Исходный размер 927x617

1. Первый промпт // 2. Вторая итерация первого промпта // 3. Второй промпт

Животные и мифические существа получились чуть хуже, но всё же довольно близко по качеству заднего плана. У них виден чёткий лайн отделяющий их от фона и довольно хорошая проработанность анатомии.

Исходный размер 1024x1024

Результат генерации первого промпта

Один промпт: Слева первая генерация // Справа вторая генерация

С людьми же всё получилось сложнее. Статичные позы нейросеть смогла передать достаточно хорошо, при этом сохранив у персонажей изображения орнамент и детали одежды. Хотя лица персонажей в отдалении и не очень хорошо видно, но когда они «близки» к зрителю, а не находятся на заднем и среднем планах, их портретная зона достаточно проработана.

Исходный размер 927x617

1. Второй промпт // 2. Второй промпт // 3. Вторая итерация первого промпта

Однако персонажи в движении получились значительно хуже. У них нарушена анатомия и иногда пропадает лайн характерный стилю Билибина.

Исходный размер 927x617

1. Первый промпт // 2. Вторая итерация первого промпта // 3. Второй промпт

В принципе нейросеть хорошо сохранила стиль и эстетику работ Билибина, хоть и с некоторыми недочётами. Можно было бы значительно улучшить изображения человека в движении и проработку отдалённых человеческих лиц.

Один промпт: Слева первая генерация // Справа вторая генерация

Код

Для написания кода использовался код обучения данный на курсе («SDXL_DreamBooth_LoRA_Colab.ipynb»).

Для обучения я взяла работы Билибина и обрезала их до квадратного формата 700×700 пикселей, поскольку оригинальные иллюстрации были не подходящего формата. В итоге получилось 43 изображения, которые я загрузила в код

Исходный размер 582x112

Скриншот кода

Для всех изображений были написаны промпты. Перед каждым промптом шла специальная фраза модели BLIP, которую нейросеть должна была ассоциировать с сочетанием стиля Билибина и нарративом «Ведьмака».

Скриншот кода

Обучение проводилось на GPU T4 в Google Colab. Поскольку в стиле Билибина присутствует много деталей, для генерации более качественных изображений я использовала «--resolution=768 \», а не стандартное «--resolution=512 \». Из-за этого время обучения составило примерно полтора часа.

Исходный размер 762x382

Скриншот кода

После завершение генерации изображений, они сохранились в один zip-файл, чтобы не нужно было скачивать их все по отдельности.

Исходный размер 871x56

Скриншот кода

Итог проекта

Исходный размер 800x303

Иллюстрация, И. Я. Билибин

Идея проекта заключалась в сочетании стиля рисования Ивана Билибина с современным фольклорным-фэнтези. И получившиеся изображения демонстрируют довольно качественный результат, пусть и с некоторыми проблемами в детализации отдельных моментов.

«Не всегда жизнь напоминает сказку, но надо же, во что-то верить.»

— «Ведьмак 3: Дикая Охота», Геральт

Один промпт: Слева первая генерация // Справа вторая генерация

Ссылки по проекту и нейросети

Stable Diffusion XL — основной нейросеть для генерации изображения в стиле Ивана Билибина. BLIP — создание описаний для изображений. Deepseek — чистка кода, проверка ошибок, корректировка промптов.

Изображения для анализа (иллюстрации Билибина) Итоговый код