Анализ и воспроизведение стиля Хокусая в генеративных моделях на HSE Design

Художественный референс: Кацусика Хокусай (1760–1849)

Кацусика Хокусай — японский художник и мастер гравюры эпохи Эдо, один из наиболее влиятельных представителей направления ukiyo-e. Наибольшую известность ему принесла серия «Тридцать шесть видов Фудзи», включающая работу «Большая волна в Канагаве». Его визуальный язык характеризуется чёткой контурной линией, плоскостной композицией, ритмичными формами и вниманием к природным явлениям. В данном проекте стиль Хокусая используется как основа для обучения модели и анализа того, как традиционная эстетика воспроизводится и трансформируется в генеративной системе.

Shower Below the Summit

Under the Wave off Kanagawa

Ariwara no Narihira

Snowy Morning from Koishikawa

Ejiri in Suruga Province

Для обучения модели был собран датасет, включающий работы Хокусая, преимущественно из серии «Тридцать шесть видов Фудзи», а также другие гравюры с изображением природы и пейзажей.

Отбор изображений был обусловлен наличием выраженных стилистических признаков:

чёткая контурная линия;
ограниченная цветовая палитра;
плоскостная композиция;
декоративность;
повторяющиеся ритмические формы (волны, облака, линии);
упрощённая передача пространства.

Изображения были приведены к единому формату и разрешению, что позволило корректно обучить модель и снизить количество артефактов.

ИДЕЯ ПРОЕКТА

Генеративные модели активно используются для воспроизведения художественных стилей. Однако остаётся открытым вопрос: способны ли они адаптировать стиль к новым сюжетам или лишь воспроизводят уже изученную визуальную систему. В этом проекте исследуется, как нейросеть усваивает стиль японской гравюры ukiyo-e на основе работ Кацусики Хокусая и насколько этот стиль может быть перенесён на новые визуальные сцены.

Основная гипотеза: Традиционный художественный язык не адаптируется к новому содержанию, а трансформирует его под свою структуру.

Процесс генерации и используемые промты

В процессе работы использовалась генеративная модель (Stable Diffusion / SDXL) с дообучением (LoRA / DreamBooth).

Волны и динамика

massive ocean wave, dramatic foam,  strong composition / calm sea with small waves and horizon

Архитектура и люди

small town with people walking / street in traditional japanese town

Природные сцены

Исходный размер 5045x1663

mountains with clouds and wind movement / japanese village with wooden houses / foggy trees, soft atmosphere

Исходный размер 3072x3072

mountains with clouds and wind movement

Анализ результатов

Итоговая серия подтверждает, что стиль может быть интерпретирован нейросетью как совокупность визуальных признаков и воспроизведён в новых изображениях.

В целом результаты соответствуют поставленной задаче:

стиль остаётся узнаваемым;
изображения не являются прямыми копиями;
присутствует вариативность.

Однако наблюдаются ограничения:

появление артефактов;
упрощение композиции;
смешение элементов.

Перенос стиля на современность

В рамках проекта была предпринята попытка применить стиль Хокусая к современным сюжетам (городская среда, современная архитектура).

Современный транспорт

modern airport with airplanes / modern container port with ships

Люди с гаджетами

people using smartphones / crowd of people with devices

Современная архитектура

subway train inside station / industrial landscape

Исходный размер 3072x3072

modern buildings and glass architecture

Анализ результатов

Результаты показали, что модель уверенно воспроизводит стиль: сохраняется чёткая линия, плоскостная композиция и декоративность, характерные для ukiyo-e.
Однако при попытке изобразить современность происходит искажение содержания: нейросеть фактически исключает современные элементы. В изображениях отсутствуют гаджеты и современная архитектура, а персонажи выглядят как из исторического контекста.

Таким образом, модель не совмещает современность со стилем, а заменяет её на визуально соответствующую эпоху Хокусая.

Исходный размер 2230x2676

ВЫВОД

Проект демонстрирует, что генеративные нейросети способны воспроизводить художественный стиль на уровне визуальных признаков, однако не полностью передают его содержательную и культурную глубину.

Также выявлено, что перенос стиля на новый контекст (современность) ограничен рамками обучающего набора.

Таким образом, нейросети можно рассматривать как инструмент: