Когда древние духи живут
в ритме мегаполиса
Последний поезд ушёл десять минут назад. Офисный работник торопится домой: зонт в одной руке, светящийся экран смартфона — в другой. Дождь усиливается. Он сворачивает в знакомый переулок — короткий путь, который экономит пять минут.
И замирает.
Посреди узкой улицы, между вывесками рамен-бара и караоке, стоит стена. Древний камень, покрытый трещинами. Лицо размером с автобус смотрит сверху вниз. Глаза светятся тускло-жёлтым, как лампочки в старом подъезде.
Мужчина моргает. Трёт глаза. Стена остаётся. За его спиной ещё пятеро прохожих остановились — кто-то уже достал телефон, кто-то просто стоит с открытым ртом. Старушка с зонтом улыбается и кивает стене, как старому знакомому.
Сегодня он просто проверяет: а вы ещё способны видеть?
Философия проекта: Ma (間)
«Пространство между» — между вдохом и выдохом, между словами, между материальным и нематериальным. Ёкаи населяли именно это пространство.
Концепция работы
Японская культура с её тонким чувством красоты и умением видеть невидимое всегда притягивала меня. Но особенно завораживали ёкаи — существа, которые живут не где-то далеко, а в щелях между привычным. Они не злые и не добрые, они — отражение нашего внимания к миру. Чем больше мы спешим, тем меньше замечаем.
Мне захотелось разглядеть этот мир, который обычно остаётся за кадром. Не придумывать новых монстров, а попробовать увидеть тех, кто уже рядом. Что, если ёкаи никуда не исчезли, а просто стали невидимы для большинства? Что, если они по-прежнему здесь — в отражениях луж, в свете неоновых вывесок, в тишине старых переулков?
Проект стал для меня способом замедлиться. Вместо того чтобы конструировать фэнтези, я решила «оживить» древних духов с помощью нейросети — инструмента, который тоже учится видеть. Так родилась попытка соединить два языка: традиционный миф и цифровую реальность. Не ради магии, а ради того, чтобы напомнить: мир всегда шире, чем мы привыкли думать.
Ёкаи (яп. 妖怪) — сверхъестественные существа японского фольклора. Это не злые духи и не добрые боги, а скорее «живые» явления: духи природы, предметы, обретшие душу, или воплощения человеческих эмоций. В древности японцы не делили мир на «реальный» и «выдуманный» — ёкаи были соседями, частью повседневной жизни.
Они могли помочь, напугать, обмануть или просто пошутить. Но главное — ёкаи напоминали: мир больше, чем мы видим, и каждое место имеет свою историю.
Идея проекта: Co-existence
«Yokai in the Neon» — визуализация невидимого. Серия фотореалистичных изображений, где:
— Кицунэ бродит по переулкам с красными фонарями, её девять хвостов мерцают в отражениях луж.
— Нурикабэ блокирует не горную тропу, а узкую улицу между рамен-баром и комбини, напоминая о терпении.
— Тануки носит деловой костюм, возвращается «с работы» с сакэ, магические листья кружатся у входа в комбини.
— Они возвышается над перекрёстком Сибуя, невидимый для большинства спешащих людей, но присутствующий как древняя память города.
Это не фантазия, а реализм невидимого — попытка показать то, что японцы всегда чувствовали, но редко видели. Проект о сосуществовании древнего и современного, духовного и материального, мифа и фотографии.
Модернизация: Исчезли ли духи?
1868 год. Реставрация Мэйдзи. Япония превращается в индустриальную державу. Токио из деревянных домов становится мегаполисом бетона и электричества.
Официально ёкаи объявили пережитками прошлого. Но культура оказалась глубже политики. Японцы не перестали чувствовать присутствие — просто изменился язык:
— вместо «здесь живёт каппа» — «здесь опасно купаться»;
— вместо «кицунэ морочит» — «странное место»;
— вместо «тануки проказничает» — «вещи пропадают».
Синтоистские храмы остались, священные деревья растут посреди парковок, лисьи статуи охраняют входы в метро. Каждый год миллионы токийцев идут на хацумодэ — молиться ками.
Если храмы остались, ритуалы остались, пространство ma осталось — почему духи должны были уйти?
Альтернативная реальность: Ёкаи-токиоты
Проект предлагает другую оптику: ёкаи не исчезли и не отступили в горы. Они эволюционировали вместе с городом.
Токио — это не разрушение традиции, а её трансформация. Город, где:
— 400-летний храм Сэнсо-дзи соседствует с Токийской башней;
— церемония любования сакурой проходит в парках между офисными зданиями;
— автоматы с напитками стоят у входа в синтоистские святилища;
— гейши ходят по улицам Гиона мимо Starbucks и McDonald’s.
Японцы — мастера совмещения несовместимого. Почему бы ёкаям не сделать то же самое?
Четыре встречи: Истории духов современного Токио
В этой серии мы знакомимся с четырьмя ёкаями, которые по-прежнему живут среди нас. Каждому посвящён отдельный рассказ и изображение, созданное дообученной нейросетью.

Нурикабэ — дух-стена, который появляется в переулках, чтобы замедлить спешащих. Его лицо вырастает из старых стен, и он напоминает: история длиннее жизни человека.
nurikabe wall yokai with ancient stone face blocking tokyo alley, glowing eyes, confused pedestrians, red lanterns with ラーメン signs, wet pavement, mist, photorealistic, cinematic

Кицунэ — лиса-оборотень, проводник между мирами. Она появляется в переулках с красными фонарями, оставляя за собой запах сакуры даже в ноябре.
kitsune nine-tailed fox yokai in tokyo alley, white fur, red lanterns, sakura petals in autumn, wet pavement, neon reflections, photorealistic, cinematic

Тануки — весёлый трикстер, который обожает шутить. В наши дни он носит деловой костюм, ходит в комбини и угощает сакэ после работы.
tanuki yokai in business suit returning from work, convenience store background, magical leaves swirling, wet pavement, neon lights, photorealistic, cinematic

Они — древний демон-огр, воплощающий накопленный стресс мегаполиса. Он появляется над перекрёстком Сибуя, когда напряжение достигает предела.
oni demon giant over shibuya crossing, red skin, horns, kanabo club, crowded pedestrians with umbrellas, rain, neon signs, photorealistic, cinematic
Техническая реализация: как материализовать духов
Датасет: 4143 фотографии реального Токио
Для обучения нейросети собран датасет из 4143 квадратных изображений (1:1) японских улиц: переулков Синдзюку, ночных фасадов с неоном, мокрого асфальта, храмовых ворот, толп на переходах. Источник — открытый набор данных Billboard in Japanese Streetscapes (Kaggle). Все изображения приведены к единому формату, что позволило модели усвоить характерную атмосферу токийских улиц.
Модель: SDXL \+ DreamBooth \+ LoRA
Базовая модель — Stable Diffusion XL (2.6 млрд параметров). Для дообучения использовался метод DreamBooth в сочетании с LoRA (Low-Rank Adaptation). Такой подход позволил:
- «Научить» модель новому визуальному концепту — гармоничной интеграции ёкаев в современный городской пейзаж — без потери исходных знаний о фотореализме.
- Сохранить лёгкость: адаптеры LoRA занимают всего 23 MB, что упрощает распространение и повторное использование.
- Гибко регулировать силу влияния обученного стиля при генерации через параметр масштаба LoRA.
Обучение проводилось на NVIDIA A100 (40 GB) в течение 8 эпох с использованием скрипта на базе библиотеки Diffusers. Параметры: разрешение 512×512 (для ускорения обучения), затем обратный апскейл через VAE-энкодер до 1024×1024; скорость обучения 1e-5, batch size 4, LoRA rank 64, оптимизатор AdamW. Ключевым этапом стала подготовка класса-регуляризатора (200 случайных изображений из LAION-5B), что предотвратило переобучение и сохранило способность модели генерировать разнообразные сцены.
Промпт-инжиниринг
Каждый промпт конструировался по шаблону: тип ёкая и его внешность, локация в Токио, время суток и погодные условия, характерные японские детали (иероглифы, фонари), желаемое настроение, а также технические теги, обеспечивающие фотореализм. Негативный промпт исключал мультипликационные стили, размытие и признаки CGI, что удержало модель в рамках фотореализма.
Пример промпта для Нурикабэ:
nurikabe wall yokai with ancient stone face blocking tokyo alley, glowing eyes, confused pedestrians, red lanterns with ラーメン signs, wet pavement, mist, photorealistic, cinematic
Пример фотографий из дата-сета
Визуальный анализ: вариативность и консистентность
Создано более 20 изображений (включая варианты для каждого ёкая). Ключевые наблюдения:
1. Консистентность персонажей: несмотря на разнообразие поз, ракурсов и освещения, каждый ёкай остаётся узнаваемым. Модель усвоила ключевые признаки: у нурикабэ — «лицо в стене», каменная текстура, жёлтые глаза; у кицунэ — белая или рыжая шерсть, 9 хвостов, лисьи уши; у тануки — коренастое тело, характерная морда, зелёные листья; у они — красная кожа, рога, дубина, гигантский размер.
2. Вариативность: нурикабэ меняет выражение лица от нейтрального до слегка насмешливого; кицунэ появляется в разных локациях, количество хвостов колеблется (5–9), что соответствует мифологии; тануки — наибольший диапазон: от енота в полный рост в костюме до почти человека с енотовыми чертами; они — ракурсы и масштаб, иногда он «прозрачен» (намёк на невидимость для большинства).
3. Фотореализм и атмосфера: все изображения выдержаны в единой эстетике: ночной Токио, дождь, отражения, неон. Это достигнуто благодаря качественному датасету и негативному промпту, блокирующему аниме-стилизацию. В некоторых генерациях встречаются артефакты (неправильное количество пальцев, слияние объектов) — типичные ограничения диффузионных моделей, минимизированные отбором лучших кадров.
Использование GenAI в проекте
Помимо обученной модели SDXL, в проекте использовались:
Qwen Plus — для структурирования концепции, генерации текстов историй, формулирования промптов и написания финальной экспликации. Помогла выстроить логику повествования, найти баланс между мифологией и современностью, предложить стилистические решения.
Qwen Coder — для написания, рефакторинга и отладки кода обучения в Jupyter Notebook. Использование кодо-ориентированной LLM ускорило разработку, помогло исправить ошибки в скриптах Diffusers и оптимизировать параметры обучения (разрешение, batch size, LoRA-rank) для стабильной работы.
Perplexity AI — для углублённого исследования мифологической базы. Диалоговые запросы позволили получить доступ к академическим статьям, редким букинистическим изданиям и локальным форумам, что обеспечило достоверность культурологического слоя проекта.
Все изображения итоговой серии сгенерированы исключительно дообученной SDXL (без постобработки в других генеративных инструментах), что обеспечивает чистоту эксперимента и демонстрирует возможности тонкой настройки.
Ноутбук с обучением и процесс
Код для обучения доступен в прикреплённом Jupyter Notebook. Основные этапы:
1. Загрузка и предобработка датасета — кадрирование до 1:1, ресайз до 512×512 для увеличения скорости обучения, затем обратный апскейл через VAE-энкодер для финальной генерации в высоком разрешении, фильтрация нерелевантных изображений.
2. Создание класса-регуляризатора — использование 200 случайных изображений из LAION-5B для предотвращения переобучения.
3. DreamBooth \+ LoRA — дообучение модели stabilityai/stable-diffusion-xl-base-1.0 с помощью скрипта от Hugging Face.
4. Экспорт адаптеров — сохранение LoRA-весов для последующей генерации.
Параметры обучения: разрешение 512×512, эпохи: 8, batch size: 4, learning rate: 1e-5, LoRA rank: 64, optimizer: AdamW.
Генерация выполнялась с использованием diffusers с загрузкой базовой модели и адаптеров LoRA. Для каждого промпта генерировалось несколько вариантов с разными seed, из которых отбирались наилучшие по соответствию замыслу и качеству.
Заключение
Проект «Yokai in the Neon» — эксперимент на стыке искусствоведения, машинного обучения и культурной антропологии. Он показывает, что генеративные нейросети могут быть не просто инструментом создания «красивых картинок», но и средством визуализации сложных культурных концептов — ma, моно-но аварэ, сосуществование древнего и современного. Обученная модель позволила материализовать присутствие ёкаев в повседневной жизни Токио. Полученные изображения — не иллюстрации к сказкам, а визуальная антропология невидимого, попытка увидеть город глазами тех, кто живёт в пространстве между.
Возможно, в следующий раз, когда вы свернёте в незнакомый переулок, вы тоже остановитесь на секунду дольше — просто чтобы проверить: а стена ли это?
