Исходный размер 2391x3500

Обучение генеративной нейросети под стиль художника Виктора Сире

Концепция

big
Исходный размер 2574x1808

Виктор Сире, Дом у холма, 2025

Виктор Сире — французский художник, работающий на пересечении текстиля, рисунка и культурной археологии. Его работы — это сложные вышивки, в которых переплетаются визуальные коды поп-культуры, архитектурные мотивы, образы из мультфильмов, видеоигр, старого телевидения. Его вдохновение простирается от сериалов и B-movies до эстетики «атомного века» и пригородного быта. Внимание к постмодернистской архитектуре и декоративным структурам делает его творчество одновременно ироничным, тревожным и глубоко личным. Он работает медленно, вручную, по много часов в день, создавая то, что сам называет «фрагментированным ландшафтом» — визуальной мозаикой из культурных отголосков.

big
Исходный размер 1596x512

Виктор Сире, Дикий мир, 2024–2025

LoRA-модель по мотивам его работ — это попытка уловить само ощущение сшитого мира, в котором образ рождается на стыке ностальгии, фрагмента и ремесла. Художник говорит, что начинает с «кусков рисунков из блокнотов», собирая из них ландшафт, где соседствуют небоскрёбы, мультяшные силуэты, орнаменты, куски телешоу и архитектурные детали. Всё это попадает в ткань изображения как фрагменты культурной памяти — знакомые и странные одновременно, будто они пришли из сна, записанного на старую плёнку.

Итоговая серия «Мотель Зеро»

Desert gas station with vintage cars / Pastel motel with round windows (здель и далее промпты сокращены)

В этой серии я сознательно отстранился от привычных визуальных кодов Виктора Сире, чтобы исследовать территорию собственных ассоциаций и тревог — не через цитаты, а через атмосферу. Хотя модель была обучена на материале, пропитанном поп-культурой, мне было важно использовать этот лексикон иначе — не как развлечение, а как пространство распада и внутреннего напряжения.

Исходной точкой стал мотив молнии — как символа внезапного сбоя в стабильной, «вязаной» реальности. В арт-текстиле молния выглядит особенно неуместно: она как ошибка в паттерне, как визуальное вмешательство в «уют». Это и стало отправной точкой — желание создать серию, где ткань мира словно прошита током, где нормальность вот-вот даст трещину.

Retro living room with patterned wallpaper / Brutalist building with colorful windows, lightning strike, floating jellyfish

Исходный размер 1536x1536

Abandoned train station with cacti growing through floorboards, ghostly horses and electric storms

Исходный размер 4784x1536

Hotel with palm trees, lightning storm over ocean / UFO over lake disguised as carousel roof / Vintage carousel with animals, lightning in dark sky

Laundromat building under lightning storm, colorful clothes hanging from clouds / Blue building with power cable for electricity

Хотелось выстроить собственный лабиринт отчуждения, где на месте американской мечты оказывается беспокойная пустота, обитая крестиком. Это как если бы «Город Зеро» снимали не в Калуге, а на шоссе между Палм-Спрингс и Лас-Вегасом, под музыку синтезатора и с надвигающейся грозой.

Small guesthouse on checkered floor, giant floating keys in red sky / Moody bedroom with lightning, stitched fabric textures, quiet tension

Phone booth in tall grass at dawn, sky filled with birds and soft clouds / Yellow diner with fried egg roof, checkered awning

Процесс создания модели

Для обучения нейросетевой модели я собрал датасет, включающий 45 работ Виктора Сире, его портфолио на данный момент насчитывает около 60 произведений. Работы отбирались вручную с целью максимально полно охватить основные черты визуального языка Сире: композиционные приёмы, архитектурные мотивы, особенности цветового баланса, характерную текстильную фактуру, иногда добавлялись крупные планы сцен.

Исходный размер 1712x696

После формирования выборки изображения были вручную приведены к единому формату. Все работы конвертировались в квадратное соотношение сторон — 1:1, с разрешением 512×512 пикселей, что обеспечивало достаточное качество визуальных деталей при сохранении разумного объёма данных для обучения.

Исходный размер 2568x1110

После обработки изображений я использовал модель BLIP для генерации автоматических подписей. С её помощью каждому изображению была присвоена краткая текстовая аннотация, отражающая его визуальное содержание. Максимальная длина описания ограничивалась 50 токенами. Результаты были собраны в формате .jsonl, где каждой строке соответствовало изображение и его текстовая подпись. Этот файл впоследствии использовался как аннотированный датасет для обучения LoRA-модели.

Исходный размер 2568x1422

Дальше я перешёл к обучению LoRA на базе Stable Diffusion XL (SDXL). Для этого использовался скрипт train_dreambooth_lora_sdxl.py с набором оптимизированных параметров. В качестве базовой модели была выбрана stabilityai/stable-diffusion-xl-base-1.0, с VAE-моделью madebyollin/sdxl-vae-fp16-fix. Обучение велось на датасете «victorsiret», аннотированном через колонку prompt, содержащую сгенерированные ранее подписи. Разрешение изображений было установлено на 1024×1024 пикселя, что позволяло сохранить мелкие текстильные и архитектурные детали.

Сozy pink living room with green fireplace, ghost kitten by the fire / Retro living room with mint armchairs and an unexpected basement opening

После первой итерации обучения мне показалось, что модель начала улавливать основные черты стиля — от геометрии интерьеров до характерной «вязаной» фактуры. Посмотрите, например, на этого милого котика-привидение, устроившегося у камина. Эту первую версию можно посмотреть на Hugging Face.

Тем не менее, визуально я почувствовал, что количество стежков, фактурность и плотность рисунка остаются недостаточными. Визуальный рельеф напоминал черновик — стилистически точный, но технически плоский. Это натолкнуло меня на мысль: попробовать более свежую, мощную архитектуру модели, способную передать большую глубину и микродинамику текстиля.

Исходный размер 2568x1179

Во второй итерации я решил перейти на модель Stable Diffusion 1.5 (runwayml/stable-diffusion-v1-5), так как она даёт более насыщенную и «тактильную» картинку, ближе к ощущению текстиля (изначально вообще хотелось попробовать FLUX, однако даже GPU P100 не смог его потянуть). Разрешение изображений было уменьшено до 512×512, чтобы соответствовать оригинальному масштабу вышивки и сохранить чёткость «стежков». Я также изменил параметры обучения: снизил learning rate до 5e-5, использовал cosine scheduler с прогревом (lr_warmup_steps=100), и увеличил количество шагов до 2000, чтобы добиться более устойчивой сходимости. Все оптимизации памяти — fp16, gradient checkpointing, 8bit Adam — были сохранены. Эти изменения позволили добиться большей плотности, глубины и выразительности в результатах генерации.

Исходный размер 1536x1536

Стиль во второй итерации стал заметно ближе к оригинальной эстетике — появились правильные формы, текстильная плотность, узнаваемая архитектурная геометрия. Однако на этом этапе модель всё ещё давала смешанные результаты: иногда изображение выглядело пресноватым, словно слишком аккуратным и стерильным. Периодически проявлялись артефакты — особенно в тенях, окнах или границах объектов. Кроме того, сюжеты поначалу были чрезмерно упрощёнными: не хватало того фирменного визуального хаоса, странности и лёгкой абсурдности, присущих работам Виктора Сире.

Исходный размер 2898x448

Чтобы итоговые изображения не выглядели слишком плоско и цифрово, я выстроил собственный пайплайн постобработки: после генерации с помощью LoRA Victor Siret я прогонял изображения через Topaz Photo AI для деликатного шумоподавления и первичного апскейла, затем использовал HiDiffusion SDXL, чтобы добавить глубину, световые акценты и усложнить композицию, и в финале применял Clarity Upscaler, чтобы подчеркнуть резкость и текстильную фактуру. Иногда я обращался к InvokeAI, чтобы вручную добавить, убрать или скорректировать отдельные детали, если композиция требовала вмешательства.

Процесс создания промптов

Opera house shaped like a hairdryer, geometric architecture, colorful windows

Ещё одной важной частью работы стало подбор и тестирование промптов — процесс, который оказался не менее кропотливым, чем само обучение. Часто приходилось часами — иногда ночами — перебирать десятки формулировок, чтобы добиться нужного результата. Один и тот же запрос мог выдать абсолютно разные интерпретации: как, например, здесь — когда я пытался получить здание оперы в форме фена, генерация могла увести в совершенно неожиданные стороны. Именно в этих расхождениях между намерением и результатом рождались самые странные, но ценные находки.

Пример промпта / an artwork in Victor Siret style, featuring a vintage television in front of a checkered wall, surreal clouds and colorful rain in the background, pixel embroidery texture, retro-futuristic mood, playful chaos, low horizon, textile surrealism

Исходный размер 3139x1536

Для более осмысленной работы с промптами я подключал ChatGPT o1 и CLIP Interrogator 2. Последний особенно помогал на этапе стилистического анализа: я загружал работы Victor Siret в CLIP и внимательно изучал, какие визуальные ассоциации и описания модель предлагает — это позволяло увидеть, как ИИ «считывает» стиль, и какие термины действительно работают. Затем я старался пересобрать эти подсказки в нужную мне формулировку, сохраняя дух оригинала, но направляя генерацию в свою сторону.

Итоги

Моё главное наблюдение в ходе работы — у Виктора Сире действительно удивительный, автономный визуальный мир, который сложно формализовать в правила или стилистические маркеры. Его композиции часто непредсказуемы, странные, небанальные — они будто рождены не логикой, а интуицией. Именно поэтому нейросети пока не удаётся воспроизвести это «чуть-чуть не то» ощущение сходу. Даже при хорошем обучении получается лишь стилистическая оболочка — цвета, формы, текстильность. Но внутреннюю логику хаоса и комбинаторную дерзость модель теряет.

Тем не менее, при внимательной работе с промптами, анализе через CLIP, генерации сотен вариантов и ручной селекции можно добиться результата, который приближается к атмосфере его работ. В этом и есть, наверное, главный урок: нейросеть — это не замена художника, а инструмент, способный бережно приблизиться к языку настоящего творца.

Исходный размер 1536x1536
Обучение генеративной нейросети под стиль художника Виктора Сире
Проект создан 10.04.2025
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше