Кинематографичное одиночество Эдварда Хоппера на HSE Design

Идея проекта

Проект направлен на обучение нейросети,  обладающей способностью понимать и воспроизводить визуальные стили, характерные для признанных мастеров иллюстрации и живописи.

Нейросеть обучается на репрезентативной базе данных картин знаменитого художника, изучая композицию, цветовую палитру, технику мазка, особенности освещения и другие ключевые элементы, формирующие его уникальный художественный почерк.

Исходный размер 3500x907

Картины Эдварда Хоппера

Художником, чьи работы стали основой данного проекта, является Эдвард Хоппер — выдающийся американский живописец-реалист, мастер передачи урбанистического отчуждения и создатель культовой картины «Полуночники» (Nighthawks). Искусство Хоппера — это застывшие кинематографичные кадры, пропитанные звенящей тишиной и меланхолией. Его герои всегда погружены в себя, находясь в пустых кафе, безликих гостиничных номерах или на залитых жестким солнечным светом заправках.

Картины Эдварда Хоппера

Интерес к оцифровке стиля Эдварда Хоппера с помощью нейросетей обусловлен тем, что этот стиль бьет в самую слабую точку искусственного интеллекта.  Генеративные модели страдают «боязнью пустоты» (horror vacui) — они по умолчанию стремятся заполнить кадр максимальным количеством деталей, мелких текстур и объектов. Стиль Хоппера же строится на радикальном минимализме: половину его холста может занимать абсолютно пустая, гладко выкрашенная стена или глубокая тень. Заставить диффузионную модель отказаться от «визуального мусора», научить её рисовать звенящую пустоту, строгий геометрический свет и передавать чувство экзистенциального одиночества — это сложнейшая инженерная задача, требующая ювелирного файнтюнинга.

>>> Здесь исходные изображения для обучения

Техническая реализация (Google Colab и LoRA)

В рамках проекта обучение проводилось в облачной среде Google Colab с использованием метода LoRA (Low-Rank Adaptation).  Этот подход позволяет дообучить тяжелую базовую модель (например, Stable Diffusion), обновляя лишь крошечную часть весов, что делает процесс быстрым и возможным на потребительских видеокартах.

Ниже будет приведён реальный код пайплайна, использованный в проекте.

1. Установка зависимостей и подготовка среды

Для начала необходимо установить актуальные библиотеки машинного обучения от Hugging Face: diffusers для работы с диффузионными моделями, peft для интеграции LoRA и accelerate для управления памятью GPU.

Исходный размер 3500x1546

Фрагмент кода

2. Запуск процесса обучения (Fine-tuning)

Для обучения используется официальный скрипт train_text_to_image_lora.py.  Модель обучается ассоциировать визуальные паттерны датасета с триггерным токеном (в нашем случае Hopper style).

Фрагменты кода

Исходный размер 3500x1192

Фрагмент кода, включающий исходные изображения

В этом блоке задаются критические гиперпараметры:  разрешение изображений, количество шагов (1500 обычно достаточно для стиля на 15 картинках) и косинусное расписание скорости обучения (learning rate) для плавного схождения градиентов.

Исходный размер 3500x1315

Фрагмент кода

3. Инференс (Генерация изображений)

После завершения обучения полученные веса LoRA накладываются поверх базовой модели. Следующий Python-код демонстрирует процесс генерации.

Исходный размер 3500x837

Фрагмент кода

Исходный размер 3500x483

Фрагмент кода

Картины Эдварда Хоппера отличаются ярким, узнаваемым стилем,  который характеризуется несколькими ключевыми особенностями: • Резкий, театральный (часто диагональный) солнечный или искусственный свет, создающий строгие геометрические тени. • Ощущение застывшего времени: композиции выглядят как случайный кадр из старого кинофильма. • Радикальный минимализм в деталях: пустые столы, голые стены, отсутствие отвлекающих предметов интерьера. • Приглушенная, реалистичная цветовая палитра с редкими, но выразительными акцентами. • Психологическая изоляция: персонажи погружены в свои мысли и кажутся бесконечно одинокими.

Исходный размер 3500x907

Сгенерированные изображения

Примеры сгенерированных изображений и промпты

Для тестирования модели и раскрытия её потенциала были составлены специальные промпты. Ниже представлены некоторые из них.

— Одиночество в кафе: «A lonely man in a fedora sitting at a curved diner counter late at night, empty coffee cup, photo in Hopper style, dark empty street outside the window, harsh fluorescent lighting, cinematic isolation.» - Утреннее солнце: «A woman sitting on the edge of a bed in a sparse hotel room, looking out the window, photo in Hopper style, sharp diagonal morning sunlight hitting the blank wall, deep shadows, melancholic mood.» - Офис в мегаполисе: «A businessman standing alone in a high-rise office at dusk, looking down at the city, photo in Hopper style, stark geometric shadows, vast empty interior space, mid-century modern aesthetic.»

Сгенерированные изображения

— Ночная заправка: «A brightly lit vintage gas station on a dark, isolated country road at night, a single attendant standing near the pumps, photo in Hopper style, stark contrast between artificial light and the dark woods.» - Кинотеатр: «A young woman sitting alone in a dark movie theater, her face illuminated by the glowing screen, empty velvet seats around her, photo in Hopper style, quiet contemplation, cinematic framing.»

>>> Ссылка на все получившиеся изображения

Вывод

Интеграция метода LoRA в пайплайн диффузионных моделей показала потрясающие результаты при работе с меланхоличным реализмом Эдварда Хоппера. Это отличный пример того, как машинное обучение учится справляться с «визуальной тишиной». Долгое время алгоритмы ассоциировались с избыточностью и гипердетализацией, но современные подходы к тонкой настройке (fine-tuning) позволяют заставить нейросеть понимать концепт минимализма и строгого геометрического света.

Однако технический успех эксперимента поднимает более глубокий вопрос. Нейросеть с помощью математики градиентного спуска научилась расставлять свет и тени так же, как Хоппер. Но чувство щемящего одиночества в большом городе, которое сквозит в каждой оригинальной работе, рождается из жизненного опыта, а не из сложения матриц.

Машинное обучение предоставило нам фантастический инструмент для визуализации идей, прототипирования и создания атмосферных раскадровок. Но этот эксперимент лишний раз доказывает: алгоритм может блестяще воссоздать сцену и настроить свет, но смыслом и подлинной эмоцией эту сцену по-прежнему наполняет только человек.

>>> Ссылка на блокнот с кодом

• Для генерации промптов и написания кода пайплайна был использован Claude Sonnet 4.5.