Уильям Тёрнер. Обучение нейросети на HSE Design

Идея проекта

В основу проекта легло самое простое побуждение — посмотреть на то, что мог бы нарисовать художник, будь он живым. Автор данного проекта возложил немало надежд на ИИ. Сможет ли он воспроизвести в хорошем качестве и максимально близко стиль художника Уильяма Тёрнера, когда для обучения используется всего 15 картин…ну что ж, давайте вместе посмотрим на это и проведём добротный эксперимент!

Исходный размер 0x0

Автопортрет. Около 1799

Уильям Тёрнер (1775 — 1851) художник достаточно необычный для своего времени. Своим современникам он был не по душе за свою «хаотичность» или «незавершенность» в работах. Сейчас же мы видим в его кисти предвосхищение импрессионизма и абстракции. Его работа со светом, движением, чувствами поражают.

Это одна из причин, почему он хороший кандидат для нашего эксперимента с нейросетью. Сможет ли ИИ, обученный на 15 его работах уловить стиль и манеру Уильяма Тёрнера? Сможет ли передать эту стихию, эти чувства на холсте?

Ссылка на датасет

В датасете используются только пейзажи художника, ибо прославлен он был именно благодаря ним.

Исходный размер 2560x512

Работы с датасета: 1. Замок Алник, Нортумберленд (1829), 2. Вид на Линкольнский собор, Брайфорд (1803), 3. Аббатство Ривол (1826), 4. Дом у реки с деревьями и овцами (1807), 5. Водопад Клайда (1801).

Процесс обучения

В рамках работы была обучена модель Stable Diffusion XL с использованием техники LoRA

Исходный размер 1398x380

Создание директории и загрузка изображений

Исходный размер 1379x667

Генерация подписей и создание датасета

Для каждого загруженного изображения модель BLIP автоматически генерирует текстовое описание, которые видны на скриншоте (их всего 15). Затем к этому описанию добавляется единое «предложение» с именем художника для связки визуального стиля Тёрнера с содержимым изображений. Таким образом формируется обучающий датасет в формате JSONL, где каждому файлу соответствует текстовый промт.

Исходный размер 1389x538

Запуск обучения модели

Запуск обучения DreamBooth с использованием LoRA для Stable Diffusion XL. Указаны все основные параметры: базовая модель, датасет, параметры обучения.

Исходный размер 1354x334

Загрузка обученной модели для генерации

Загружается готовая модель Stable Diffusion XL, к ней подключаются обученные LoRA-веса стиля Тёрнера. Модель переносится на видеокарту для быстрой генерации. На этом этапе система полностью готова к созданию новых изображений. Пожалуй, можно приступить к просмотру самих генераций.

Первая часть генераций

1. Санкт-Петербург 2. Дубаи 3. Ташкент 4. Лондон

Первые эксперименты проводились с количеством шагов генерации 30. Этого оказалось недостаточно, отчего изображения получились достаточно единообразны. На изображениях городов везде выделяется вода с берегами. Какие-то силуэты ясны, какие-то очень размыты или перемешаны. Также дело обстоит и с ураганом: не видно стихии. Однако несмотря на погрешности, мы все же считываем узнаваемый стиль Тёрнера.

«Шторм» в море

Вторая часть генераций

Увеличив количество шагов генерации до 200-300, мы замечаем значительные изменения. И хотя стиль остается всё таким же «туманным» и «незаконченным», тем не менее мы получаем более достоверную картину.

1. Москва 2. Ташкент 3. Дубаи

Ташкент: «painting in the style of William Turner, Tashkent cityscape, ancient madrasahs and modern buildings, golden light, swirling clouds over the city, atmospheric haze, dramatic sky, warm earth tones, painterly brushwork, romantic urban landscape, masterpiece»

Дубаи: «painting in the style of William Turner, Dubai cityscape, Burj Khalifa piercing golden clouds, desert sand tones blending with urban glass, Persian Gulf reflecting fiery sunset, atmospheric haze over skyscrapers, dramatic sky, warm earth tones, painterly brushwork, romantic urban landscape, masterpiece»

Москва: «painting in the style of William Turner, Moscow cityscape, St. Basil’s Cathedral silhouettes, golden domes glowing in sunset, Moskva River reflecting amber light, swirling clouds over Kremlin, atmospheric haze, dramatic sky, warm earth tones, painterly brushwork, romantic urban landscape, masterpiece»

1. Великая Китайская стена 2. Колизей

Особенно интересны фантастические сюжеты. С каким пылким чувством был сделан Ад, с какою простотой и нежностью рай, и с какой точностью…домик для фей…на дереве. Эх, таковы уж шалости автора!

Для достижение такого абстрактного эффекта были использованы промты более упрощенные:

Ад: «9 circles of hell» Рай: «Heaven with angels» Домик: «House inside a tree with fairies»

1. Ад 2. Рай 3. Домик в дереве с феями

Не прошли мимо затеи сделать автопортрет Уильяма Тёрнера, или точнее, как видит его нейросеть. Интереснее всего, что нейросеть, обученная исключительно на пейзажах, всё же смогла сгенерировать узнаваемый портрет, хотя сам художник не был известен как портретист.

Автопортреты

Заключение

Смотря на картины Уильяма Тёрнера, порою сложно описать те чувства, что они вызывают. Как с музыкой например. Но удивительнее всего не наша реакция на его картины, а сами его картины, которые представляют из себя как раз эту реакцию. Чувственную, бурную. Каждый мазок пропитан каким-то сильным волнением души, страстной натурой. И часто это может отражаться даже в каких-то ошибках, которые свойственны людям в состоянии аффекта. Этих эти ошибки нейросеть совершает частенько, но в случае со стилем Тёрнера они не так сильно заметны, ибо в нём доминирует некий воздух, некая стихия, отуманивающая всё вокруг.

Наша попытка воспроизвести стиль Тёрнера закончилась успешно. Причём, на мой взгляд, там, где мы использовали меньше шагов для генераций, картина получалась более верной кисти художника. И даже там, где лица или тела получались немного несносными, они всё же вторили художнику, ибо сам Тёрнер не имел склонности хорошо рисовать лица (не всегда). Из 39 генераций удачных вышло около 20. Удачными мы посчитали те изображения, в которых стиль Тёрнера был узнаваем, а композиция соответствовала промту.

В качестве помощника с промтами был использован:

Deepseek

Ссылка на блокнот