Обучение ИИ-модели в стиле Винсента ван Гога на HSE Design

Предисловие

Работы Винсента ван Гога, использованные при обучении модели Stable Diffusion, являются общественным достоянием (Public Domain).

Изображения работ взяты из галереи Van Gogh Museum, бесплатны для некоммерческого использования, а также с платформ, предоставляющих лицензию CC0.

Идея проекта

Выбирая материалы для обучения модели я захотел исследовать возможности ИИ в подражании художественному стилю состоявшегося автора. Выбор пал на Винсента ван Гога, великого нидерландского художника, чей стиль абсолютно уникален и узнаваем. Сможет ли ИИ-модель выделить характерные особенности авторского стиля и применить их при генерации новых изображений?

Объектом исследования и генераций стали цветы, большая любовь художника. В цветах его манила жизнь, буйство красок, энергия формы, обыденность и непостоянство, свойственные самому автору.

В письмах брату Теодору, опубликованных в сборнике «Письма брату Тео», Ван Гог неоднократно увлеченно рассказывает о цветах. Так, во время работы над знаменитой серией с подсолнухами, Винсент писал: «Я пишу с азартом марсельца, поедающего буйабес, что не удивит тебя, когда речь идет о больших Подсолнухах…»

Художественный стиль Ван Гога и датасет

Авторский почерк Ван Гога в контексте проекта заинтересовал меня потенциально идеальной совместимостью с генеративным ИИ.

Цветы, написанные Ван Гогом — энергичные и живые переплетения плотных, уверенных мазков, создающих густую композицию. Для модели, обученной на технике художника, не столь важна точность деталей, если сравнить с условными фотореалистичными моделями.

Итоговый датасет насчитывает 35 изображений. В него вошли фрагменты полотен с цветами, а также другие работы художника, с целью предоставить модели сценарий работы с окружением.

Код и процесс обучения модели

Средой для обучения был выбран Google Colab, ввиду простоты работы с датасетом и технической доступности, в отличии от Kaggle, недоступном для верификации для пользователей из РФ.

Перед переходом к основной части работы были выполнены подготовительные действия, включающие загрузку необходимых библиотек, скриптов, а также проверка доступного GPU.

Исходный размер 1285x764

Подготовив датасет, я загрузил его в среду выполнения Google Colab. Итоговому датасету был размещен в директории vangogh

Исходный размер 1739x923

После загрузки датасета я проверил его целостность и верность отображения. Используя превью я вывел на экран плитку из 5 изображений, включенных в датасет.

Исходный размер 1407x717

С помощью BLIP были созданы уникальные описания для каждого изображения. Промежуточные варианты казались недостаточно ёмкими, однако результат обучения показал обратное.

Также был назначен промпт и префикс flowers painting in VANGOGH style, в дальнейшем использующийся для стилистической разметки в процессе обучения и генерации.

Исходный размер 1270x560

Переходя непосредственно к обучению модели Stable Diffusion по методу DreamBooth, я выбрал сокращенные параметры, включающие 500 стандартных шагов с чекпоинтом на 250 шагах при разрешении 512 пикселей.

Итоговое время обучения заняло 52 минуты, включая само обучение, загрузку весов и элементов пайплайна.

По окончании обучения я произвел загрузку модели на Hugging Face и приступил к загрузке стандартной модели Stable Diffusion.

Результат обучения

Исходный размер 1024x1024

prompt = «flowers painting in VANGOGH style, blue flowers in a green vase»

Исходный размер 1024x1024

prompt = «flowers painting in VANGOGH style, red flowers in a garden»

Слева: prompt = «flowers painting in VANGOGH style, white roses in a blue vase on a green background» Справа: prompt = «flowers painting in VANGOGH style, olive grove with mountains in the backgroun

Результатом обучения стали изображения, отлично передающие стилистику работы Ван Гога. Нейросеть добилась довольно хорошего качества передачи авторской манеры письма, выраженной в характере работы с материалом, текстуры полотен, композиции и цветовой палитры. Изображения с цветами показывают действительно выдающийся потенциал дообучения с ИИ, однако нельзя не заметить и ряд небольших проблем.

При попытке сгенерировать пейзаж выяснилось, что модель усвоила принципы работы с материалом и цветом, практически идеально научилась работать с цветами, на которых я акцентировал внимание, однако изображение с оливковой рощей получилось сырым. При сохраненной технике картинка смотрится смесью красок на палитре, а не полотном мастера. Причина — фокус на узкой работе с цветочным композициями. Обучив модель на других работах Ван Гога с огромной вероятностью мы получим такой же достойный результат.

Единственное, что хотелось бы выделить в изображениях с цветами, это контраст и кадрирование. Картинки смотрятся тусклее работ Ван Гога, который сам неоднократно отмечал, что именно для практики работы с цветом и контрастом пишет цветы. Исправить можно добавлением в промпт простого параметра контрастности или яркости. Кадрирование получилось таким же фрагментным, как и исходные изображения датасета, ввиду квадратного формата.

Генеративный ИИ в проекте не использован.

Блокнот проекта (Google Colab)

Блокнот проекта на диске