идея проекта
Мой кот Гриша всегда был очень фотогеничным, и у нас очень много его фотографий. Но мне всегда хотелось пойти дальше и написать с Гриши картину, так как писали постимпрессионисты или фовисты. Гриши с нами больше нет, но я все еще очень хочу написать картину.
И я решила почему бы не представить Гришин портрет с помощью нейросети. И, может быть, в случае успеха, даже позаимствовать что-нибудь, для реальной картины, если я когда-нибудь все-таки сяду ее писать.
Поэтому я решила научить нейросеть создавать кота Гришу, и потом через промпты поместить Гришу на картину Анри Матисса.
исходные фото кота


примеры живописи Анри Матисса
описание процесса обучения
Сначала я подготовила среду в Google Colab: подключила GPU, установила необходимые библиотеки и настроила рабочее окружение для обучения модели Stable Diffusion через DreamBooth LoRA.
Затем я собрала небольшой датасет из фотографий кота Гриши. Я отобрала фотографии с разными ракурсами и позами, чтобы нейросеть увидела как бы «всего» кота


Затем я привела в порядок датасет, очистила папку от всего лишнего, отформатировала изображения.
Далее подключилась к Hugging Face




Далее, я перешла к этапу обучения.
Я выбрала стандартный размер изображения 512. Максимальное количество шагов обучения я установила на 1200, потому что меньшее количество 500-700 шагов давало слабое и неточное изображение кота. Чекпоинты сохранялись каждые 200 шагов.
После этого нужно было проверить насколько хорошо модель выучила кота Гришу, и как она его воспроизводит. Поэтому я создала пару генераций фотореалистичного кота, чтобы убедиться что все хорошо
кот Гриша созданный нейросетью
Затем я перешла к следующему этапу — стилизации под Матисса. Художествнный стиль я добавляляла через текстовый промпт.
Основные характеристики которые я старалась прописать в промптах это: — фовистская цветовая палитра — упрощённые формы — мягкая деформация преспективы — видимые мазки — декоративность интерьера и интенсивность цвета
Основной промпт: hsecat cat, Matisse oil painting style, vivid warm and cool colors, loose brushstrokes, decorative interior, flattened perspective, simplified forms, visible oil paint texture
Чтобы добиться определенной палитры, позы кота, или ракурса, я добавляла или убирала некоторые детали из текста основного промпта.
финальные генерации
генерации кота Гриши в стиле Матисса
генерации кота Гриши в стиле Матисса
генерации кота Гриши в стиле Матисса
Здесь я собрала лучшие из генераций, на мой взгляд. В целом нейросеть очень неплохо распознала и основные черты кота и основные черты стиля Матисса. Но, тем не менее, от раза к разу у меня получались изображения очень разные по качеству и по точности отображения как стиля так и кота.
Однако на качество изображения кота Гриши часто влиял в основном стиль Матисса. Вид кота переодически ухудшался из-за характерного искажения перспективы и изменения стандартных форм на картинах художника. . Поэтому, я могу сделать вывод, что обучить нейросеть изображению кота Гриши мне точно удалось. Стиль Анри Матисса тоже распознается нейросетью хорошо, а вот совмещение первого и второго уже требует улучшения и какой-то более детальной проработки.








