Обучение генеративной нейросети на HSE Design

Идея проекта заключается в том, чтобы обучить нейросеть создавать картины в стиле художника Ивана Айвазовского и создать серию картин о том как бы выглядели порты современных городов.

Исходные изображения

Исходный размер 2560x1856

Иван Айвазовский / «Ревель (Таллин)» / 1845

Исходный размер 1702x1200

Иван Айвазовский / «Вид Венеции со стороны Лидо» / 1855

Исходный размер 1887x1200

Иван Айвазовский / «Закат на море» / 1848

Исходный размер 1701x1200

Иван Айвазовский / «Море. Коктебель» / 1853

Получившаяся серия изображений

Исходный размер 1024x1024

Промпт: antarctica

Исходный размер 1024x1024

Промпт: istanbul strait on a sunny day

Исходный размер 1024x1024

Промпт: mumbai port

Исходный размер 1024x1024

Промпт: peter and paul fortress, saint petersburg

Исходный размер 1024x1024

Промпт: port of dubai port in night

Исходный размер 1024x1024

Промпт: port of new york

Исходный размер 1024x1024

Промпт: shanghai port in calm sunny weather

Исходный размер 1024x1024

Промпт: singapore port on a moonlit night

Исходный размер 1024x1024

Промпт: storm in the port of tokyo

Исходный размер 1024x1024

Промпт: view of porto, portugal

Итоговая серия представляет собой порты современных городов. Изображения портов представлены в различных погодных и временных условиях. Стиль оригинальных картин Ивана Айвазовского хорошо получилось передать при обучении нейросети. Лучше всего вышло передать морскую атмосферу и строение кораблей. Отдельно стоит отметить, как нейросеть смогла изобразить побережье Антарктики, несмотря на то, что Айвазовский редко писал зимние сюжеты. Первоначальная идея попробовать сгенерировать различные порты удалась, хотя внешний вид кораблей остались из XIX века.

Ноутбук с кодом: https://disk.yandex.ru/d/NXyktCT47AVzHg

Процесс обучения:

Сначала скачиваем все картины Айвазовского с сайта Википедия. Названия файлов собираем в отдельный список.

Исходный размер 1227x584

Исходный размер 1123x495

Потом создаем отдельную папку, куда сохраняются обрезанные картины. Циклом проходимся по всем файлам, обрезаем их и записываем в новую папку.

Исходный размер 1253x681

Скачиваем нужные библиотеки. Код взят из репозитория преподавателя.

Исходный размер 1239x441

Загружаем BLIP для автоматического добавления подписей к картинам Айвазовского.

Исходный размер 1227x590

Подписываем каждую картину с помощью цикла и удаляем BLIP из памяти.

Исходный размер 1248x465

Заходим в аккаунт Hugging Face с помощью токена доступа, запускаем ускоритель и скачиваем ещё одну библиотеку.

Исходный размер 1237x418

Запускаем обучение модели со 1000 шагами обучения и контрольными точками каждые 500 шагов. После этого сохраняем модель.

Исходный размер 1235x550

Исходный размер 1256x651

Исходный размер 1240x369

Создаем функцию для генерации и вывода изображения на основе промпта. Сохраняем полученные изображения в папку RESULT.

Исходный размер 1235x688

Описание применения генеративной модели:

BLIP (https://github.com/salesforce/BLIP) использовалась для добавления описания к картинам Айвазовского. Stable Diffusion (https://github.com/Stability-AI/generative-models) использовалась для дообучения на картинах Айвазовского с целью дальнейшей генерации изображений.