Original size 1240x1750

Fantasy world // Обучение генеративной нейросети

Описание идеи

Я никогда не была фанатом фэнтези, но фантазировать любила всегда! Собрав небольшой датасет из самых стереотипных фэнтези картинок, я решила поэкспериментировать и создала с помощью Stable Diffusion свои версии того, как выглядел бы наш мир, если бы он был фантазийный.

Dataset //случайные картинки из pinterest//

Так как подобную работу я выполняла впервые, в качестве эксперимента я решила не собирать огромную базу данных и начать с малого. Результат может и не получился бы первоклассного качества, но зато я поняла систему.

Поэтому я сразу после установки всего необходимого выгрузила свои картинки-референсы в среду, в которой работаю.

Original size 2728x1096

Проверив, что изображения открываются, я импортировала модель и создала изображениям заголовки.

Original size 2756x1156

После всего я обратилась к папке с изображениями и сгенерировала префиксы. Так у каждого моего изображения появился промт.

Original size 2733x366

Для следующего шага я зарегестрировалась на сайте Hugging Face и получила токен. Затем внесла его в Colab и таким образом начала обучение нейросети.

Original size 2636x580

Процесс обучения занял около 40 минут. Благодаря этому получилось сформировать итоговую обученную модель, которую я использую для генерации новых изображений по промту на основе стиля выгруженных мной картинок.

Original size 2699x1139

Также я задала параметры выхода на директорий, сохранила в репозиторий и использовала эту модель.

Original size 2728x1159

Последний этап — я наконец то начала вводить свои промты.

Original size 2654x1136

/ Результирующая серия изображений

Для начала теста я взяла Нью Йорк, как самый киношный город, который в первую очередь надо перевести в разряд фантазий. Решила попробовать ввести один и тот же запрос два раза, чтобы посмотреть какой разброс вариантов возможен в таком случае. В итоге вид локации почти не меняется, а вот цвет, ракурс и наполнение — совершенно разные. И в первый раз получился более подходящий образ Таймс сквер в стиле фэнтези, нежели во второй.

prompt = «photo collage in my style, times square, new york»

Было бы странно, если бы я не попробовала переосмыслить город, в котором я живу. В качестве теста я выбрала самую известную локацию в Москве — Красную площадь. Почему-то ИИ решил сделать коллаж в виде наложения разных картинок друг возле друга, но результат все равно получился интересный. От фэнтези ИИ взял потоки энергии, которые он сделал из стен кремля.

Original size 1024x1024

prompt = «photo collage in my style, Moscow, Red Square»

Продолжая свой путь по столицам, я решила еще несколько раз поэкспериментировать в рамках одной локации, в данном случае Лондона, но с разными промтами — с людьми и без. Людей ИИ проработал плохо, а вот автобус на дороге получился восхитительный! Стиль фэнтези очень хорошо внедрился в текстуры неба и перемешался с британским флагом.

prompt = «photo collage in my style, people, London» // prompt = «photo collage in my style, London, Red bus»

Завершила эксперименты я самым стереотипным сюжетом в фэнтези: горы, окружающие задумчивых и мечтательных героев, ведь они буквально смотрят в далекое будущее, а посреди всего этого огромная голова! Так у меня и получилось, когда я указала в промте горы.

Original size 1024x1024

prompt = «photo collage in my style, boy, woman, mountains»

// Разбор результата

В качестве разбора результатов, можно сопоставить заявленную концепцию, исходные изображения и полученный итог.

Первое полученное изображение, на мой взгляд, ярче всех показывает фэнтези в реальном городе: ИИ взял с источников яркие цвета, текстуры и стиль представленного героя. Но также ИИ таким стилистическим решением увел реальный мир все дальше в фантазийный.

Original size 1750x1024

prompt = «photo collage in my style, times square, new york»

Второе изображение по запросу той же самой локации оказалось более реальным — цветовая гамма сохранилась в своем естественном виде, однако от исходников позаимствовалась некая драматичность и апокалиптичность. ИИ также взял текстуры с референсов и перенес их на Таймс Сквер. Текстуры дождя и форма света также продублировались через мой промпт на изображении.

Original size 1750x1024

prompt = «photo collage in my style, times square, new york»

В случае с Москвой, ИИ, по не очень понятным мне причинам, решил собрать одно изображение из большого количества других, созданных им. Но если вглядеться в маленькие изображения в нем, то сохранить концепцию фэнтези в реальном мире определенно удалось: с исходных изображений были взяты приемы визуализации потока воздуха /энергии/, которые образуют некие клубы этих самых потоков. Части сооружений как будто расслаиваются и улетают, что еще раз подчеркивает присутствие фэнтези в совершенно не фантазийном.

Original size 1750x1024

prompt = «photo collage in my style, Moscow, Red Square»

Люди, на мой взгляд, хуже всего получились у ИИ. Это могло произойти по причине того, что я в его обучении использовала очень небольшое количество изображений с лицами людей. Однако, я заметила, что те лица, которые оказались более менее прорисованными, очень похожи на тех, кто был изображен на исходниках, что подтверждает результативность моего обучения ИИ. Текстуры города имеют такие же отсылки к деконструктивизации, что и предыдущие изображения, тем самым так же отсылают нас к фэнтазийной концепции.

Original size 1750x1024

prompt = «photo collage in my style, people, London»

Вторая вариация промта про Лондон, где уже нет никаких людей, является, на мой взгляд, самым идеальным проявлением заявленной концепции. ИИ не просто копировал и вставил отличительные черты фэнтези, а переработал смыслы и доработал их по-отношению к реальности. Мы можем увидеть с одной стороны идеально сложенные автобус и автомобиль, но с другой стороны небо и воздух полностью переработаны в соответсвии с законами мира фэнтези, но при этом несут смысли реальности, такие, как например британский флаг.

Original size 1750x1024

prompt = «photo collage in my style, London, Red bus»

Заключительное изображение больше всего отражает строение смыслов в мире фэнтези. На первый взгляд сложно найти какие-либо отсылки к концепции помимо огромной головы в центре изображение. Но на самом деле это изображение полно не визуальных кодов, а смысловых, где транслируется значимость пути, необходимость пауз в жизни и стремление к будущему. По приведенным в левой стороне исходных изображениям можно увидеть, что ИИ по-своему интерпретировал и лицо девушки с референса, и смысловую нагрузку у воина в горах. Отсылаясь к первоисточникам, ИИ предложил достойным вариант мира фэнтези в реальной жизни.

Original size 1750x1024

prompt = «photo collage in my style, boy, woman, mountains»

/// Блокнот и датасет

Stable Diffusion — обучение генеративной нейросети под свой стиль.

Hugging Face — получения токена для обучения нейросети.

Fantasy world // Обучение генеративной нейросети

Mariia Tsarevskaia

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...