
Описание идеи
Я никогда не была фанатом фэнтези, но фантазировать любила всегда! Собрав небольшой датасет из самых стереотипных фэнтези картинок, я решила поэкспериментировать и создала с помощью Stable Diffusion свои версии того, как выглядел бы наш мир, если бы он был фантазийный.
Dataset //случайные картинки из pinterest//
Так как подобную работу я выполняла впервые, в качестве эксперимента я решила не собирать огромную базу данных и начать с малого. Результат может и не получился бы первоклассного качества, но зато я поняла систему.
Поэтому я сразу после установки всего необходимого выгрузила свои картинки-референсы в среду, в которой работаю.

Проверив, что изображения открываются, я импортировала модель и создала изображениям заголовки.

После всего я обратилась к папке с изображениями и сгенерировала префиксы. Так у каждого моего изображения появился промт.
Для следующего шага я зарегестрировалась на сайте Hugging Face и получила токен. Затем внесла его в Colab и таким образом начала обучение нейросети.
Процесс обучения занял около 40 минут. Благодаря этому получилось сформировать итоговую обученную модель, которую я использую для генерации новых изображений по промту на основе стиля выгруженных мной картинок.
Также я задала параметры выхода на директорий, сохранила в репозиторий и использовала эту модель.
Последний этап — я наконец то начала вводить свои промты.
/ Результирующая серия изображений
Для начала теста я взяла Нью Йорк, как самый киношный город, который в первую очередь надо перевести в разряд фантазий. Решила попробовать ввести один и тот же запрос два раза, чтобы посмотреть какой разброс вариантов возможен в таком случае. В итоге вид локации почти не меняется, а вот цвет, ракурс и наполнение — совершенно разные. И в первый раз получился более подходящий образ Таймс сквер в стиле фэнтези, нежели во второй.


prompt = «photo collage in my style, times square, new york»
Было бы странно, если бы я не попробовала переосмыслить город, в котором я живу. В качестве теста я выбрала самую известную локацию в Москве — Красную площадь. Почему-то ИИ решил сделать коллаж в виде наложения разных картинок друг возле друга, но результат все равно получился интересный. От фэнтези ИИ взял потоки энергии, которые он сделал из стен кремля.
prompt = «photo collage in my style, Moscow, Red Square»
Продолжая свой путь по столицам, я решила еще несколько раз поэкспериментировать в рамках одной локации, в данном случае Лондона, но с разными промтами — с людьми и без. Людей ИИ проработал плохо, а вот автобус на дороге получился восхитительный! Стиль фэнтези очень хорошо внедрился в текстуры неба и перемешался с британским флагом.


prompt = «photo collage in my style, people, London» // prompt = «photo collage in my style, London, Red bus»
Завершила эксперименты я самым стереотипным сюжетом в фэнтези: горы, окружающие задумчивых и мечтательных героев, ведь они буквально смотрят в далекое будущее, а посреди всего этого огромная голова! Так у меня и получилось, когда я указала в промте горы.
prompt = «photo collage in my style, boy, woman, mountains»
// Разбор результата
В качестве разбора результатов, можно сопоставить заявленную концепцию, исходные изображения и полученный итог.
Первое полученное изображение, на мой взгляд, ярче всех показывает фэнтези в реальном городе: ИИ взял с источников яркие цвета, текстуры и стиль представленного героя. Но также ИИ таким стилистическим решением увел реальный мир все дальше в фантазийный.
prompt = «photo collage in my style, times square, new york»
Второе изображение по запросу той же самой локации оказалось более реальным — цветовая гамма сохранилась в своем естественном виде, однако от исходников позаимствовалась некая драматичность и апокалиптичность. ИИ также взял текстуры с референсов и перенес их на Таймс Сквер. Текстуры дождя и форма света также продублировались через мой промпт на изображении.
prompt = «photo collage in my style, times square, new york»
В случае с Москвой, ИИ, по не очень понятным мне причинам, решил собрать одно изображение из большого количества других, созданных им. Но если вглядеться в маленькие изображения в нем, то сохранить концепцию фэнтези в реальном мире определенно удалось: с исходных изображений были взяты приемы визуализации потока воздуха /энергии/, которые образуют некие клубы этих самых потоков. Части сооружений как будто расслаиваются и улетают, что еще раз подчеркивает присутствие фэнтези в совершенно не фантазийном.
prompt = «photo collage in my style, Moscow, Red Square»
Люди, на мой взгляд, хуже всего получились у ИИ. Это могло произойти по причине того, что я в его обучении использовала очень небольшое количество изображений с лицами людей. Однако, я заметила, что те лица, которые оказались более менее прорисованными, очень похожи на тех, кто был изображен на исходниках, что подтверждает результативность моего обучения ИИ. Текстуры города имеют такие же отсылки к деконструктивизации, что и предыдущие изображения, тем самым так же отсылают нас к фэнтазийной концепции.
prompt = «photo collage in my style, people, London»
Вторая вариация промта про Лондон, где уже нет никаких людей, является, на мой взгляд, самым идеальным проявлением заявленной концепции. ИИ не просто копировал и вставил отличительные черты фэнтези, а переработал смыслы и доработал их по-отношению к реальности. Мы можем увидеть с одной стороны идеально сложенные автобус и автомобиль, но с другой стороны небо и воздух полностью переработаны в соответсвии с законами мира фэнтези, но при этом несут смысли реальности, такие, как например британский флаг.
prompt = «photo collage in my style, London, Red bus»
Заключительное изображение больше всего отражает строение смыслов в мире фэнтези. На первый взгляд сложно найти какие-либо отсылки к концепции помимо огромной головы в центре изображение. Но на самом деле это изображение полно не визуальных кодов, а смысловых, где транслируется значимость пути, необходимость пауз в жизни и стремление к будущему. По приведенным в левой стороне исходных изображениям можно увидеть, что ИИ по-своему интерпретировал и лицо девушки с референса, и смысловую нагрузку у воина в горах. Отсылаясь к первоисточникам, ИИ предложил достойным вариант мира фэнтези в реальной жизни.
prompt = «photo collage in my style, boy, woman, mountains»
Stable Diffusion — обучение генеративной нейросети под свой стиль.
Hugging Face — получения токена для обучения нейросети.