Гибридный стиль: от руки к нейросети на HSE Design

Концепция проекта

«Гибридный стиль: от руки к нейросети» — это исследование моего личного архива рисунков за последние пять лет собранных воедино через ии.

В итоге работы я предполагаю получить что-то среднее между работами, которые были сделаны недавно и самыми старыми или же все это воедино.

Нейросеть будет воспроизводить мой стиль, пробуя создать персонажей, животных и пейзажи так, как оно может.

Цель проекта: создать генеративную модель, способную убедительно воспроизводить визуальный язык моих рисунков с 2021 года по 2026 год. Главное увидеть то, как искусственный интеллект интерпретирует визуальный стиль.

Сборка датасета

Архив датасета

Для обучения модели был собран датасет, состоящий из 47 разных иллюстраций, которые были приведены к единому формату с квадратным соотношением.

Процесс работы над кодом

Код создавался по шаблону, который был предоставлен в ходе задания по итоговому проекту.

Первая генерация

Исходный размер 1024x1024

Код

В ходе работы с кодом я столкнулась с несколькими трудностями:

Изначально не удавалось подключить GPU к коду в Google Colab, однако через время мне удалось это решить и найти корень проблемы. Как оказалось среда выполнения T4 является GPU и оно может работать одновременно только на 1 коде, а он был подключен к коду с шаблону.
Также в шаблоне было предоставлено 2 выхода изображений. В последнем у меня иллюстрации выдавались радикально не похожими на мой датасет. Они были либо похожи на настоящие фотографии. Я так и не смогла как-то это изменить поэтому вернулась на первый вывод изображений.
Однако в другом выводе тоже не все гладко, генерируемые изображения имеют поломанные черты, непонятные элементы. Кроме того, генерируемые изображение сильно различаются в рамках темы. Например: персонажи получились более дефектными, а пейзажи более сложными и без явных проблем.

Итоговые генерации

Персонажи

Иллюстрации в этой категории определенно обладают на мой взгляд стилем, который был представлен в датасете, однако в остальном же рисунки обладают дефектами: поломанные пропорции лица и тела, непонятные объекты.

Исходный размер 1024x1024

Персонажи в динамике генерировать определенно не получается, возможно это связано и с тем, что в датасете также нет примеров. Там в основе статика.

Исходный размер 1024x1024

В плане фантастических персонажей мне кажется генерируемые изображения весьма удачными. Они обладают загадочностью и завораживают взгляд.

Животные

Иллюстрации животных получились весьма смешанными, потому что иногда генерируемые изображения будто не сходятся с данными, которые были ему изначально предоставлены.

Хочется также отметить, что ни разу в промте не упоминался лев или тигр, однако по какой-то причине нейросеть с большей вероятностью генерировала именно их.

Исходный размер 1024x1024

Пейзажи

Пейзажи также на мой взгляд не однозначны, поскольку иногда я могу найти хоть какие-то сходства с личным стилем, а иногда генерируемые изображения кажутся слишком хорошими и детальными.

В ходе работы над проектом была использована нейросеть ЧатГПТ для решений некоторых проблем, которые периодически возникали с кодом и для идеи названия исследования, так как использовался мой стиль и в итоговых изображениях у меня не было единой тематики, поэтому мне сложно было придумать лаконичное название.