Генерация изображений в стилистике Minecraft с помощью Stable Diffusion на HSE Design

Концепция

Идея проекта заключается в том, чтобы взять открытую модель Stable Diffusion и дообучить её на специально собранном датасете из скриншотов игры Minecraft. В качестве визуальной базы планируется использовать изображения, где преобладают природные и архитектурные сцены: леса сакуры, вода, небо, дома и другие пейзажные элементы.

После дообучения модели предполагается проверить, насколько точно она сможет генерировать новые изображения в стилистике Minecraft, сохраняя характерные особенности визуального языка игры. В результате проект должен показать возможность создания с помощью ИИ уникальных сцен с пейзажами, лесами, домами и природными локациями, визуально близкими к атмосфере Minecraft.

Некоторые кадры из датасета

Датасет для обучения модели был сформирован из собственных изображений, созданных мной самостоятельно в игре Minecraft.

Все использованные материалы относятся к авторским визуальным работам и были отобраны специально для данного проекта.

Результат работы ИИ

Комментарий

В итоговой серии изображений можно заметить, что модель в целом распознала пиксельную стилистику Minecraft и смогла передать её в генерации. Также видно, что нейросеть достаточно хорошо уловила особенности леса сакуры как одного из визуальных образов игры. В сгенерированных изображениях прослеживаются деревья, растительность и характерные частицы, которые ассоциируются с этим биомом.

Кроме того, можно сказать, что модель частично поняла и архитектурные особенности игрового мира. Несмотря на то, что итоговые изображения не являются точным повторением оригинального визуала Minecraft, они всё же получились достаточно близкими по атмосфере и стилистике.

По визуальному анализу результатов можно сделать вывод, что лучше всего модель научилась воспроизводить именно биом сакуры. Это связано с тем, что большая часть обучающего датасета состояла именно из изображений с сакурой. При этом пустынный и зимний биомы были представлены в меньшем количестве, поэтому их генерация получилась менее точной и менее выразительной.

Для дообучения модели использовалось около 100 изображений, на основе которых и формировалось понимание визуальных особенностей игровых локаций.

На вход модели было подано около 120 изображений из игры Minecraft, использованных в качестве обучающего материала. По итогам дообучения модель сгенерировала серию новых изображений, основанных на визуальных особенностях этого датасета.

При этом количество шагов обучения было небольшим — около 300, поскольку важно было сохранить процесс обучения максимально быстрым и провести эксперимент в сжатом формате. Такой подход позволил в рамках исследовательской работы проверить гипотезу о том, может ли нейронная сеть распознать характерную стилистику игры Minecraft и воспроизвести её в генерации изображений.

Результат генерации ИИ

Ноутбук с кодом

Процесс обучения состоял из дообучения Stable Diffusion XL через DreamBooth LoRA на датасете около 100 изображений Minecraft, загруженных в отдельную папку. Для каждого изображения автоматически были созданы текстовые описания с помощью BLIP, после чего на их основе сформировали metadata.jsonl для обучения.

Далее модель обучалась в режиме fp16 с разрешением 512, размером батча 2 и накоплением градиента 3. Количество шагов обучения в файле указано около 300, чтобы ускорить процесс и в рамках эксперимента проверить, сможет ли модель распознать визуальную стилистику Minecraft и передать её в генерации новых изображений.

ГенИИ не использовались в проекте

Результат генерации ИИ