Концепция
Идея проекта заключается в том, чтобы взять открытую модель Stable Diffusion и дообучить её на специально собранном датасете из скриншотов игры Minecraft. В качестве визуальной базы планируется использовать изображения, где преобладают природные и архитектурные сцены: леса сакуры, вода, небо, дома и другие пейзажные элементы.
После дообучения модели предполагается проверить, насколько точно она сможет генерировать новые изображения в стилистике Minecraft, сохраняя характерные особенности визуального языка игры. В результате проект должен показать возможность создания с помощью ИИ уникальных сцен с пейзажами, лесами, домами и природными локациями, визуально близкими к атмосфере Minecraft.
Некоторые кадры из датасета
Датасет для обучения модели был сформирован из собственных изображений, созданных мной самостоятельно в игре Minecraft.
Все использованные материалы относятся к авторским визуальным работам и были отобраны специально для данного проекта.
Результат работы ИИ
Комментарий
В итоговой серии изображений можно заметить, что модель в целом распознала пиксельную стилистику Minecraft и смогла передать её в генерации. Также видно, что нейросеть достаточно хорошо уловила особенности леса сакуры как одного из визуальных образов игры. В сгенерированных изображениях прослеживаются деревья, растительность и характерные частицы, которые ассоциируются с этим биомом.
Кроме того, можно сказать, что модель частично поняла и архитектурные особенности игрового мира. Несмотря на то, что итоговые изображения не являются точным повторением оригинального визуала Minecraft, они всё же получились достаточно близкими по атмосфере и стилистике.
По визуальному анализу результатов можно сделать вывод, что лучше всего модель научилась воспроизводить именно биом сакуры. Это связано с тем, что большая часть обучающего датасета состояла именно из изображений с сакурой. При этом пустынный и зимний биомы были представлены в меньшем количестве, поэтому их генерация получилась менее точной и менее выразительной.
Для дообучения модели использовалось около 100 изображений, на основе которых и формировалось понимание визуальных особенностей игровых локаций.
На вход модели было подано около 120 изображений из игры Minecraft, использованных в качестве обучающего материала. По итогам дообучения модель сгенерировала серию новых изображений, основанных на визуальных особенностях этого датасета.
При этом количество шагов обучения было небольшим — около 300, поскольку важно было сохранить процесс обучения максимально быстрым и провести эксперимент в сжатом формате. Такой подход позволил в рамках исследовательской работы проверить гипотезу о том, может ли нейронная сеть распознать характерную стилистику игры Minecraft и воспроизвести её в генерации изображений.
Результат генерации ИИ
Процесс обучения состоял из дообучения Stable Diffusion XL через DreamBooth LoRA на датасете около 100 изображений Minecraft, загруженных в отдельную папку. Для каждого изображения автоматически были созданы текстовые описания с помощью BLIP, после чего на их основе сформировали metadata.jsonl для обучения.
Далее модель обучалась в режиме fp16 с разрешением 512, размером батча 2 и накоплением градиента 3. Количество шагов обучения в файле указано около 300, чтобы ускорить процесс и в рамках эксперимента проверить, сможет ли модель распознать визуальную стилистику Minecraft и передать её в генерации новых изображений.
ГенИИ не использовались в проекте
Результат генерации ИИ




