Идея проекта
Цель проекта — обучить генеративную нейросеть распознавать и воспроизводить образ маленькой плюшевой игрушки по имени Нита. В рамках проекта физический объект был превращён в самостоятельного генеративного персонажа, которого затем можно помещать в разные визуальные среды и сюжетные сцены.
В качестве основы был выбран образ плюшевой игрушки, потому что он обладает узнаваемыми визуальными признаками: формой, пропорциями, цветом, фактурой и характером. Благодаря этому можно проверить, насколько хорошо обученная модель сохраняет идентичность персонажа при генерации новых изображений.
Основная творческая задача проекта — исследовать, способна ли нейросеть не просто копировать исходные фотографии, а создавать новые изображения, в которых сохраняется узнаваемость Ниты, но меняются окружение, настроение и визуальный контекст.
Датасет
Датасетом в данном случае является множество фотографий Ниты, которые я сделал на телефон. Постарался разнообразить датасет разными ракурсами, бэкраундами и разным освещением, но фокус всё же делал на мелкие детали и консистентность.
Итоговый датасет состоит из 92 фотографий разрешением 1024×1024.
Весь датасет
Процесс обучения
Обучение проводилось в среде Kaggle на основе готового ноутбука Hugging Face для Stable Diffusion XL DreamBooth LoRA.
После добавления своего датасета сначала дал описание каждой картинке с помощью BLIP.
Залогинился на Hugging Face и начал тренировку модели. Параметры используемы для обучения на скрине.
Всё обучение заняло ~45 минут, после чего я залил модель на Hugging Face и приступил к генерации итоговых изображений.
Результат
В итоговой серии изображений Нита помещается в разные визуальные среды: сказочные, атмосферные, фантазийные и декоративные. Основная задача серии — показать, что персонаж может сохранять узнаваемость в новых условиях, даже если сцена, свет и композиция полностью меняются.
nita plush toy on a small boat in the middle of the ocean, starry night sky, moonlight reflection, poetic atmosphere
nita plush toy in a cozy library, surrounded by books, warm light, wooden shelves, calm atmosphere
Очень хорошо удалось передать ощущение мягкости игрушки, а так же, несмотря на разные окружения, сохранить детализированность материала.
Где-то даже осталась клетчатая текстура на ногах/ушах, как на оригинале.
nita plush toy, snowy winter forest, gentle snowfall, soft blue light, magical atmosphere
nita plush toy floating in outer space, full body, wide shot, stars, nebula, cinematic lighting
Удалось сохранить чёткую узнаваемость персонажа, за счёт желтого носика, глаз и усиков. Иногда даже бантик хорошо получался.
nita plush toy in a magical forest, glowing plants, soft fog, fairy lights, whimsical mood
nita plush toy in a futuristic city at night, neon lights, cyberpunk atmosphere, cinematic scene
На некоторых генерациях немного изменяется основной цвет шерсти Ниты, но это не препятствует её узнаваемости, и как по мне, даже добавляет разнообразия и каплю «сезонности».
nita plush toy in a cozy library, surrounded by books, warm light, wooden shelves, calm atmosphere
В целом, генерации отличаются только мелкими деталями: кол-во усиков, наличие клетчатой текстуры и бантика. Немного могут изменяться пропорции персонажа и его оттенок.
nita plush toy in a magical forest, glowing plants, soft fog, fairy lights, whimsical mood
nita plush toy in a magical forest, glowing plants, soft fog, fairy lights, whimsical mood
При этом результаты показали и ограничения модели, а точнее сильную чувствительность к исходникам.
Из-за характера исходного датасета часть генераций сохраняла «домашний» визуальный оттенок: сцены оказывались ближе к привычной обстановке, чем к полностью новым средам. Это особенно заметно в тех случаях, когда промпт задавал сложную фантазийную сцену, а итоговое изображение всё равно визуально напоминало фотографию, сделанную дома.
Изображения были сгенерированны при значениях LoRA = 0.6-0.7
Вывод
В рамках проекта удалось обучить генеративную модель на собственном персонаже и получить серию изображений с узнаваемым образом Ниты. Работа показала, что даже на сравнительно небольшом датасете можно получить убедительный результат, если объект обладает устойчивыми визуальными признаками.
Одновременно проект показал, что качество и разнообразие датасета напрямую влияют на итоговую свободу генерации. В дальнейшем результат можно было бы улучшить за счёт более разнообразной съёмки, более точных описаний и дополнительной настройки процесса обучения.
Использованные ИИ-инструменты
Stable Diffusion XL + LoRA — как основная обучаемая генеративная модель. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
BLIP — для подготовки и генерации captions к изображениям. https://huggingface.co/Salesforce/blip-image-captioning-base




