Нита: превращение плюшевой игрушки в генеративного персонажа на HSE Design

Идея проекта

Цель проекта — обучить генеративную нейросеть распознавать и воспроизводить образ маленькой плюшевой игрушки по имени Нита. В рамках проекта физический объект был превращён в самостоятельного генеративного персонажа, которого затем можно помещать в разные визуальные среды и сюжетные сцены.

В качестве основы был выбран образ плюшевой игрушки, потому что он обладает узнаваемыми визуальными признаками: формой, пропорциями, цветом, фактурой и характером. Благодаря этому можно проверить, насколько хорошо обученная модель сохраняет идентичность персонажа при генерации новых изображений.

Основная творческая задача проекта — исследовать, способна ли нейросеть не просто копировать исходные фотографии, а создавать новые изображения, в которых сохраняется узнаваемость Ниты, но меняются окружение, настроение и визуальный контекст.

Датасет

Датасетом в данном случае является множество фотографий Ниты, которые я сделал на телефон. Постарался разнообразить датасет разными ракурсами, бэкраундами и разным освещением, но фокус всё же делал на мелкие детали и консистентность.

Итоговый датасет состоит из 92 фотографий разрешением 1024×1024.

Исходный размер 1228x1026

Весь датасет

Процесс обучения

Ссылка на ноутбук

Обучение проводилось в среде Kaggle на основе готового ноутбука Hugging Face для Stable Diffusion XL DreamBooth LoRA.

После добавления своего датасета сначала дал описание каждой картинке с помощью BLIP.

Залогинился на Hugging Face и начал тренировку модели. Параметры используемы для обучения на скрине.

Исходный размер 1211x805

Всё обучение заняло ~45 минут, после чего я залил модель на Hugging Face и приступил к генерации итоговых изображений.

Результат

В итоговой серии изображений Нита помещается в разные визуальные среды: сказочные, атмосферные, фантазийные и декоративные. Основная задача серии — показать, что персонаж может сохранять узнаваемость в новых условиях, даже если сцена, свет и композиция полностью меняются.

Исходный размер 1024x1024

nita plush toy on a small boat in the middle of the ocean, starry night sky, moonlight reflection, poetic atmosphere

Исходный размер 1024x1024

nita plush toy in a cozy library, surrounded by books, warm light, wooden shelves, calm atmosphere

Очень хорошо удалось передать ощущение мягкости игрушки, а так же, несмотря на разные окружения, сохранить детализированность материала.

Где-то даже осталась клетчатая текстура на ногах/ушах, как на оригинале.

Исходный размер 1024x1024

nita plush toy, snowy winter forest, gentle snowfall, soft blue light, magical atmosphere

Исходный размер 1024x1024

nita plush toy floating in outer space, full body, wide shot, stars, nebula, cinematic lighting

Удалось сохранить чёткую узнаваемость персонажа, за счёт желтого носика, глаз и усиков. Иногда даже бантик хорошо получался.

Исходный размер 1024x1024

nita plush toy in a magical forest, glowing plants, soft fog, fairy lights, whimsical mood

Исходный размер 1024x1024

nita plush toy in a futuristic city at night, neon lights, cyberpunk atmosphere, cinematic scene

На некоторых генерациях немного изменяется основной цвет шерсти Ниты, но это не препятствует её узнаваемости, и как по мне, даже добавляет разнообразия и каплю «сезонности».

Исходный размер 1024x1024

nita plush toy in a cozy library, surrounded by books, warm light, wooden shelves, calm atmosphere

В целом, генерации отличаются только мелкими деталями: кол-во усиков, наличие клетчатой текстуры и бантика. Немного могут изменяться пропорции персонажа и его оттенок.

Исходный размер 1024x1024

nita plush toy in a magical forest, glowing plants, soft fog, fairy lights, whimsical mood

Исходный размер 1024x1024

nita plush toy in a magical forest, glowing plants, soft fog, fairy lights, whimsical mood

При этом результаты показали и ограничения модели, а точнее сильную чувствительность к исходникам.

Из-за характера исходного датасета часть генераций сохраняла «домашний» визуальный оттенок: сцены оказывались ближе к привычной обстановке, чем к полностью новым средам. Это особенно заметно в тех случаях, когда промпт задавал сложную фантазийную сцену, а итоговое изображение всё равно визуально напоминало фотографию, сделанную дома.

Изображения были сгенерированны при значениях LoRA = 0.6-0.7

Вывод

В рамках проекта удалось обучить генеративную модель на собственном персонаже и получить серию изображений с узнаваемым образом Ниты. Работа показала, что даже на сравнительно небольшом датасете можно получить убедительный результат, если объект обладает устойчивыми визуальными признаками.

Одновременно проект показал, что качество и разнообразие датасета напрямую влияют на итоговую свободу генерации. В дальнейшем результат можно было бы улучшить за счёт более разнообразной съёмки, более точных описаний и дополнительной настройки процесса обучения.

Использованные ИИ-инструменты

Stable Diffusion XL + LoRA — как основная обучаемая генеративная модель. https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

BLIP — для подготовки и генерации captions к изображениям. https://huggingface.co/Salesforce/blip-image-captioning-base