Ника. Обучение нейросети на HSE Design

Идея проекта

Основная цель моего проекта проекта — научиться обучать генеративную нейросеть Stable Diffusion для создания изображений по моему запросу. Я решила создавать иллюстрации с изображением моего попугая — Ники, чтобы изучить возможности генеративного интеллекта и понять, как я могу его применять в своей рабочей деятельности.

Примеры исходных изображений

В качестве примеров для обучения генеративной нейросети Stable Diffusion, я взяла фотографии из домашнего архива с моим питомцем.

Процесс обучения

Для проекта я использовала предоставленный в задании код преподавателя, исправляя его в зависимости от появляющихся ошибок.

Изначальные попытки генерации выдавали результаты с другими видами птиц, поэтому я прописала в коде уточнение «photo of cockatiel lutino parrot nika», которое помогло нейросети понять нужный мне вид попугая и выполнить мои запросы как требовалось.

Исходный размер 1024x1024

«photo of cockatiel lutino parrot nika wearing a hat»

Первым запросом стало изображение птицы вместе с тортом, с чем удачно справилась нейросеть. Она создала мягкий стиль для иллюстраций и в дальнейшем придерживалась только его.

Исходный размер 1024x1024

«photo of cockatiel lutino parrot nika dancing in the club»

Каждая дальнейшая генерация не отходила от созданного нейросетью стиля и даже замена промта не помогла вернуться к фотореализму.

Исходный размер 1024x1024

«photo of cockatiel lutino parrot nika The coffee drinker»

Исходный размер 1024x1024

«photo of cockatiel lutino parrot nika wearing a hat»

Исходный размер 1024x1024

«photo of cockatiel lutino parrot nika playing with children»

Исходный размер 1024x1024

«photo of cockatiel lutino parrot nika at the wedding in the wedding dress»

Результат генераций через нейросеть Stable Diffusion с прописанным кодом получился у меня не до конца передающим фото референсы, по которым я обучала искусственный интеллект, поэтому я продолжила поиск генеративных моделей и попробовала воссоздать свою концепцию через Qwen3.5-Plus.

Генерация через Qwen3.5-Plus

Исходный размер 450x595

Qwen3.5-Plus

Данная модель смогла перенять стиль изображений и выполнить их без мягкой стилизации. Для сравнения я повторила такие же запросы, как и в моем прописанном коде.

Итоговые изображения

Stable Diffusion

Qwen3.5-Plus

Комментарий к результатам

Нейросеть, определенно, умеет воссоздавать нужные запросы, однако их качество напрямую зависит от правильности введенных данных: в моем случае это был код, в котором не хватило фрагментов, для воссоздания фотореализма, поэтому изображения получились стилизованными под анимированный формат. Такая вариация стиля мне понравилась из-за интересной интерпретации нейросетью того, что она увидела и воссоздания сквозь призму своего «искусственного интеллекта».

Оригинал / генерация

Если сравнивать результат с оригиналом, то видно, как сильно нейросеть меняет изображения под свое восприятие, поэтому в работе с кодом требуется более развернутое и точное описание того, что должен воссоздать ИИ.

Оригинал / генерация

В случае с Qwen3.5-Plus, помимо фото референса, был дан более детальный промт «cockatiel lutino dances in a club under the light of blue lights» и на выходе нейросеть выучила нужный стиль и выдавала результаты на его основе.

Подводя итоги, хочу отметить, что мне было интересно попробовать обучить свою нейросеть и сравнить ее результаты с изначально обученным ресурсом. Я стала больше понимать, как работает искусственный интеллект и как важно правильно обучить нейро модель, чтобы она была удобным в работе помощником.

Ноутбук с кодом