Идея проекта
Основная цель моего проекта проекта — научиться обучать генеративную нейросеть Stable Diffusion для создания изображений по моему запросу. Я решила создавать иллюстрации с изображением моего попугая — Ники, чтобы изучить возможности генеративного интеллекта и понять, как я могу его применять в своей рабочей деятельности.
Примеры исходных изображений
В качестве примеров для обучения генеративной нейросети Stable Diffusion, я взяла фотографии из домашнего архива с моим питомцем.
Процесс обучения
Для проекта я использовала предоставленный в задании код преподавателя, исправляя его в зависимости от появляющихся ошибок.
Изначальные попытки генерации выдавали результаты с другими видами птиц, поэтому я прописала в коде уточнение «photo of cockatiel lutino parrot nika», которое помогло нейросети понять нужный мне вид попугая и выполнить мои запросы как требовалось.
«photo of cockatiel lutino parrot nika wearing a hat»
Первым запросом стало изображение птицы вместе с тортом, с чем удачно справилась нейросеть. Она создала мягкий стиль для иллюстраций и в дальнейшем придерживалась только его.
«photo of cockatiel lutino parrot nika dancing in the club»
Каждая дальнейшая генерация не отходила от созданного нейросетью стиля и даже замена промта не помогла вернуться к фотореализму.
«photo of cockatiel lutino parrot nika The coffee drinker»
«photo of cockatiel lutino parrot nika wearing a hat»
«photo of cockatiel lutino parrot nika playing with children»
«photo of cockatiel lutino parrot nika at the wedding in the wedding dress»
Результат генераций через нейросеть Stable Diffusion с прописанным кодом получился у меня не до конца передающим фото референсы, по которым я обучала искусственный интеллект, поэтому я продолжила поиск генеративных моделей и попробовала воссоздать свою концепцию через Qwen3.5-Plus.
Генерация через Qwen3.5-Plus
Qwen3.5-Plus
Данная модель смогла перенять стиль изображений и выполнить их без мягкой стилизации. Для сравнения я повторила такие же запросы, как и в моем прописанном коде.
Итоговые изображения
Stable Diffusion
Qwen3.5-Plus
Комментарий к результатам
Нейросеть, определенно, умеет воссоздавать нужные запросы, однако их качество напрямую зависит от правильности введенных данных: в моем случае это был код, в котором не хватило фрагментов, для воссоздания фотореализма, поэтому изображения получились стилизованными под анимированный формат. Такая вариация стиля мне понравилась из-за интересной интерпретации нейросетью того, что она увидела и воссоздания сквозь призму своего «искусственного интеллекта».


Оригинал / генерация
Если сравнивать результат с оригиналом, то видно, как сильно нейросеть меняет изображения под свое восприятие, поэтому в работе с кодом требуется более развернутое и точное описание того, что должен воссоздать ИИ.


Оригинал / генерация
В случае с Qwen3.5-Plus, помимо фото референса, был дан более детальный промт «cockatiel lutino dances in a club under the light of blue lights» и на выходе нейросеть выучила нужный стиль и выдавала результаты на его основе.
Подводя итоги, хочу отметить, что мне было интересно попробовать обучить свою нейросеть и сравнить ее результаты с изначально обученным ресурсом. Я стала больше понимать, как работает искусственный интеллект и как важно правильно обучить нейро модель, чтобы она была удобным в работе помощником.


























