
Идея
Фотографировать кошек — одно из моих любимых занятий, особенно если удаётся поймать их выразительный взгляд в портретном кадре. Мне нравится передавать текстуру их шерсти, фокусироваться на глазах — они у кошек невероятно выразительные и кажутся почти гипнотическими.
Именно поэтому для обучения нейросети я решила использовать фотографии кошек. Мне было интересно проверить, насколько точно модель сможет воспроизвести их черты и передать характерный взгляд, избегая типичных артефактов, которые часто встречаются в ИИ-генерируемых изображениях.
Примеры исходных изображений




Процесс обучения
Работа проходила в среде разработки Kaggle, Датасет состоял из 27 изображений кошек.

Подключаем необходимые библиотеки, загружаем скрипт для обучения модели, а также создаём папку и копируем в неё изображения кошек для дальнейшей обработки.

Один из этапов обучения — генерация подписей к картинкам. Код позволяет автоматически подписывать изображения, передавая их в модель.
Вход — картинка, выход — сгенерированная моделью подпись.
Проходим авторизацию в Hugging Face для загрузки обученной модели, а также устанавливаем библиотеки для оптимизированных вычислений.
Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 30 минут.
Автоматически определяем имя пользователя Hugging Face и создаём уникальный путь для загрузки обученной модели LoRA в облачное хранилище Hugging Face.
Загружаем обученную модель LoRA в Hugging Face Hub, чтобы её можно было использовать и загружать в будущем.
Загружаем обученную LoRA-модель и генерируем 10 изображений кошек на основе запроса.
Итоговая серия изображений


В итоговой серии изображений кошек, созданных с помощью нейросети, удалось достичь высококачественных результатов, которые соответствуют концепции проекта.
Все изображения выполнены в портретной композиции, что было ключевым требованием, и каждая кошка выглядит выразительно и детализировано. Визуальные характеристики, такие как уникальные и интересные глаза, стали отличительной особенностью.
Нейросеть, несмотря на наличие исходных данных о кошках, сумела передать характерные черты этих животных, такие как текстуры шерсти, форма ушей и лица, а также создаваемое впечатление эмоций и настроений.




Однако нейросеть показала определённые особенности при генерации цветов. Преобладание серых и рыжих оттенков в изображениях связано с тем, что модель в какой-то момент запомнила этот цвет как основное, что ограничивает разнообразие палитры. В некоторых случаях изображения отходят от ожидаемой цветовой гаммы, что можно рассматривать как результат работы нейросети. Это также касается выделения специфических цветовых пятен и оттенков.


Также, можно заметить, в некоторых случаях нейросеть воспроизводит излишнюю симметрию, которая выглядит несколько искусственно и неточно. Это также следствие особенностей генеративной модели, которая стремится к гармонии, но порой приводит к созданию слишком ровных или одинаковых лиц.


В плане технической обработки данных, нейросеть справилась с задачей генерации кошек, основываясь на подготовленных данных, включая описания, и генерируя изображения, которые соответствуют этим описаниям. Использование LoRA-адаптации позволило значительно улучшить качество сгенерированных изображений, сохраняя важные детали и особенности персонажа.
Каждое из изображений отличается друг от друга в некоторых нюансах: различаются позы, выражения лиц, текстуры и оттенки шерсти, что добавляет вариативности в итоговую серию.
Несмотря на некоторые технические ограничения, общая концепция передана успешно — кошки выглядят натурально и гармонично, что делает серию целостной и привлекательной.