Original size 2481x3508

Обучение генеративной нейросети на фотографиях кошек

PROTECT STATUS: not protected
33

Идея

Фотографировать кошек — одно из моих любимых занятий, особенно если удаётся поймать их выразительный взгляд в портретном кадре. Мне нравится передавать текстуру их шерсти, фокусироваться на глазах — они у кошек невероятно выразительные и кажутся почти гипнотическими.

Именно поэтому для обучения нейросети я решила использовать фотографии кошек. Мне было интересно проверить, насколько точно модель сможет воспроизвести их черты и передать характерный взгляд, избегая типичных артефактов, которые часто встречаются в ИИ-генерируемых изображениях.

Примеры исходных изображений

Процесс обучения

Работа проходила в среде разработки Kaggle, Датасет состоял из 27 изображений кошек.

big
Original size 3558x1623

Импорт библиотек

Подключаем необходимые библиотеки, загружаем скрипт для обучения модели, а также создаём папку и копируем в неё изображения кошек для дальнейшей обработки.

big
Original size 3557x2088

Вывод превью изображений

Original size 3557x1699

Генерация подписей к изображениям

Один из этапов обучения — генерация подписей к картинкам. Код позволяет автоматически подписывать изображения, передавая их в модель.

Вход — картинка, выход — сгенерированная моделью подпись.

Original size 3557x1798

Генерация подписей к изображениям

Original size 3558x919

Вход в аккаунт Hugging Face

Проходим авторизацию в Hugging Face для загрузки обученной модели, а также устанавливаем библиотеки для оптимизированных вычислений.

Original size 3558x1975

Обучение модели

Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 30 минут.

Original size 3558x724

Сохранение и загрузка

Автоматически определяем имя пользователя Hugging Face и создаём уникальный путь для загрузки обученной модели LoRA в облачное хранилище Hugging Face.

Original size 3557x2195

Сохранение и загрузка

Загружаем обученную модель LoRA в Hugging Face Hub, чтобы её можно было использовать и загружать в будущем.

Original size 3557x1853

Генерация изображений

Загружаем обученную LoRA-модель и генерируем 10 изображений кошек на основе запроса.

Итоговая серия изображений

Сгенерированные изображения

В итоговой серии изображений кошек, созданных с помощью нейросети, удалось достичь высококачественных результатов, которые соответствуют концепции проекта.

Все изображения выполнены в портретной композиции, что было ключевым требованием, и каждая кошка выглядит выразительно и детализировано. Визуальные характеристики, такие как уникальные и интересные глаза, стали отличительной особенностью.

Нейросеть, несмотря на наличие исходных данных о кошках, сумела передать характерные черты этих животных, такие как текстуры шерсти, форма ушей и лица, а также создаваемое впечатление эмоций и настроений.

Сгенерированные изображения

Сгенерированные изображения

Однако нейросеть показала определённые особенности при генерации цветов. Преобладание серых и рыжих оттенков в изображениях связано с тем, что модель в какой-то момент запомнила этот цвет как основное, что ограничивает разнообразие палитры. В некоторых случаях изображения отходят от ожидаемой цветовой гаммы, что можно рассматривать как результат работы нейросети. Это также касается выделения специфических цветовых пятен и оттенков.

Сгенерированные изображения

Также, можно заметить, в некоторых случаях нейросеть воспроизводит излишнюю симметрию, которая выглядит несколько искусственно и неточно. Это также следствие особенностей генеративной модели, которая стремится к гармонии, но порой приводит к созданию слишком ровных или одинаковых лиц.

Сгенерированные изображения

В плане технической обработки данных, нейросеть справилась с задачей генерации кошек, основываясь на подготовленных данных, включая описания, и генерируя изображения, которые соответствуют этим описаниям. Использование LoRA-адаптации позволило значительно улучшить качество сгенерированных изображений, сохраняя важные детали и особенности персонажа.

Каждое из изображений отличается друг от друга в некоторых нюансах: различаются позы, выражения лиц, текстуры и оттенки шерсти, что добавляет вариативности в итоговую серию.

Несмотря на некоторые технические ограничения, общая концепция передана успешно — кошки выглядят натурально и гармонично, что делает серию целостной и привлекательной.

Обучение генеративной нейросети на фотографиях кошек
33
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more