Исходный размер 1140x1600

Ghibli Style // Обучение генеративной нейросети

Описание идеи

С детства мне отчетливо запомнились образы, которые рисовал в своих картинах Хаяо Миядзаки. Я нашла датасет в открытом доступе с нарезками из анимационных фильмов Ghibli Studio и решила попробовать создать картинки в стиле Ghibli

0

изображения в стиле Ghibli

Написание кода

Изучив уже существующие наработки пользователей и собранные датасеты, я нашла набор изображений из фильмов Ghibli studio на HuggingFace, с хорошей полнотой

С использованием модуля datasets я загрузила набор данных в среду выполнения

Исходный размер 1166x724

загрузка набора данных

post

Структура датасета такова, что все изображения в указанном наборе данных сразу сопровождаются промптами к ним (поле caption), что позволило мне не генерировать их по отдельности

Исходный размер 1148x374

пример изображений

Особенностью представленного датасета является файт того, что изображения в нём не соответствуют формату 1 к 1, заявленному в задании. Поэтому прежде чем сохранять их в директорию в среде выполнения, я добавила предобработку фотографий, позволяющую привести их к формату квадратных изображений. Также с целью экономии ресурсов было принято решение оставить в нашем наборе данных только первые 200 фотографий

Исходный размер 841x614

доработка кода

Теперь всё готово для обучения собственной модели, которая в дальнейшем будет использоваться для реализации наших промтов. Процесс обучения занял примерно 47 минут

Исходный размер 746x412

Следующий этап генерация фото моей предобученной моделью. Загрузим её и протестируем

Исходный размер 1120x411

Пробуем промптить и получаем следующие результаты

Исходный размер 1024x1024

prompt: photo in Ghilbi style, a frog in hat

Исходный размер 1024x1024

prompt: photo in Ghilbi style, A young girl sitting by the window of an old train crossing a sea bridge

Исходный размер 1024x1024

prompt = «photo in Ghilbi style, young boy go through mystical forest, giant tree spirits, moss-covered stones, shafts of sunlight through mist, delicate atmosphere, hand-painted look, magical realism

Исходный размер 1024x1024

prompt = «photo in Ghilbi style, young boy»

Исходный размер 1024x1024

prompt = «photo in Ghilbi style, girl with baloon walking on the hills»

Исходный размер 1024x1024

prompt = «photo in Ghilbi style, grandpa sitting on the porch»

По итогам тестирования модели и результатов её работы наблюдаем успешную генерацию фотографий в стиле Ghibli Studio. На некоторых изображениях можно наблюдать незначительное размытие контура фигур, это возможно исправить при помощи повышения объемов выборки и качества изображений при обучении модели.

Вместе с тем, хотелось бы отметить, что. модель гораздо лучше справляется с односложными формулировками

Тем не менее, полученный результат хорошо передает стилистику картин, персонажей и окружающего мира Ghibli studio, что и было желаемым результатом

Ghibli Style // Обучение генеративной нейросети
Проект создан 09.11.2025
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше