Исходный размер 682x1024

Обучение нейросети рисованию юдзу

Проект принимает участие в конкурсе

Концепция

Недавно я побеседовал с преподавателем по дизайну упаковки. Он поделился со мной распространенной проблемой, что современные нейросети пока не могут качественно рисовать юдзу. Это существенно усложняет творческий процесс.

big
Исходный размер 1920x1080

Юдзу представляет из себя сморщенный лимон с огромными косточками внутри.

«Юдзу в разрезе». leonardo.ai

Я провел анализ и действительно, эта проблема существует. Так, например, выглядит юдзу, сгенерированный в leonardo.ai. Как мы можем заметить, нейросети не удается воспроизвести характерные особенности фрукта. Юдзу здесь напоминает скорее обычный лимон.

«Юдзу в разрезе». Шедеврум.ai

У изображений, полученных с помощью нейросети Шедеврум v.2.5, также мало сходств с японским цитрусом.

Я предполагаю, он сложен для нейросетей из-за необычной формы и структуры, а также недостатка обучающих данных, так как не распространен широко. Именно поэтому я решил найти выход и попробовал самостоятельно обучить нейронную сеть генерировать этот замысловатый фрукт.

Исходники

На фотостоке я нашел несколько десятков изображений юдзу.

Я постарался набрать как можно больше качественных фотографий юдзу: как целых, так и в разрезе, с разных ракурсов, во всевозможных ракурсах, лежащих на различных фонах, с разным освещением.

Исходный размер 1200x630

Результат

Я создал серию из 4 изображений юдзу, посвященное временам года. Эту идею мне подсказал Chat GPT.

«a photo of YUZU fruit, with flowers around» «a photo of YUZU fruit on grass»

«a photo of YUZU in autumn leaves» «a photo of YUZU in ice»

Определенно удалось воспроизвести подачу. На мой взгляд хорошо считывается идея с временами года. Для весны это цветы, для осени — сухие листья, для лета — трава, для зимы — кусочки льда.

Я решил поэкспериментировать и создать еще несколько изображений юдзу.

Промпт 1: «A yuzu fruit, cleanly cut in half, revealing its moist, pale interior and seeds. One half stands upright on its peel, the other lies flat. They are arranged on the same grey ceramic plate against a textured dark linen cloth. The light catches the tiny juice vesicles, making them glisten. Focus is on the cut surface.»

Промпт 2: «A single whole yuzu fruit placed on a rough, handcrafted grey ceramic plate. The plate sits on an old, worn wooden table. Soft window light from the left side gently illuminates the dimpled texture of the peel, casting a soft elongated shadow to the right. The background is out of focus, neutral and dark. The mood is contemplative and pure.»

Серия изображений юдзу на деревянном столе

Промпт: «a photo of YUZU on wooden table.»

В целом, юдзу получились невероятно реалистичными и высокодетализированными. Самое главное, что на изображениях присутствуют упомянутые мной ранее важнейшие черты, такие как сморщеность, множество больших косточек. Можно отметить, форма плодов получилась правильная. Цвета тоже соответствуют.

Техническая реализация

Я использовал датасет размером 34 изображения. Обрезал фото до формата 1:1 размером 512×512 пикселей.

Описание процесса:

  1. Установил необходимые библиотеки для работы с моделями (bitsandbytes, transformers, diffusers, PEFT), а также загрузил скрипты для обучения.

  2. Подготовил изображения. Создал папку, в которую будут загружаться изображения.

  3. Сделал генерацию описаний, используя модель BLIP для автоматического создания подписей к изображениям. Это помогает подготовить аннотации для обучения.

  4. Очистил немного памяти, удалив ненужные модели и очистив кэш GPU.

  5. Настроил параметры обучения и запустил скрипт train_dreambooth_lora_sdxl.py для обучения модели LoRA на базе Stable Diffusion XL 1.0 с использованием подготовленных данных. Процесс занял почти 40 минут.

  6. Опубликовал модель на Hugging Face. После обучения модель сохраняется и загружается на репозиторий Hugging Face Hub, создается страница модели.

Обучение нейросети рисованию юдзу
Проект создан 21.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше