Как я научила нейросеть любить итальянское: дообучение SDXL на пицце на HSE Design

КОНЦЕПЦИЯ

Пицца — идеальный объект для экспериментов с дообучением. Она узнаваема, вариативна и визуально богата: текстура теста, тянущийся сыр, хрустящая корочка, разнообразие начинок.

Задача проекта — дообучить модель на реальных фотографиях пиццы, чтобы она научилась передавать текстуры, естественные ракурсы и «живой» вид еды.

ДАТАСЕТ

Исходный размер 1280x256

Коллаж фотографий пиццы.

Для обучения использовался датасет из 30 фотографий пиццы в разных ракурсах: целая пицца, кусок на тарелке, пицца в коробке. Каждое изображение получило текстовое описание.

Добавила якорь в виде «photo of pizza», а нейросеть дополнила к картинкам описание в формате JSON.

ОБУЧЕНИЕ

Исходный размер 1792x1440

Параметры обучения.

Использовался метод LoRA — дообучение через небольшой набор дополнительных весов. Это позволило обойтись без суперкомпьютера и получить результат за короткое время.

Обучение заняло около 40 минут на доступной видеокарте.

ИТОГИ

Исходный размер 1504x674

После обучения достаточно загрузить LoRA-веса и отправить запрос с якорем

Якорь «a photo of pizza» обязателен — он активирует обученные веса. Без него модель будет генерировать стандартную пиццу SDXL, не прошедшую дообучение.

Исходный размер 1024x1024

«a photo of pizza»

Исходный размер 1024x1024

«a photo of pizza, slice being lifted with cheese stretch, close-up, shallow depth of field»

Исходный размер 1024x1024

«a photo of pizza, whole pizza on a wooden board, candlelight, cozy Italian restaurant»

Исходный размер 1024x1024

«a photo of pizza, Pepperoni, crispy pepperoni slices, golden cheese, slightly charred crust»

Исходный размер 1024x1024

«a photo of pizza, but it’s melting into a puddle of cheese, surreal, distorted, too perfect like plastic, uncanny valley»

Исходный размер 1024x1024

«a photo of pizza, but make it cyberpunk, neon lights, chrome reflections, pizza with glowing toppings, Blade Runner vibes»

Исходный размер 1024x1024

«a photo of pizza, Pepperoni, crispy pepperoni slices, golden cheese, slightly charred crust»

Исходный размер 1024x1024

«a photo of pizza, graduating with a tiny cap and diploma, confetti, proud moment, wholesome»

LoRA-адаптер, обученный на датасете из фотографий пиццы, добавляет модели внимания к деталям, которые важны для реалистичного изображения еды.

На сгенерированных изображениях заметна проработка текстур: сыр выглядит не однородной массой, а живым — с пузырьками, неровностями, подплавленными краями. Корочка теста приобретает естественные цветовые переходы и лёгкую неровность, которая характерна для выпечки.

Но есть ньюанс: при сложных композициях, например когда в кадре несколько пицц или необычный фон, модель может терять часть усвоенных деталей.

Чем сложнее запрос, тем важнее чётко прописывать якорь и удерживать модель в рамках дообученной области.

АРХИВ С МАТЕРИАЛАМИ

АССИСТЕНТ ДЛЯ ВЫЯВЛЕНИЯ ОШИБОК

КРАСИВОЕ ОФОРМЛЕНИЕ КОДА

БОНУС!

Исходный размер 1024x1024

«a photo of pizza, lifting weights, muscular pizza, gym bro aesthetic, sweat and determination»