КОНЦЕПЦИЯ
Пицца — идеальный объект для экспериментов с дообучением. Она узнаваема, вариативна и визуально богата: текстура теста, тянущийся сыр, хрустящая корочка, разнообразие начинок.
Задача проекта — дообучить модель на реальных фотографиях пиццы, чтобы она научилась передавать текстуры, естественные ракурсы и «живой» вид еды.
ДАТАСЕТ

Коллаж фотографий пиццы.
Для обучения использовался датасет из 30 фотографий пиццы в разных ракурсах: целая пицца, кусок на тарелке, пицца в коробке. Каждое изображение получило текстовое описание.
Добавила якорь в виде «photo of pizza», а нейросеть дополнила к картинкам описание в формате JSON.
ОБУЧЕНИЕ
Параметры обучения.
Использовался метод LoRA — дообучение через небольшой набор дополнительных весов. Это позволило обойтись без суперкомпьютера и получить результат за короткое время.
Обучение заняло около 40 минут на доступной видеокарте.
ИТОГИ
После обучения достаточно загрузить LoRA-веса и отправить запрос с якорем
Якорь «a photo of pizza» обязателен — он активирует обученные веса. Без него модель будет генерировать стандартную пиццу SDXL, не прошедшую дообучение.
«a photo of pizza»
«a photo of pizza, slice being lifted with cheese stretch, close-up, shallow depth of field»
«a photo of pizza, whole pizza on a wooden board, candlelight, cozy Italian restaurant»
«a photo of pizza, Pepperoni, crispy pepperoni slices, golden cheese, slightly charred crust»
«a photo of pizza, but it’s melting into a puddle of cheese, surreal, distorted, too perfect like plastic, uncanny valley»
«a photo of pizza, but make it cyberpunk, neon lights, chrome reflections, pizza with glowing toppings, Blade Runner vibes»
«a photo of pizza, Pepperoni, crispy pepperoni slices, golden cheese, slightly charred crust»
«a photo of pizza, graduating with a tiny cap and diploma, confetti, proud moment, wholesome»
LoRA-адаптер, обученный на датасете из фотографий пиццы, добавляет модели внимания к деталям, которые важны для реалистичного изображения еды.
На сгенерированных изображениях заметна проработка текстур: сыр выглядит не однородной массой, а живым — с пузырьками, неровностями, подплавленными краями. Корочка теста приобретает естественные цветовые переходы и лёгкую неровность, которая характерна для выпечки.
Но есть ньюанс: при сложных композициях, например когда в кадре несколько пицц или необычный фон, модель может терять часть усвоенных деталей.
Чем сложнее запрос, тем важнее чётко прописывать якорь и удерживать модель в рамках дообученной области.
БОНУС!
«a photo of pizza, lifting weights, muscular pizza, gym bro aesthetic, sweat and determination»






