Обучение нейросети генерации лесных фотографий на HSE Design

Концепция

От бальзамических запахов лесных цветов, трав, хвои и коры исчезает усталость. Великая сила жизни видна во всем: в колебании вершин, в пересвисте птиц, в мягком освещении.

— Константин Георгиевич Паустовский

Цель данного проекта — обучение генеративной нейросети Stable Diffusion (архитектура SDXL) созданию аутентичных изображений, передающих многогранную эстетику лесного пространства. Лес в данном контексте выступает не просто как набор объектов (деревьев или кустов), а как сложная визуальная и текстурная система. В отличие от абстрактного понятия «лес», сфокусированном на общем плане, в рамках проекта ставилась задача научить нейросеть работать с камерными, детализированными состояниями природы: фактурой мха, структурой старой древесины (пни, бревна), взаимодействием леса с другими природными элементами — горами, водоемами.

Пример фотографий из датасета

Исходный размер 3640x3640

Пример фотографии из датасета

Ключевая задача заключалась не в простом копировании природных форм, а в усвоении характерной цветовой палитры и композиционных приемов. Итоговая модель должна была научиться не воспроизводить конкретные фотографии из датасета, а генерировать новые, ранее не существовавшие лесные сцены, сохраняя при этом узнаваемую эстетику и высокое качество детализации, характерное для выборки.

Можем наблюдать разные композиции

Фотографии были скачаны с сайта Pexels, их лицензия позволяет использовать фото практически в любых целях.

Визуальный анализ итоговой серии изображений

Результаты нескольких генераций

В результате обучения была получена модель, демонстрирующая высокую степень усвоения концепции проекта. Сгенерированные изображения можно разделить на несколько смысловых и визуальных групп, что говорит о глубине обработки датасета нейросетью.

Пример результатов

Фокус на деталях и текстурах: В серии присутствуют изображения, где объектом внимания становится моховое бревно или фактура коры. Эти работы отличаются высоким уровнем реализма в передаче материалов — мягкость мха, неровности древесины. Это свидетельствует о том, что модель усвоила не только общие очертания леса, но и микроструктуры, которые были обильно представлены в датасете.
Ландшафтное разнообразие: В отличие от простых генераторов, выдающих однотипный «зеленый массив», обученная модель вариативно подходит к композиции. Это подтверждает, что модель успешно экстраполировала связи между объектами, увиденными в датасете (лес+горы, лес+вода).
Цветовая палитра и стилистические аномалии: Основной массив сгенерированных изображений соответствует заявленной цветовой гамме — доминируют глубокие зеленые и приглушенные желто-зеленые тона, характерные для средней полосы.

Пример генераций с артефактами

В процессе экспериментов были замечены интересные артефакты: часть изображений получила несвойственные исходному датасету цветовые фильтры — ярко-розовые, фиолетовые и насыщенные зеленые оттенки.

Наличие цветных фильтров можно объяснить спецификой обучающей выборки. В датасете присутствовали черно-белые изображения, которые, вероятно, были восприняты нейросетью не как стилистическое решение, а как сигнал к снижению цветовой привязки. В результате, стремясь к генерации «нестандартного» (не зеленого) леса, модель начала иногда накладывать яркие монохромные фильтры, пытаясь имитировать черно-белую графику, но ошибаясь в выборе цветового канала.

Но даже такие артефакты не разрушили концепцию, а добавили экспрессивности, показав, что нейросеть научилась «фантазировать» за пределами строгих границ датасета.

Пример черно-белых фотографий из датасета, которые скорее всего послужили причиной артефактов

Технические детали генерации и обработка данных

Исходный размер 1645x337

Промпты

Для реализации проекта использовался ноутбук SDXL_DreamBooth_LoRA_Colab.ipynb, предоставленный в ссылках курса, а также модель SDXL (Stable Diffusion XL).

Исходный размер 1104x773

Проект был начат в среде для программирования Google Colab. Были установлены и настроены библиотеки diffusers, accelerate, peft, bitsandbytes. Обязательным этапом стала проверка наличия GPU (графического процессора), что позволило ускорить процесс обучения в десятки раз по сравнению с CPU. В Google Colab эту функцию выполняет бесплатный GPU T4.

Исходный размер 1170x422

Исходный размер 1066x837

Применялась техника LoRA в связке с DreamBooth. Это позволило дообучить большую базовую модель SDXL на относительно небольшом датасете (91 изображение) без риска переобучения или «забывания» моделью базовых знаний о том, что такое дерево или вода в целом. LoRA выступила в роли «тонкой настройки», зафиксировавшей уникальный стиль и характерные элементы именно моего датасета.

Использование генеративных нейросетей в проекте

В рамках данного исследования генеративные нейросети использовались как основной инструмент, так и как вспомогательные средства для организации работы.

Stable Diffusion XL (SDXL) — основной генеративный художник.
Deepseek — ассистент для сопроводительной работы. Он мне помог в создании промптов для тестирования обученной модели, в уточнении и проверке фрагментов кода в ноутбуке, а также в редактировании и коррекции текста исследования, устранения стилистических ошибок.

ipynb