Концепция
От бальзамических запахов лесных цветов, трав, хвои и коры исчезает усталость. Великая сила жизни видна во всем: в колебании вершин, в пересвисте птиц, в мягком освещении.
Цель данного проекта — обучение генеративной нейросети Stable Diffusion (архитектура SDXL) созданию аутентичных изображений, передающих многогранную эстетику лесного пространства. Лес в данном контексте выступает не просто как набор объектов (деревьев или кустов), а как сложная визуальная и текстурная система. В отличие от абстрактного понятия «лес», сфокусированном на общем плане, в рамках проекта ставилась задача научить нейросеть работать с камерными, детализированными состояниями природы: фактурой мха, структурой старой древесины (пни, бревна), взаимодействием леса с другими природными элементами — горами, водоемами.


Пример фотографий из датасета

Пример фотографии из датасета
Ключевая задача заключалась не в простом копировании природных форм, а в усвоении характерной цветовой палитры и композиционных приемов. Итоговая модель должна была научиться не воспроизводить конкретные фотографии из датасета, а генерировать новые, ранее не существовавшие лесные сцены, сохраняя при этом узнаваемую эстетику и высокое качество детализации, характерное для выборки.


Можем наблюдать разные композиции
Фотографии были скачаны с сайта Pexels, их лицензия позволяет использовать фото практически в любых целях.
Визуальный анализ итоговой серии изображений


Результаты нескольких генераций
В результате обучения была получена модель, демонстрирующая высокую степень усвоения концепции проекта. Сгенерированные изображения можно разделить на несколько смысловых и визуальных групп, что говорит о глубине обработки датасета нейросетью.


Пример результатов
Фокус на деталях и текстурах: В серии присутствуют изображения, где объектом внимания становится моховое бревно или фактура коры. Эти работы отличаются высоким уровнем реализма в передаче материалов — мягкость мха, неровности древесины. Это свидетельствует о том, что модель усвоила не только общие очертания леса, но и микроструктуры, которые были обильно представлены в датасете.
Ландшафтное разнообразие: В отличие от простых генераторов, выдающих однотипный «зеленый массив», обученная модель вариативно подходит к композиции. Это подтверждает, что модель успешно экстраполировала связи между объектами, увиденными в датасете (лес+горы, лес+вода).
Цветовая палитра и стилистические аномалии: Основной массив сгенерированных изображений соответствует заявленной цветовой гамме — доминируют глубокие зеленые и приглушенные желто-зеленые тона, характерные для средней полосы.


Пример генераций с артефактами
В процессе экспериментов были замечены интересные артефакты: часть изображений получила несвойственные исходному датасету цветовые фильтры — ярко-розовые, фиолетовые и насыщенные зеленые оттенки.
Наличие цветных фильтров можно объяснить спецификой обучающей выборки. В датасете присутствовали черно-белые изображения, которые, вероятно, были восприняты нейросетью не как стилистическое решение, а как сигнал к снижению цветовой привязки. В результате, стремясь к генерации «нестандартного» (не зеленого) леса, модель начала иногда накладывать яркие монохромные фильтры, пытаясь имитировать черно-белую графику, но ошибаясь в выборе цветового канала.
Но даже такие артефакты не разрушили концепцию, а добавили экспрессивности, показав, что нейросеть научилась «фантазировать» за пределами строгих границ датасета.


Пример черно-белых фотографий из датасета, которые скорее всего послужили причиной артефактов
Технические детали генерации и обработка данных
Промпты
Для реализации проекта использовался ноутбук SDXL_DreamBooth_LoRA_Colab.ipynb, предоставленный в ссылках курса, а также модель SDXL (Stable Diffusion XL).
Проект был начат в среде для программирования Google Colab. Были установлены и настроены библиотеки diffusers, accelerate, peft, bitsandbytes. Обязательным этапом стала проверка наличия GPU (графического процессора), что позволило ускорить процесс обучения в десятки раз по сравнению с CPU. В Google Colab эту функцию выполняет бесплатный GPU T4.
Применялась техника LoRA в связке с DreamBooth. Это позволило дообучить большую базовую модель SDXL на относительно небольшом датасете (91 изображение) без риска переобучения или «забывания» моделью базовых знаний о том, что такое дерево или вода в целом. LoRA выступила в роли «тонкой настройки», зафиксировавшей уникальный стиль и характерные элементы именно моего датасета.
Использование генеративных нейросетей в проекте
В рамках данного исследования генеративные нейросети использовались как основной инструмент, так и как вспомогательные средства для организации работы.
- Stable Diffusion XL (SDXL) — основной генеративный художник.
- Deepseek — ассистент для сопроводительной работы. Он мне помог в создании промптов для тестирования обученной модели, в уточнении и проверке фрагментов кода в ноутбуке, а также в редактировании и коррекции текста исследования, устранения стилистических ошибок.




