Концепция
Мне было интересно изучить визуальный язык старинной ботанической иллюстрации через генеративную модель. В основе проекта — стиль книги Köhler’s Medizinal-Pflanzen (1887), с её точной линией, аккуратной композицией и мягкой акварельной подкраской. Задача — не просто повторить внешний вид, а передать сам принцип изображения растений: их разбор на части, научную строгость и одновременно декоративность. В результате получаются новые, вымышленные растения, которые выглядят как страницы из архивного ботанического атласа и продолжают его эстетику.
Исходные изображения
Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887
Все изображения для обучения — ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen (1887), находящейся в общественном достоянии (public domain).
Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887
Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887
Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887
Результирующая серия изображений
С помощью обученной модели получилось создать максимально похожие под стиль исторической ботанической иллюстрации изображения других растений.
(Иллюстрация тюльпана)
(Иллюстрация лаванды)
(Иллюстрация пальмы)
(Иллюстрация кактуса)
(Иллюстрация венериной мухоловки)
Модель детально уловила визуальный стиль ботанической иллюстрации и применяет их к новым, вымышленным растениям.
Переданные элементы стиля: — Линейная графика — чёткий контур и аккуратная прорисовка формы растения — Композиционная структура — классическое размещение: центральный объект и дополнительные фрагменты (листья, цветы, сечения) — Цветовое решение — сдержанная акварельная подкраска, приближенная к натуральным оттенкам — Научная подача — ощущение системности и «каталожности», характерное для ботанических атласов
Принцип работы кода
Основные характеристики: — Базовая модель: Stable Diffusion XL 1.0 — Метод адаптации: Dreambooth с LoRA — Размер датасета: 30 изображений — Количество шагов: 200 — Разрешение: 512×512 пикселей
Также для получения более точных результатов были использованы -битная оптимизация и техника gradient checkpointing.
Для работы были использованы Stable Diffusion XL 1.0 (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0) и BLIP (https://huggingface.co/Salesforce/blip-image-captioning-base)
Сначала были установлены все необходимые внешние библиотеки и проверен GPU
Затем были подгружены референсные файлы и подключен датасет, а также созданы описания изображений для обучения
После был произведен процесс обучения модели с инструментом LoRa и подгразка данных в Hugging face для генерации новых изображений.