Ботанические иллюстрации на HSE Design

Концепция

Мне было интересно изучить визуальный язык старинной ботанической иллюстрации через генеративную модель. В основе проекта — стиль книги Köhler’s Medizinal-Pflanzen (1887), с её точной линией, аккуратной композицией и мягкой акварельной подкраской. Задача — не просто повторить внешний вид, а передать сам принцип изображения растений: их разбор на части, научную строгость и одновременно декоративность. В результате получаются новые, вымышленные растения, которые выглядят как страницы из архивного ботанического атласа и продолжают его эстетику.

Исходные изображения

Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887

Все изображения для обучения — ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen (1887), находящейся в общественном достоянии (public domain).

Исходный размер 2057x833

Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887

Исходный размер 2879x826

Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887

Исходный размер 2879x826

Ботанические иллюстрации из книги Köhler’s Medizinal-Pflanzen, Franz Eugen Köhlек, 1887

Результирующая серия изображений

С помощью обученной модели получилось создать максимально похожие под стиль исторической ботанической иллюстрации изображения других растений.

(Иллюстрация тюльпана)

Исходный размер 1024x1024

Исходный размер 2292x162

(Иллюстрация лаванды)

Исходный размер 1024x1024

Исходный размер 2384x162

(Иллюстрация пальмы)

Исходный размер 1024x1024

Исходный размер 2314x164

(Иллюстрация кактуса)

Исходный размер 1024x1024

Исходный размер 2392x156

(Иллюстрация венериной мухоловки)

Исходный размер 1024x1024

Исходный размер 2486x144

Модель детально уловила визуальный стиль ботанической иллюстрации и применяет их к новым, вымышленным растениям.

Переданные элементы стиля: — Линейная графика — чёткий контур и аккуратная прорисовка формы растения — Композиционная структура — классическое размещение: центральный объект и дополнительные фрагменты (листья, цветы, сечения) — Цветовое решение — сдержанная акварельная подкраска, приближенная к натуральным оттенкам — Научная подача — ощущение системности и «каталожности», характерное для ботанических атласов

Принцип работы кода

Основные характеристики: — Базовая модель: Stable Diffusion XL 1.0 — Метод адаптации: Dreambooth с LoRA — Размер датасета: 30 изображений — Количество шагов: 200 — Разрешение: 512×512 пикселей

Также для получения более точных результатов были использованы -битная оптимизация и техника gradient checkpointing.

Для работы были использованы Stable Diffusion XL 1.0 (https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0) и BLIP (https://huggingface.co/Salesforce/blip-image-captioning-base)

Исходный размер 2360x1132

Сначала были установлены все необходимые внешние библиотеки и проверен GPU

Затем были подгружены референсные файлы и подключен датасет, а также созданы описания изображений для обучения

После был произведен процесс обучения модели с инструментом LoRa и подгразка данных в Hugging face для генерации новых изображений.

Ноутбук с кодом