Original size 1140x1600

Austin Lee Zoo

PROTECT STATUS: not protected
13
big

Концепция

post

Идея проекта — создание зоопарка в стиле работ художника Austin Lee, в котором пластические и диджитал формы органично внедряются в живой, выразительный мир, формируя новые гибридные образы, находящиеся на грани между искусственным и естественным.

В качестве стилистического ориентирования выбран визуальный язык Остина Ли — художника, чьи работы находятся на стыке цифровой и традиционной живописи. Его стиль — это яркие, неоновые цвета, мультяшная пластика форм, эмоциональные образы и ощущение «цифровой плоскости», что делает его идеальным проводником для визуализации постчеловеческого, нейро-органического мира.

Для реализации проекта был собран датасет из 50 работ Остина Ли, на основе которого была обучена генеративная нейросеть. В результате возникла серия изображений, представляющих собой фантастических существ и пейзажи зоопарка, где природа существует в абсурдной, но гармоничной визуальной экосистеме зоопарка. Это — зоопарк, где животные могут сливаться сприродой, распадаться и соединяться, оставаясь при этом эмоционально узнаваемыми и визуально живыми.

big
Original size 1920x1441

работы художника Остина Ли

big

Сгенерированные изображения

big
Original size 1530x1524
Original size 1142x1155
Original size 1527x1529
Original size 1154x1152
Original size 1155x1155
Original size 1154x1152
Original size 1530x1529
Original size 1151x1152
Original size 1151x1151
Original size 1154x1154

Особенности процесса генерации

В некоторых случаях генерации отходили от стиля Остина Ли в более художественную сторону с выраженными мазками кисти или наоборот в сторону 3d визуализаций, чтобы прийти к консистентности генераций я чаще прописывала свой стиль в Промте и вывела наиболее подходящий Промт для генераций:

«A painting of the orange tiger with funny expression in the central park in the new york in the style of CHERKASHIN, peeking out of the water, in the style of CHERKASHIN, backround in the vibrant blue and red colors, in the style of CHERKASHI»

Original size 2414x1604

примеры неудачных генераций гиппопотама в разных художественных стилях

Также была проблема с визуализацией правильного количества конечной у животных, так как на картинах Остина Ли часто объекты не реальной физиологической формы. Её я решила бОльшими попытками генераций.

Original size 2414x757

примеры неудачных генераций гиппопотама с лишними конечностями

Финальный результат проекта — это серия сгенерированных изображений, представляющих воображаемый зоопарк в стиле Остина Ли. Эти изображения объединяют элементы биологического мира (животные, растения, ландшафты) с эстетикой цифровой и машинной реальности, отражая концептуальную идею сосуществования природы и технологий. Каждое изображение демонстрирует попытку найти визуальную гармонию между естественным и искусственным.

Этап 1: Подготовка среды Проверяется наличие GPU (! nvidia-smi).

Устанавливаются необходимые библиотеки: transformers, diffusers, peft, bitsandbytes, accelerate — всё это нужно для работы с продвинутыми генеративными нейросетями.

Скачивается обучающий скрипт train_dreambooth_lora_sdxl.py из репозитория HuggingFace.

Original size 2102x1343

Этап 2: Настройка обучения (DreamBooth + LoRA) Используется подход DreamBooth (тонкая настройка модели на новых образах).

Подключается метод LoRA (эффективное дообучение с малым числом параметров).

Настраиваются пути к данным (папки с изображениями, где представлены пользовательские образы для дообучения модели).

Original size 2102x1603

Этап 3: Запуск обучения Запускается дообучение модели на собственных данных с помощью DreamBooth + LoRA.

Указывается имя предмета и токен, по которому потом будет вызываться образ (например, «a photo of sks dog»).

В процессе обучения модель учится распознавать и воспроизводить уникальные черты объекта.

Original size 2102x1798
Original size 2102x1928

Этап 4: Подгрузка обученной модели и генерация подписей к изображениям На этом этапе осуществляется подготовка обучающих данных для модели и подключение необходимых компонентов:

Автоматическая генерация подписей к изображениям Все изображения из папки ./cartinki/ обрабатываются с помощью модели BLIP, которая генерирует текстовое описание (caption) для каждого изображения. Это описание отражает содержание изображения на естественном языке.

Добавление авторского стиля К каждому сгенерированному описанию добавляется заданный префикс:

«photo collage in CHERKASHIN style, …»,

чтобы указать модели на нужный художественный стиль при последующем обучении и генерации.

Создание файла метаданных Все данные (имя файла и текстовый промпт) сохраняются в формате JSONL в файл metadata.jsonl. Пример строки в этом файле:

json Копировать Редактировать {"file_name»: «example.jpg», «prompt»: «photo collage in CHERKASHIN style, a dog playing on the beach"} Очистка памяти После генерации описаний освобождаются ресурсы, удаляются ненужные переменные и очищается память GPU.

Этот шаг обеспечивает корректную подготовку данных для дообучения модели в стиле конкретного автора и связывает изображения

Original size 2102x901

Этап 5: Генерация изображения После завершения обучения и загрузки модели с дообученными LoRA-весами, запускается финальный этап — генерация изображения.

Формулируется текстовый промпт, описывающий желаемую сцену и стиль. В проекте использован следующий пример запроса:

«photo collage in CHERKASHIN style, times square, new york»

Он задаёт композицию в авторском стиле «Черкашина» с конкретной локацией — Таймс-сквер в Нью-Йорке.

Модель Stable Diffusion XL, дообученная с помощью DreamBooth и LoRA, принимает промпт и создаёт изображение, соответствующее описанию.

Результат визуализируется через библиотеку matplotlib и выводится в ноутбуке. Полученное изображение — это синтез визуального стиля из обучающей выборки и новых семантических признаков, заданных в тексте.

Original size 2102x1454
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more