Black metal в 80-х годах сформировал узнаваемый визуальный язык: монохромная и приглушённая палитра, высокий контраст, зернистая фактура, «сырой» свет, лесные и руинированные локации, ритуальная символика, corpse paint и подчёркнуто мрачная атмосфера
Задачей проекта было обучить Stable Diffusion XL так, чтобы модель воспроизводила этот стиль и генерировала обложки в единой эстетике Black metal.
Исходные изображения:
Для обучения был использован собранный датасет из 108 квадратных обложек альбомов 1980-х, отражающих ключевые черты black metal.
Обложки получены с: https://www.kaggle.com/datasets/ronanpickell/1980s-album-covers Действует лицензия CC0: Public Domain

Серия изображений из датасета
Посредством обучения модели на датасете удалось достичь достойных результатов:












Модель смогла уловить характерную палитру. преобладание чёрного и светлого, глубокие тени, минимализм цвета.
Композиции выдержаны в духе жанра: центральные фигуры, лесные пейзажи, символика, атмосферные эффекты.
Переданы эффекты: зернистость, размытость, текстуры, характерные для олдскульных black metal-обложек.
Но стоит отметить, что модель генерирует чересчур реалистичные картинки по сравнению с абстрактными исходными. Более качественный результат можно получить, подав модели на обучение намного больше изображений.
Общая атмосфера — холод, мистика, изоляция, агрессия и эстетика жанра.
Код в ноутбуке:
Настройка

Превью датасета

BLIP
Установка требующихся зависимостей
Обучение LoRA
Сохранение модели на Hugging Face
Генерация обложек
Использовалась модель SDXL с LoRA-адаптером, негативный промт для уменьшения артефактов, фиксированные параметры генерации (30 шагов, guidance 7.0), контроль сидов для воспроизводимости.
- Датасет - ipynb файл
В ходе работы над проектом были задействованы: — Модель для дообучения — VAE энкодер




