Обучение ИИ пленочной фотографии на HSE Design

Описание идеи проекта

Данный проект посвящён обучению генеративной нейросети для воспроизведения эстетики пленочной фотографии.

Основной идеей было исследовать, насколько современные модели генеративного искусственного интеллекта способны воспроизводить визуальные особенности аналоговой съёмки, включая зернистость, цветовые искажения, мягкий контраст и случайные артефакты.

Пленочная фотография была выбрана как концепция, поскольку она обладает уникальной визуальной эстетикой, в которой сочетаются технические ограничения и художественная выразительность.

Цель проекта — обучить модель Stable Diffusion на собственном датасете изображений и добиться генерации изображений, визуально соответствующих пленочной эстетике.

Исходные изображения для обучения

Для обучения модели был собран датасет из 10 изображений, представляющих визуальный стиль пленочной фотографии.

Все изображения были приведены к формату 1:1 и отобраны таким образом, чтобы передавать характерные черты выбранной эстетики: — зернистость изображения; — особенности цветопередачи; — мягкость света; — атмосферность и визуальная «шумность».

Исходный размер 2720x1106

Процесс обучения

Результирующая серия изображений

В результате обучения была сгенерирована серия изображений с использованием обученной модели.

Все изображения были получены по одному текстовому запросу с вариацией случайных параметров, что позволило получить разнообразные результаты в рамках одного стилистического направления.

Комментарий по итогам генерации

В результате обучения модели была сгенерирована серия изображений, демонстрирующих устойчивое воспроизведение заданного визуального стиля.

Все изображения характеризуются мягкой цветовой палитрой с небольшими вариациями оттенков, что соответствует референсному датасету, использованному при обучении. Наблюдается единая визуальная атмосфера: приглушённые цвета, мягкий контраст и общее ощущение «аналоговости» изображения.

Одной из ключевых особенностей сгенерированной серии является наличие визуального шума и зернистости, что напрямую связано с характеристиками исходных изображений. Данные элементы проявляются последовательно во всех сгенерированных изображениях, что свидетельствует о том, что модель успешно усвоила текстурные особенности пленочной эстетики.

Отдельно стоит отметить характер освещения: во всех изображениях оно остаётся мягким, рассеянным, без резких теней, что также соответствует обучающему датасету. Это указывает на то, что модель не только воспроизводит поверхностные визуальные признаки, но и усваивает более сложные характеристики освещения.

Важным наблюдением является то, что в двух изображениях обучающего датасета присутствовали силуэты людей. В результате обучения модель переняла этот визуальный элемент и стала активно его воспроизводить — в 8 из 10 сгенерированных изображений присутствуют силуэты.

Это демонстрирует способность модели выявлять и усиливать повторяющиеся паттерны в обучающем наборе данных. При этом можно предположить, что наличие данного признака в относительно небольшом датасете привело к его переобучению как значимого визуального элемента.

Таким образом, итоговая серия изображений отражает как общие характеристики пленочной фотографии (зернистость, мягкое освещение, цветовые особенности), так и специфические элементы, заимствованные из обучающего датасета (силуэты).

Результаты генерации в целом соответствуют изначальной концепции проекта, демонстрируя, что модель способна воспроизводить и обобщать визуальные признаки стиля, одновременно усиливая наиболее выраженные элементы обучающих данных.

Это также показывает, как небольшие особенности датасета могут оказывать значительное влияние на поведение генеративной модели, что важно учитывать при подготовке данных для обучения.

Google Colab