HSE University

Идея

В этом проекте я обучаю Stable Diffusion на собственных рисунках, чтобы исследовать, может ли нейросеть воспроизводить не просто формальные особенности моего изображения, а более сложный визуальный язык: замкнутый мрачный интерьер, фигуру в состоянии уязвимости, странную социальную динамику, тревожную паузу между людьми и ощущение психологической сцены. Для меня важно не столько копирование техники, сколько передача интонации: неловкости, отчуждения, усталости, сомнительной близости, затянувшегося внутреннего напряжения.

Датасет

В качестве исходных данных я использовала собственные рисунки, схожие по настроению и типу изображения. В них чаще всего появляются человеческие фигуры и лица с выраженной эмоциональной неоднозначностью: усталостью, тревогой, отстраненностью, неловкостью.

Исходный размер 2560x2560

Со странными позами и композицией

Исходный размер 2560x2560

Я выбрала схожие по стилистике иллюстрации: только черно-белые, наброски ручкой или карандашом, преимущественно портреты.

Всего было добавлено около восьмидесяти исходных изображений.

Что получилось

Исходный размер 1270x1750

В ходе генерирования использовались промпты наподобие: «stylized monochrome black pen portrait, melancholy woman with short hair, soft asymmetry, tired expression, raw ink lines, nervous cross-hatching, intimate psychological drawing».

Исходный размер 1270x1750

Итоговая серия показала, что после дообучения Stable Diffusion модель смогла достаточно хорошо уловить общую стилистику исходных работ. При этом конечные генерации не стали полностью эквивалентны исходным рисункам: по сравнению с ними они выглядят менее выразительными, хотя технически получилось довольно хорошо. Лучше всего модель сработала в камерных сценах и портретах, где сохранялись читаемость лиц и нужное настроение.

В процессе работы я использовала ИИ как вспомогательный инструмент. ChatGPT применялся для формулировки и уточнения промптов и для подготовки датасета: в частности, для составления текстовых описаний изображений в файле metadata.jsonl. Это позволило сделать датасет более структурированным и упростило последующую генерацию изображений в близкой к исходному материалу логике.

Диск с кодом

https://drive.google.com/drive/folders/11b5bzOCY_rYVGNM2acfM7lImwnAtE-Aw?usp=sharing

Генерации уязвимых фигур