Идея
В этом проекте я обучаю Stable Diffusion на собственных рисунках, чтобы исследовать, может ли нейросеть воспроизводить не просто формальные особенности моего изображения, а более сложный визуальный язык: замкнутый мрачный интерьер, фигуру в состоянии уязвимости, странную социальную динамику, тревожную паузу между людьми и ощущение психологической сцены. Для меня важно не столько копирование техники, сколько передача интонации: неловкости, отчуждения, усталости, сомнительной близости, затянувшегося внутреннего напряжения.
Датасет
В качестве исходных данных я использовала собственные рисунки, схожие по настроению и типу изображения. В них чаще всего появляются человеческие фигуры и лица с выраженной эмоциональной неоднозначностью: усталостью, тревогой, отстраненностью, неловкостью.
Со странными позами и композицией
Я выбрала схожие по стилистике иллюстрации: только черно-белые, наброски ручкой или карандашом, преимущественно портреты.
Всего было добавлено около восьмидесяти исходных изображений.
Что получилось
В ходе генерирования использовались промпты наподобие: «stylized monochrome black pen portrait, melancholy woman with short hair, soft asymmetry, tired expression, raw ink lines, nervous cross-hatching, intimate psychological drawing».
Итоговая серия показала, что после дообучения Stable Diffusion модель смогла достаточно хорошо уловить общую стилистику исходных работ. При этом конечные генерации не стали полностью эквивалентны исходным рисункам: по сравнению с ними они выглядят менее выразительными, хотя технически получилось довольно хорошо. Лучше всего модель сработала в камерных сценах и портретах, где сохранялись читаемость лиц и нужное настроение.
В процессе работы я использовала ИИ как вспомогательный инструмент. ChatGPT применялся для формулировки и уточнения промптов и для подготовки датасета: в частности, для составления текстовых описаний изображений в файле metadata.jsonl. Это позволило сделать датасет более структурированным и упростило последующую генерацию изображений в близкой к исходному материалу логике.
Диск с кодом