Для обучения нейросети я выбрала один из своих проектов-иллюстраций. Он посвящен внеземному туризму. Это мир, где разные расы инопланетян путешествуют на другие планеты и занимаются типичными туристическими активностями: гуляют по центру города, отдыхают у бассейна, исследуют останки древней цивилизации
Описание моего стиля для нейросети: an isometric highly detailed flat illustration featuring figures. made with deep reds, dark blues, black, white and gold foil highlights inspired by by james gilleard and greg tocchini
Процесс обучения
Обучение было не очень стабильное, лосс сильно варьировался от семпла к семплу, но постепенно уменьшался в среднем.
Ход работы был такой:
- Собрала все релевантные данные
- Загрузила в среду, подправила пути и переписала функцию для получения пар (путь, картинка)
- Получила текстовые описания картинок предобученной моделью
- Исправила промпт и пути в предоставленном конфиге, чтобы дообучаться на своих данных, запустила обучение
- Сделала инференс модели со своими промптами, сохранила в папку с логами
Итоговые картинки
промт: Beach on ocean shore
промт: Library interior with readers
промт: Train platform late at night
промт: Amusement park
промт: Botanical greenhouse with visitors
промт: Deserted shopping mall with a few resting people
промт: Rooftop cinema above the city at night
промт: Underground metro station
промт: Observation deck overlooking a glowing city
промт: Hotel corridor with open doors and passing silhouettes
Нейросеть сохранила ключевые особенности оригинального стиля: геометризированные фигуры, изометрию, яркую ограниченную палитру и общую логику композиции. В результате увеличился масштаб сцен, добавились персонажи и усложнилась архитектуру. Изображения выглядят как развитие исходной идеи, где происходит поток взаимодействий внутри одной локации.
При этом заметно, что генерации работают с общими принципами, чем с точным воспроизведением: пространство становится более плотным и местами не логичным, появляются небольшие искажения формы, характерные для нейросетевых моделей. Разные изображения варьируют плотность людей, структуру пространства и цветовые акценты, создавая серию вариаций на одну тему. В целом результат соответствует концепции проекта, это не копия оригиналов, а их переосмысление.




