Анализ рынка Roguelike игр в Steam
Исследование ценообразования и удержания игроков
Данные: был использован датасет Steam Store Games (Clean dataset) с платформы Kaggle (более 25,000 игр).
Я нахожу этот датасет крупнейшим и наиболее информативным из существующих на платформе на данный момент, так как он аккумулирует в себе большое количество важных критериев: например, количество позитивных отзывов, медианное время в игре итд.
Эти метрики позволяют анализировать данные полноценно, подтверждая или опровергая тезисы.
Выбор темы и тезис
Для этого задания я выбрала тему и датасет связанные с rogue-like’ами из-за того, что обучаюсь и работаю в сфере разработки игр, и этот жанр является для меня одним из любимых.
Rogue-like (или «рогалик"(проф.жарг.)) — отдельный жанр игр, обладающий уникальными чертами (реиграбельность, репетативность геймплея, ярко выраженный игровой цикл, etc.)
Также я писала дипломное визуальное исследование по этому жанру игр, и приходила в нем ко схожим выводом путем анализа игр самостоятельно. Здесь было бы интересно подтвердить или опровергнуть тезисы уже в сфере статистики.
Об исследовании: гипотеза и графики
Цель анализа: выяснить, существует ли корреляция между ценой игры и её оценками, а также сравнить показатели удержания (playtime) у рогаликов и обычных игр.
У меня есть гипотеза, что игры жанра roguelike обладают более высокой реиграбельностью, чем среднестатистические проекты в Steam.
Виды графиков и обоснование выбора
Для анализа рынка roguelike-игр были выбраны следующие типы визуализации:
- Гистограммы — анализ распределения цен и оценок игроков
— позволяют мгновенно увидеть «золотой стандарт» рынка — примерную цену для инди-рогалика, а также оценить общий уровень качества жанра (смещено ли распределение оценок в сторону позитивных отзывов).
- Диаграмма рассеяния — поиск корреляции между ценой игры и её популярностью
— график подходит для проверки гипотезы: «гарантирует ли высокая цена успех игры?». Логарифмическая шкала позволила визуализировать данные с огромным разбросом.
- Ящик с усами — сравнительный анализ метрики удержания в рогаликах и обычных играх
— это был подходящий способ сравнить две выборки и показать медианные значения, игнорируя единичные выбросы.
- Линейный график — демонстрация динамики релизов по годам
— позволяет сделать вывод об общей популярности жанра.
- Столбчатая диаграмма — ранжирование топ-5 лидеров жанра
— была выбрана как инструмент для сравнения их показателей между собой
Применение нейросетей
Модель: Gemini (Google).
Цель применения:
Помощь в написании regex-выражений и методов Pandas для обработки «грязных» данных (исправление сдвига столбцов).
Генерация параметров для визуала (цветовые схемы, настройка сетки).
Примеры промптов:
«У меня не работает код на pandas, который должен искать слово roguelike в датафрейме, даже если оно находится в разных столбцах из-за ошибок парсинга CSV. В изначальном материале по которому я ищу информация свалена в кучу, и разделена запятой, а не лежит по разным столбцам. Найди ошибку в моем коде и объясни, как переписать чтобы это работало.»
«Предложи цветовую палитру (коды цвета) для графиков в стиле темного неонового UI, как в темной теме Discord или Unity, подходящую для презентации про геймдев. Нужен темный фон и контрастные акцентные цвета (зеленый, фиолетовый). Предложи не менее трех вариантов!»
Стилизация и визуал
В качестве визуального референса я выбрала интерфейсы профессионального софта для разработки игр (Unity Dark Theme, Unreal Engine 5 UI) и визуал темной темы мессенджера Discord, часто используемого геймерами. Темная тема позволяет акцентировать внимание на данных (яркие линии на черном фоне читаются лучше).
Коды: Фон (#121212): Глубокий темно-серый, снижает нагрузку на глаза.
Палитра: 🟣 Amethyst (#9b59b6): Основной цвет для гистограмм. 🟢 Emerald (#2ecc71): Цвет роста и позитивных трендов. 🔴 Alizarin (#e74c3c): Акцентный цвет для важных метрик.
Обработка данных
В базе Steam теги могут быть записаны по-разному. Чтобы собрать максимально полную выборку, я использовала фильтр через логическое «ИЛИ».
Код проверяет наличие подстроки Rogue-like одновременно в двух колонках: steamspy_tags и genres, чтобы искать игры было эффективнее, + была проведена очистка от бесплатных игр, так как они не нужны в выборке.
Чтобы графики соответствовали тематике исследования, тут я переопределила стандартные настройки библиотеки Matplotlib. Была задана темная тема (#121212) и неоновая цветовая палитра.
Тут было проведено сравнение удержания. Я использовала boxplot с логарифмической шкалой, чтобы сравнить медианное время в игре (average_playtime) у рогаликов и контрольной группы из 1000 случайных игр других жанров.
Здесь я коротко проанализировала еще несколько метрик — вывела из датабазы абсолютных лидеров по жанру, а еще проверила рост популярности жанра по годам.
Изучающий и объясняющий форматы
Изучающая визуализация:
График: Зависимость цены и популярности
Когда я строила этот график, я не знала ответа. Я исследовала массив данных, чтобы найти паттерны. График выглядит как «облако точек», и его цель — позволить зрителю самому увидеть отсутствие линейной зависимости.
Объясняющая визуализация:
График: Реиграбельность
Здесь я заранее понимаю вывод, так как реиграбельность является одной из черт данного жанра, и просто демонстрирую этот факт аудитории максимально наглядно.
Статистические методы
Описательная статистика: Расчет мер центральной тенденции (среднее и медиана) для определения типичной цены и времени игры.
Корреляционный анализ: Визуальная оценка связи между двумя переменными (цена и качество) через диаграмму рассеяния.
Анализ временных рядов: Исследование динамики количества релизов по годам для выявления трендов роста рынка (или его временного спада.*
Примечание: Мне известно, что в последние годы rogue-like жанр снова переживает подъем популярности, после релиза Hades в конце 2019 года, однако сопоставимой по качеству датабазы с данными последних лет я не нашла.
Логарифмирование: Применение логарифмической шкалы для осей с большим разбросом значений (количество отзывов), чтобы график оставался читаемым.
Нормализация данных: Расчет относительного показателя качества вместо использования абсолютных чисел.
Графики



