Введение в тему
В данной работе я проанализировала датасет видеоигр платформы Steam, опубликованный на Kaggle, содержащий информацию о более чем 90000 игр, включая жанры, дату релиза, цену и пользовательские отзывы. Целью исследования было выявить факторы, связанные с более высокой долей негативных отзывов, и понять, как меняется восприятие игр в зависимости от их характеристик. В рамках анализа я сравнила жанры по уровню негативных оценок, изучила связь между ценой игры и долей негатива, а также рассмотрела динамику пользовательских отзывов во времени. Для корректного сравнения игр использовались относительные метрики, а визуализация данных выполнена в едином авторском стиле с использованием Pandas и Matplotlib, что позволяет наглядно проследить выявленные закономерности.

Типы графиков и их выбор
В первую очередь хотелось понять, отличается ли доля негативных отзывов у игр разных жанров. Для этого была рассчитана средняя доля негатива по каждому жанру и визуально сравнена с помощью горизонтальной столбчатой диаграммы.



Для построения этого графика я сначала подготовила данные и вместо абсолютного количества отзывов использовала долю негативных, чтобы можно было корректно сравнивать игры разной популярности. Так как одна игра может относиться сразу к нескольким жанрам, жанры были разделены и рассмотрены по отдельности, после чего для каждого жанра была посчитана средняя доля негативных отзывов. В качестве визуализации я выбрала горизонтальную столбчатую диаграмму, потому что она лучше всего подходит для сравнения категорий и позволяет удобно читать длинные названия жанров. Полученный график показывает, что уровень негативных отзывов заметно отличается между жанрами, а значит жанр действительно влияет на то, как игроки воспринимают игры.
После анализа различий между жанрами возник вопрос, меняется ли доля негативных отзывов у игр со временем — то есть отличаются ли по восприятию игры, вышедшие в разные годы. Для этого была рассчитана средняя доля негативных отзывов по году релиза и визуализирована с помощью линейного графика.


Для построения второго графика я также использовала долю негативных отзывов вместо абсолютных значений, чтобы корректно сравнивать игры разных годов вне зависимости от их популярности. Дата релиза была преобразована из текстового формата, после чего из неё был извлечён год выпуска, и для каждого года была рассчитана средняя доля негативных отзывов. В качестве визуализации выбран линейный график, так как он лучше всего подходит для анализа изменений показателя во времени и позволяет увидеть общий тренд.
График показывает, что доля негативных отзывов у игр действительно меняется в зависимости от года релиза: для более новых игр она в среднем выше, чем для старых. Это может говорить о росте ожиданий игроков со временем, более критичном отношении к качеству релизов и большем количестве незавершённых или проблемных проектов в последние годы.
После жанров и динамики по годам хотелось понять, отличается ли качество восприятия игры в зависимости от цены — но не по отдельным точкам, а по распределению. Для этого я разделила игры на ценовые категории и сравнила распределение доли негативных отзывов с помощью boxplot.


Для этого графика я снова использовала долю негативных отзывов, чтобы можно было честно сравнивать игры, даже если у них разное количество отзывов. Я разделила игры на ценовые категории — от бесплатных до дорогих — и посмотрела, как внутри каждой группы распределяется негатив. Я выбрала boxplot, потому что он показывает типичное значение и разброс, то есть насколько оценки внутри категории стабильны.
По графику видно, что у бесплатных и самых дешёвых игр медианная доля негативных отзывов ниже, тогда как у игр средней и высокой ценовой категории она выше. При этом у более дорогих игр заметно больший разброс оценок, что говорит о более полярном восприятии: такие игры либо сильно нравятся, либо вызывают выраженное недовольство, вероятно из-за более высоких ожиданий игроков.
После сравнения жанров, годов и ценовых категорий возникло желание разобраться, как в целом распределяется доля негативных отзывов среди всех игр: является ли высокий негатив редким исключением или распространённым явлением.
Я рассчитала долю негативных отзывов для всех игр и посмотрела, как эти значения распределяются. Гистограмма выбрана потому, что она позволяет увидеть форму распределения и понять, какие значения встречаются чаще всего, а какие — редки.
По графику видно, что большинство игр имеют низкую долю негативных отзывов, а высокий уровень негатива встречается значительно реже. Это говорит о том, что сильное недовольство игроков — скорее исключение, чем норма.
В завершение исследования хотелось посмотреть, как доля негативных отзывов меняется одновременно в зависимости от жанра и времени. Для этого была построена тепловая карта, показывающая среднюю долю негативных отзывов по жанрам и годам релиза.


Для этого графика данные были агрегированы по двум измерениям одновременно: жанру и году релиза, после чего для каждой комбинации была рассчитана средняя доля негативных отзывов. Тепловая карта была выбрана потому, что она позволяет быстро увидеть закономерности в многомерных данных и сравнить динамику сразу по нескольким категориям.
По графику видно, что рост доли негативных отзывов в последние годы наблюдается не у всех жанров одинаково: сильнее всего он выражен у жанров с высокой вовлечённостью и ожиданиями (например, RPG и Simulation), тогда как у более простых жанров изменения менее заметны. Это указывает на то, что влияние времени на негативные оценки зависит от жанра игры.
Заключение
В ходе анализа датасета видеоигр платформы Steam были выявлены ключевые закономерности, связанные с восприятием игр пользователями. Исследование показало, что доля негативных отзывов существенно различается в зависимости от жанра, что указывает на влияние жанровых особенностей и ожиданий аудитории. Анализ динамики по годам релиза выявил рост доли негативных отзывов у более новых игр, что может быть связано с повышением требований игроков к качеству и состоянию релизов. Дополнительно было установлено, что у платных и более дорогих игр негативные оценки встречаются чаще и отличаются большим разбросом, что отражает более высокие ожидания со стороны пользователей. В совокупности полученные результаты демонстрируют, что восприятие игр формируется под влиянием сразу нескольких факторов — жанра, времени релиза и цены — и могут быть полезны разработчикам и издателям при оценке рисков, позиционировании проектов и планировании будущих релизов.
Датасет: https://www.kaggle.com/datasets/joebeachcapital/top-1000-steam-games
Блокнот с кодом (IPYNB): https://colab.research.google.com/drive/1mXMJrqE3GxpmPg_7uJEG1tH9DmxbZbbG?usp=sharing
Для генерации обложки использовался GPT Plus



