
РУБРИКАТОР
3-11. Концепция и выбор датасета. 12-15. Подготовка к анализу. 16-45. Анализ данных. 46-53. Использованные ресурсы.

Я обучаюсь на ОП «Геймдизайн» и задумываюсь о скором выпуске собственной инди-игры в жанре экшен, поэтому мне было интересно проанализировать современные тренды игровой индустрии.
Мне нужен был актуальный датасет, собирающий информацию с той площадки, которую я планирую использовать при выпуске игры — Steam. По запросу «steam datasets» я получила различные датасеты с сайта Kaggle. Изучив предложенные варианты, я выбрала самый крупный датасет за 2024 год: https://www.kaggle.com/datasets/joebeachcapital/top-1000-steam-games?resource=download&select=93182_steam_games.csv
В этом датасете присутствовали интересующие меня параметры: дата выпуска, жанр, цена.
Так как большинство данных состоит именно из цифр, наиболее удобными мне показались линейные графики — кроме ситуации, в которой я решила проанализировать язык выпущенных игр, здесь я использовала круговую диаграмму.
Я рассматривала несколько вариантов оформления — ретро-пиксели, игровые интерфейсы, но решила остановиться на футуристичном неоне. В качестве фоне для всех диаграмм я выбрала обычный черный, а затем подобрала яркие цвета для графиков.
В качестве шрифта я выбрала Tektur от Google Fonts, его начертание показалось мне достаточно футуристичным: https://fonts.google.com/specimen/Tektur
Для начала я перевела датасет из формата csv в формат xslx. Затем вручную просмотрела столбцы с имеющимися данными и очистила те данные, которые мне не интересны, например, ссылки на издательства.
Далее я определилась с тем, какие библиотеки мне понадобятся — импортировала pandas, matplotlib.pyplot и numpy для анализа данных и построения графиков, а также google.colab для загрузки выбранного шрифта и датасета.
Используя библиотеку google.colab, я импортирую выбранный шрифт и датасет.
Для начала я решила убедиться, что Steam действительно популярная и, главное, актуальная площадка для выпуска игр, которую стоит рассматривать в качестве платформы.
Для того, чтобы получить график, я проанализировала все представленные игры по столбцу «Release date».
Я беру данные из столбца «Release date» в формате dd.mm.yyyy, достаю из них год и подсчитываю, сколько игр было выпущено в каждом году.
Далее я оформила график в неоновом голубом и вывела его для просмотра.
Оформление графика.
Полученный график еще раз и код целиком.
С помощью представленного графика стало очевидно, что Steam — действительно актуальная платформа, количество выпущенных игр с каждым годом только растет (стоит учитывать, что за 2024 датасет неполный и не включает игры, выпущенные после 15 сентября).
Эту площадку стоит рассматривать как основную для выпуска игры.
Так как я хочу выпустить игру в жанре экшн или Action по датасету, я решила изучить популярность таких игр на платформе.
Сначала я составила график для игр с жанром только Action, но это оказалось малорепрезентативным — и я решила посмотреть игры, где Action встречается с любым другим жанром. Тут стало ясно, что моя игра не может быть чистым экшеном — спрос на такие игры небольшой.
Затем я обратила внимание на жанр Indie и решила посмотреть, сколько инди-проектов имеют жанр Action. Здесь я поняла, что добавлять какой-то дополнительный жанр вопреки первоначальной задумке не придется — чистые инди-экшены все еще пользуются большой популярностью.
Я вновь выделяю из даты год, из столбца «Genres» выбираю сначала те строки, в которых только Action, а потом те, где есть Action, а также имеется Action + Indie. Сортирую полученные строки по году.
После этого я оформляю график в трех неоновых цветах и вывожу его на экран вместе с легендой.
Еще раз график и весь код целиком.
Цены в жанре
Четко определившись с жанром, я решила посмотреть, какую цену (в долларах) могу поставить. Для этого я взяла стоимости всех игр в жанре Action, а также выделила мой срез Action + Indie.
Я беру столбец с ценами, отсекаю крайние верхние значения, затем сортирую значения для всех Action и Action + Indie.
После этого я вывожу график в голубых и желтых неоновых тонах вместе с легендой.
Еще раз график и весь код целиком.
Последний пункт, который мне показался очень важным — то, перевод на какие языки стоит рассматривать. Изначально я планировала использовать английский и русский, но какие еще языки широко распространены?
Я беру столбец с поддерживаемыми языками, удаляю пустые строки, разделяю каждую строку по запятой и свожу это в единую таблицу, из которой потом подсчитываю значения.
Затем я вывожу топ-10 языков в виде круговой диаграммы. К сожалению, подобрать красивые неоновые цвета под каждый язык не получилось, поэтому я использовала дефолтные варианты.
Диаграмма еще раз и весь код целиком.
Рассмотрев эту диаграмму, я поняла, что стоит рассмотреть переводы на китайский, немецкий, французский и испанский, как входящие в топ-5 используемых языков, не включая русский.
Сайт, с которого был взят датасет: https://www.kaggle.com/ Фотография для обложки: https://ie.indeed.com/career-advice/career-development/data-scientist-skills Среда выполнения: https://colab.google/
В своей работе я использовала Photoshop — с помощью него подредактировала расположение подписей на графиках и сделала обложку.
Для своей работы я использовала Chat-GPT версии 4.0. У него я уточняла некоторые команды для Pandas.
Посмотреть примеры промптов: https://docs.google.com/document/d/1pS_I6_fgImY19q3xv2zDbpHak11U8dt7NcGOeAdoHnk/edit?usp=sharing
Ссылка на модель: https://openai.com/index/gpt-4/