Original size 736x1172

Динамика спортивных достижений стран на Олимпийских играх

PROTECT STATUS: not protected
4

Концепция

big

Динамика спортивных достижений стран на Олимпийских играх в период с 1896 по 2024 год: выявление ключевых трендов, изменений в лидерстве и факторов, влияющих на медальный зачет

Для исследования я выбрала датасет «Olympics (1896-2024).csv», который содержит данные о медалях (золотых, серебряных, бронзовых и общее число) стран за период с 1896 по 2024 год. Данные были получены с Kaggle.

Этот набор данных интересен, поскольку: 1. Он охватывает длительный временной промежуток, позволяя отслеживать динамику спортивных успехов стран 2. Данные содержат как количественные показатели (количество каждого типа медалей), так и ранжирование стран, что даёт возможность глубоко проанализировать тренды 3. Такой анализ может выявить изменения в лидерстве, влияние глобальных событий на спортивные достижения и помочь понять, какие страны традиционно доминируют в спорте

В данном проекте использовался ChatGPT для поиска подсказок по улучшению стилизации графиков. В процессе работы использовались следующие промпты: — Как сгруппировать данные по столбцу Year с помощью Pandas? — Как настроить стиль графиков в Seaborn для создания консистентной инфографики?

Ссылка на модель: https://openai.com/chatgpt

Ссылка на блокнот с кодом: https://colab.research.google.com/drive/1_zrKIzyJA_EoZlW-ilF_bAHGaRHFb3fa#scrollTo=xHrC_XjJdkee

Вводная часть анализа и подбор графиков

Сначала я загрузила CSV-файл с данными при помощи Pandas и провела предварительную очистку: преобразовала столбец Year к числовому типу, обработала пропуски. Потом сгруппировала данные по годам, чтобы анализировать динамику общего количества медалей, агрегировала данные по странам для определения топ-10 стран по золотым медалям за весь период, подсчитала суммарное распределение типов медалей за весь период. Далее построила следующие графики: столбчатая диаграмма для топ-10 стран по золотым медалям, круговая диаграмма, иллюстрирующая распределение типов медалей за весь период, линейный график, отображающий тенденции общего количества медалей по годам, scatter plot (с регрессионной линией) для анализа зависимости между количеством золотых медалей и общим числом медалей (по всем годам) и гистограмма распределения общего числа медалей, объединённых за все года. Для стилизации графиков мною использована современная цветовая палитра («viridis» из Seaborn) и настройки Matplotlib, чтобы придать оригинальный внешний вид визуализациям

Этапы работы и описание кода

Ниже приведён пример кода. Код включает все этапы: от загрузки данных и их очистки до построения графиков

Настройка стиля графиков

Настраиваю стиль отображения графиков, выбираю тему Seaborn с палитрой «viridis» и устанавливаю общие параметры для графиков (размер фигур, размеры шрифтов и т. д.)

Original size 2259x1209

Загрузка данных

post

Здесь читаю CSV-файл с данными олимпийских медалей с помощью Pandas и вывожу первые строки датасета для предварительного осмотра его структуры

Предварительная обработка данных. Приведение столбца 'Year' к числовому типу

Преобразую столбец 'Year' в числовой тип и удаляю те строки, где год не удалось преобразовать (получился NaN)

Original size 1201x420

Для контроля качества данных вывожу общую информацию о датасете

Original size 1198x223

Агрегация данных

Агрегирую данные по годам и суммирую количество золотых, серебряных, бронзовых и общее количество медалей для анализа динамики по годам

Original size 1198x312

Для определения стран-лидеров агрегирую данные по странам (столбец NOC) и суммирую золотые медали за весь период, после чего выбираю топ-10

Original size 1196x276

Подсчитываю суммарное количество медалей каждого типа за весь период

Original size 1191x421

Визуализация данных

post

Строю столбчатую диаграмму для визуального сравнения общего количества золотых медалей у топ-10 стран за весь период

post

Используя круговую диаграмму, визуализирую доли каждого типа медалей за весь период

post

Строю линейный график, который показывает, как менялось общее количество медалей с течением времени

Scatter plot с регрессионной линией

post

Строю scatter plot для анализа зависимости между количеством золотых медалей и общим числом медалей (используем данные по всем записям) с нанесением регрессионной линии

Гистограмма распределения общего числа медалей

post

Дополнительно строю гистограмму, которая показывает распределение общего числе медалей для всего периода

Сохранение результатов

Сохраняю агрегированные данные по годам в отдельный CSV-файл для дальнейшего анализа

Original size 599x153

Итоговое оформление и облачное хранение

Original size 1198x586

Столбчатая диаграмма, которая показывает топ-10 стран (по их коду NOC) с наибольшим общим числом золотых медалей за весь период, представленный в датасете. Из вывода этого графика можно сделать следующие выводы: 1) выборка топ-10 стран позволяет сразу увидеть наиболее успешных участников Олимпийских игр по золотым медалям; 2) диаграмма наглядно демонстрирует, какие страны доминируют в получении золотых наград на протяжении всей истории соревнований, 3) использование цветовой схемы «viridis» и удобное расположение подписей делают визуализацию интуитивно понятной, способствуя быстрому сравнению показателей между странами. Такой анализ может указывать на долгосрочные успехи и устойчивость спортивных программ в данных странах, если они стабильно занимают лидирующие позиции по числу золотых медалей. В итоге, используя этот график, можно быстро определить, какие страны являются лидерами по золотым медалям, а также оценить разрыв между лидерами и остальными участниками соревнований

post

Данная диаграмма иллюстрирует относительные доли каждого типа медалей (золотых, серебряных, бронзовых) по агрегированным данным за весь период, охватывающий все Олимпийские игры из датасета. Используемые значения берутся из словаря medals_sum_all, где для каждой категории (Gold, Silver, Bronze) считается суммарное количество медалей за все годы. Применение палитры «viridis» придает визуализации современный вид, а форматирование с помощью autopct позволяет наглядно увидеть процентное соотношение между медалями различных типов. Таким образом, анализ данной визуализации помогает определить, как распределяются медали по типам за весь период и может служить отправной точкой для дальнейшего изучения, например, выявления тенденций или ана­ли­за различий в результативности стран на различных этапах истории Олимпийских игр

Original size 1172x612

Данный график отражает динамику общего количества медалей на Олимпийских играх за весь период, представленный в датасете. По оси X расположены года, а по оси Y — суммарное количество медалей, завоеванных всеми странами за соответствующий год. Наблюдается восходящая линия, это может свидетельствовать о росте числа медалей с течением времени, что часто связано с увеличением числа участников, расширением программы Олимпийских игр и ростом количества дисциплин. Наличие колебаний и пиков на графике может указывать на годы с необычно высоким или низким количеством медалей, что может быть связано с изменениями в формате игр или внешними факторами (например, политическими или экономическими). Таким образом, аналитика по этому графику позволяет сделать вывод о том, как менялась общая результативность стран на Олимпийских играх на протяжении всей истории соревнований, выявить тенденции роста, спада или нестабильности

Original size 1154x580

График показывает зависимость между количеством золотых медалей (ось X) и общим числом медалей (ось Y) для всех записей датасета. Наличие регрессионной линии (красная линия) указывает на наличие линейной корреляции между этими показателями. Это означает, что страны, выигравшие больше золотых медалей, имеют и большее общее число медалей. Точки распределены относительно близко к регрессионной линии, что свидетельствует о сильной корреляции между золотыми медалями и общим числом медалей

Original size 1234x568

Гистограмма показывает, как распределяется общее количество медалей (столбец Total) по всем записям датасета за весь период. Использование 20 bins позволяет увидеть, в каком диапазоне значений чаще всего встречается общее число медалей, а добавление KDE-кривой помогает оценить плотность распределения. Можно заметить, что распределение скошено в одну сторону, что говорит о несимметричном распределении (несколько стран обладают значительно большим количеством медалей, что создаёт длинный хвост). Таким образом, анализируя данную гистограмму, можно судить о том, насколько равномерно или нерегулярно распределяется общее количество медалей между странами или по годам, а также выявить наличие выбросов или аномалий в данных

Ключевые моменты анализа и стилизация

  1. Все графики оформлены в едином стиле с использованием палитры «viridis» из Seaborn и настроек Matplotlib для современного вида и высокой читаемости
  2. Код снабжен подробными комментариями, что позволяет проследить этапы обработки данных — от очистки и преобразования до агрегации и визуализации

Вывод

Мой проект демонстрирует анализ данных об олимпийских медалях за период с 1896 по 2024 год. Полученные инфографики позволяют:

  1. Проследить динамику общего количества медалей по годам
  2. Сравнить показатели стран в разрезе всего периода, определив топ-10 стран по золотым медалям
  3. Проанализировать распределение типов медалей и выявить соотношение между золотыми медалями и общим числом медалей
  4. Сделать выводы о том, какие страны традиционно лидируют и как изменяются спортивные достижения с течением времени

Такой анализ может стать полезным инструментом как для исследований в области спорта, так и для формирования идей по оптимизации подготовки спортсменов

Спасибо за внимание!

Динамика спортивных достижений стран на Олимпийских играх
4
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more