
Концепция

Динамика спортивных достижений стран на Олимпийских играх в период с 1896 по 2024 год: выявление ключевых трендов, изменений в лидерстве и факторов, влияющих на медальный зачет
Для исследования я выбрала датасет «Olympics (1896-2024).csv», который содержит данные о медалях (золотых, серебряных, бронзовых и общее число) стран за период с 1896 по 2024 год. Данные были получены с Kaggle.
Этот набор данных интересен, поскольку: 1. Он охватывает длительный временной промежуток, позволяя отслеживать динамику спортивных успехов стран 2. Данные содержат как количественные показатели (количество каждого типа медалей), так и ранжирование стран, что даёт возможность глубоко проанализировать тренды 3. Такой анализ может выявить изменения в лидерстве, влияние глобальных событий на спортивные достижения и помочь понять, какие страны традиционно доминируют в спорте
В данном проекте использовался ChatGPT для поиска подсказок по улучшению стилизации графиков. В процессе работы использовались следующие промпты: — Как сгруппировать данные по столбцу Year с помощью Pandas? — Как настроить стиль графиков в Seaborn для создания консистентной инфографики?
Ссылка на модель: https://openai.com/chatgpt
Ссылка на блокнот с кодом: https://colab.research.google.com/drive/1_zrKIzyJA_EoZlW-ilF_bAHGaRHFb3fa#scrollTo=xHrC_XjJdkee
Вводная часть анализа и подбор графиков
Сначала я загрузила CSV-файл с данными при помощи Pandas и провела предварительную очистку: преобразовала столбец Year к числовому типу, обработала пропуски. Потом сгруппировала данные по годам, чтобы анализировать динамику общего количества медалей, агрегировала данные по странам для определения топ-10 стран по золотым медалям за весь период, подсчитала суммарное распределение типов медалей за весь период. Далее построила следующие графики: столбчатая диаграмма для топ-10 стран по золотым медалям, круговая диаграмма, иллюстрирующая распределение типов медалей за весь период, линейный график, отображающий тенденции общего количества медалей по годам, scatter plot (с регрессионной линией) для анализа зависимости между количеством золотых медалей и общим числом медалей (по всем годам) и гистограмма распределения общего числа медалей, объединённых за все года. Для стилизации графиков мною использована современная цветовая палитра («viridis» из Seaborn) и настройки Matplotlib, чтобы придать оригинальный внешний вид визуализациям
Этапы работы и описание кода
Ниже приведён пример кода. Код включает все этапы: от загрузки данных и их очистки до построения графиков
Настройка стиля графиков
Настраиваю стиль отображения графиков, выбираю тему Seaborn с палитрой «viridis» и устанавливаю общие параметры для графиков (размер фигур, размеры шрифтов и т. д.)
Загрузка данных

Здесь читаю CSV-файл с данными олимпийских медалей с помощью Pandas и вывожу первые строки датасета для предварительного осмотра его структуры
Предварительная обработка данных. Приведение столбца 'Year' к числовому типу
Преобразую столбец 'Year' в числовой тип и удаляю те строки, где год не удалось преобразовать (получился NaN)
Для контроля качества данных вывожу общую информацию о датасете
Агрегация данных
Агрегирую данные по годам и суммирую количество золотых, серебряных, бронзовых и общее количество медалей для анализа динамики по годам
Для определения стран-лидеров агрегирую данные по странам (столбец NOC) и суммирую золотые медали за весь период, после чего выбираю топ-10
Подсчитываю суммарное количество медалей каждого типа за весь период
Визуализация данных

Строю столбчатую диаграмму для визуального сравнения общего количества золотых медалей у топ-10 стран за весь период

Используя круговую диаграмму, визуализирую доли каждого типа медалей за весь период

Строю линейный график, который показывает, как менялось общее количество медалей с течением времени
Scatter plot с регрессионной линией

Строю scatter plot для анализа зависимости между количеством золотых медалей и общим числом медалей (используем данные по всем записям) с нанесением регрессионной линии
Гистограмма распределения общего числа медалей

Дополнительно строю гистограмму, которая показывает распределение общего числе медалей для всего периода
Сохранение результатов
Сохраняю агрегированные данные по годам в отдельный CSV-файл для дальнейшего анализа
Итоговое оформление и облачное хранение
Столбчатая диаграмма, которая показывает топ-10 стран (по их коду NOC) с наибольшим общим числом золотых медалей за весь период, представленный в датасете. Из вывода этого графика можно сделать следующие выводы: 1) выборка топ-10 стран позволяет сразу увидеть наиболее успешных участников Олимпийских игр по золотым медалям; 2) диаграмма наглядно демонстрирует, какие страны доминируют в получении золотых наград на протяжении всей истории соревнований, 3) использование цветовой схемы «viridis» и удобное расположение подписей делают визуализацию интуитивно понятной, способствуя быстрому сравнению показателей между странами. Такой анализ может указывать на долгосрочные успехи и устойчивость спортивных программ в данных странах, если они стабильно занимают лидирующие позиции по числу золотых медалей. В итоге, используя этот график, можно быстро определить, какие страны являются лидерами по золотым медалям, а также оценить разрыв между лидерами и остальными участниками соревнований

Данная диаграмма иллюстрирует относительные доли каждого типа медалей (золотых, серебряных, бронзовых) по агрегированным данным за весь период, охватывающий все Олимпийские игры из датасета. Используемые значения берутся из словаря medals_sum_all, где для каждой категории (Gold, Silver, Bronze) считается суммарное количество медалей за все годы. Применение палитры «viridis» придает визуализации современный вид, а форматирование с помощью autopct позволяет наглядно увидеть процентное соотношение между медалями различных типов. Таким образом, анализ данной визуализации помогает определить, как распределяются медали по типам за весь период и может служить отправной точкой для дальнейшего изучения, например, выявления тенденций или анализа различий в результативности стран на различных этапах истории Олимпийских игр
Данный график отражает динамику общего количества медалей на Олимпийских играх за весь период, представленный в датасете. По оси X расположены года, а по оси Y — суммарное количество медалей, завоеванных всеми странами за соответствующий год. Наблюдается восходящая линия, это может свидетельствовать о росте числа медалей с течением времени, что часто связано с увеличением числа участников, расширением программы Олимпийских игр и ростом количества дисциплин. Наличие колебаний и пиков на графике может указывать на годы с необычно высоким или низким количеством медалей, что может быть связано с изменениями в формате игр или внешними факторами (например, политическими или экономическими). Таким образом, аналитика по этому графику позволяет сделать вывод о том, как менялась общая результативность стран на Олимпийских играх на протяжении всей истории соревнований, выявить тенденции роста, спада или нестабильности
График показывает зависимость между количеством золотых медалей (ось X) и общим числом медалей (ось Y) для всех записей датасета. Наличие регрессионной линии (красная линия) указывает на наличие линейной корреляции между этими показателями. Это означает, что страны, выигравшие больше золотых медалей, имеют и большее общее число медалей. Точки распределены относительно близко к регрессионной линии, что свидетельствует о сильной корреляции между золотыми медалями и общим числом медалей
Гистограмма показывает, как распределяется общее количество медалей (столбец Total) по всем записям датасета за весь период. Использование 20 bins позволяет увидеть, в каком диапазоне значений чаще всего встречается общее число медалей, а добавление KDE-кривой помогает оценить плотность распределения. Можно заметить, что распределение скошено в одну сторону, что говорит о несимметричном распределении (несколько стран обладают значительно большим количеством медалей, что создаёт длинный хвост). Таким образом, анализируя данную гистограмму, можно судить о том, насколько равномерно или нерегулярно распределяется общее количество медалей между странами или по годам, а также выявить наличие выбросов или аномалий в данных
Ключевые моменты анализа и стилизация
Вывод
Мой проект демонстрирует анализ данных об олимпийских медалях за период с 1896 по 2024 год. Полученные инфографики позволяют:
Такой анализ может стать полезным инструментом как для исследований в области спорта, так и для формирования идей по оптимизации подготовки спортсменов
Спасибо за внимание!