Original size 482x650

Анализ результатов футбольных матчей Большой Пятёрки

PROTECT STATUS: not protected
The project is taking part in the competition

КОНЦЕПЦИЯ

Футбол — один из самых популярных видов спорта в мире, который в последнее время привлёк и моё внимание. Именно поэтому я решила создать проект о лигах Большой пятёрки.

Для проекта был выбран датасет Big Five European Football Leagues Results (1995–2019) с сайта, включающий результаты матчей пяти крупнейших европейских чемпионатов: Англии, Германии, Италии, Испании и Франции. Датасет содержит информацию о командах, количестве забитых голов дома и в гостях, сезонах, результатах матчей и разнице голов.

Основным фокусом анализа стали показатели результативности команд и динамика голов по сезонам. Такой подход позволяет выявить статистические закономерности, связанные с домашними победами, разницей голов, а также сравнивать различные лиги и команды между собой. Анализ даёт возможность наглядно продемонстрировать тенденции, выявить лидеров и слабые стороны, а также визуализировать динамику футбольных событий на протяжении почти 25 лет.

ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ

Для визуализации данных я выбрала графики, показывающие ключевые аспекты футбольных матчей: Линейный график среднего количества голов дома и в гостях — демонстрирует динамику результативности команд в зависимости от места. Гистограмма разницы голов — показывает частоту побед с разным преимуществом и разброс результатов. Столбчатая диаграмма топ‑20 команд по домашним победам — выявляет лидеров и наглядно сравнивает успехи команд. Ящик с усами распределения голов по лигам — сравнивает показатели разных чемпионатов и показывает разброс голов. Точечная диаграмма домашних и гостевых голов — иллюстрирует зависимость результативности команды дома и в гостях.

ЭТАПЫ РАБОТЫ

Загрузка данных

big
Original size 376x189

На этом этапе был выполнен первичный осмотр данных и проверена корректность загрузки таблицы.

Первичный анализ и структура данных

Original size 279x149

Были выявлены:

пропущенные значения в некоторых колонках (например, голы в отдельных матчах или информация о лиге);

числовые и категориальные признаки различия в масштабах данных: например, разница между количеством голов в матчах и сезонными результатами команд;

структура данных позволяет выполнять группировки по сезонам, лигам и командам для анализа трендов и распределений;

типовые проблемы качества данных: потенциальные пропущенные или некорректные значения для некоторых матчей, которые необходимо учитывать при анализе

Очистка и обработка данных

Original size 694x285

Были проведены следующие шаги по подготовке данных:

преобразованы типы данных: числовые колонки FT Team 1 и FT Team 2 приведены к числовому формату, а Year — к строковому;

удалены строки с пропущенными значениями в колонках голов, чтобы избежать ошибок при анализе;

созданы новые признаки:

  • goal_diff — разница голов (домашние — гостевые),
  • home_win — бинарный признак победы домашней команды.

ИЗУЧАЮЩИЙ И ОБОБЩАЮЩИЙ ФОРМАТ ВИЗУАЛИЗАЦИИ

В проекте визуализации построены так, чтобы не просто показывать графики, а помогать изучать закономерности и объяснять их смысл, например:

линейные и столбчатые графики (среднее количество голов по странам, топ-20 команд по домашним победам) позволяют увидеть тренды и лидеров, а не просто значения;

гистограмма разницы голов показывает распределение результатов матчей, позволяя понять, насколько часто команды выигрывают с большим или малым преимуществом.

СТАТИСТИЧЕСКИЕ МЕТОДЫ

Для анализа данных применялись стандартные методы описательной статистики: Среднее значение (mean) — для оценки средней результативности команд в матчах дома и в гостях, по странам и командам. Гистограммы и ящик с усами — для визуального анализа распределения голов и выявления выбросов и разброса данных. Подсчет побед (value_counts) — для определения топовых команд по количеству домашних побед. Корреляция (corr) — для изучения взаимосвязи голов дома и в гостях. Линейные и столбчатые графики — для выявления трендов и динамики показателей по странам и командам

СТИЛИЗАЦИЯ ВИЗУАЛИЗАЦИЙ

Общий стиль: минимализм; редакционная инфографика в газетном духе; спокойные, приглушённые цвета; акцент на структуре данных, трендах и закономерностях.

Original size 1063x575

Цветовая палитра

Типографика: единый гротеск: DejaVu Sans / Inter / Source Sans; чёткая иерархия заголовков и подписей; минимум визуального шума: без лишних сеток, 3D-эффектов или ярких градиентов.

ИТОГОВЫЕ ГРАФИКИ

Original size 846x565
Original size 841x548
Original size 999x548
Original size 833x565
Original size 846x548

ИСПОЛЬЗОВАНИЕ НЕЙРОСЕТЕЙ

В процессе работы использовалась генеративная модель ChatGPT (OpenAI).

ИИ применялся для: помощи в структурировании проекта; формулировки концепции и аналитических выводов; уточнения формулировок и логики объяснений; поддержки при описании статистических методов.

Примеры промптов: «Помоги описать статистические методы простым языком» «Как объяснить визуализацию разницы годов для широкой аудитории»

ИИ не использовался для автоматического анализа данных или генерации графиков.

ИТОГОВЫЙ БЛОКНОТ И ДАТАСЕТ

По ссылке доступным блокнот с кодом, а также датасет, на котором основывался анализ.

Вывод

Анализ данных матчей пяти крупнейших европейских футбольных лиг показал ключевые закономерности результативности команд:

среднее количество голов различается по странам и лигам, отражая особенности стилей игры;

домашние команды чаще побеждают, что подтверждает эффект «домашнего поля»;

распределение разницы голов и корреляция домашних и гостевых голов помогают выявить стратегии команд и оценить вариативность результатов.

Визуализация данных в минималистичном и редакционном стиле позволяет наглядно изучать тенденции и объяснять закономерности, делая анализ понятным и доступным для аудитории

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more