Выбранные данные и источник
Для анализа я использовала датасет Formula-1 Pit Stop Performance Dataset с платформы Kaggle. В ней собрана информация о командах, пит-стопах, продолжительности пит-стопов и прочих показателях в период с 1994 г. по 2010 г. Это позволяет проанализировать полную информацию и проследить динамику.
Почему эти данные мне интересны
Пит-стоп — один из ключевых элементов автогонок. Несколько секунд, проведённых на пит-лейне, могут определить позицию пилота и итог всей гонки. Несмотря на то, что пит-стопы являются регулярной частью соревнований, их скорость и стабильность существенно различаются в зависимости от года, условий и стратегии команд. Цель данного проекта — проанализировать скорость пит-стопов, выявить типичные значения, разброс и динамику изменений во времени, а также понять, можно ли говорить о росте эффективности пит-стопов на протяжении лет.
Какие графики были использованы и почему
Для визуализации я выбрала 4 типа графиков: • Линейный график — показывает изменение медианного времени пит-стопов по годам. Выбран для анализа динамики скорости во времени. • Гистограмма распределения — Показывает, как распределены значения времени пит-стопов. Помогает выявить типичные значения и наличие выбросов. • Boxplot — Используется для сравнения распределений скорости пит-стопов по годам. Позволяет одновременно оценить медиану и разброс данных.
Эти виды визуализации позволяют рассмотреть изучаемый вопрос с разных сторон.
Ход работы и обработка данных
Чтение и обработка:
Работа начиналась с настройки аналитической среды и подключения базовых инструментов для анализа данных, визуализации и статистических вычислений.
Обозначила исследуемые параметры.
Импортировала данные из файла pitstops.csv в pandas с помощью pd.read_csv.
Переводим данные в long-формат.
Запускаем проверку на пропуски.
Запускаем проверку на дубликаты
Добавление цветовой палитры и стилей.
Цветовая палитра.
Цветовая палитра проекта основана на визуальных и смысловых ассоциациях с автогонками и высокой скоростью. Красный цвет используется как основной акцент, символизируя скорость, напряжение и соревновательный характер гонок. Тёмные оттенки чёрного и графита отсылают к асфальту трассы и технической среде пит-лейна, подчёркивая индустриальный и инженерный характер данных. Светлые нейтральные цвета применяются для фона и вторичных элементов, обеспечивая контраст и визуальную чистоту, необходимую для корректного восприятия графиков и аналитической информации.
Анализ данных
Для первичного анализа был построен статистический профиль времени пит-стопов. Он позволяет оценить типичную скорость, разброс значений и наличие экстремальных случаев. Особое внимание уделяется медиане как устойчивой характеристике распределения.
Агрегация по годам позволяет перейти от отдельных наблюдений к анализу динамики скорости во времени. Помимо медианы учитывается интерквартильный диапазон, отражающий стабильность значений внутри года.
Вариационный ряд позволяет упорядочить медианные значения скорости по годам и оценить диапазон их изменений. Это даёт общее представление о характере временного ряда.
Статистики годового ряда описывают центральную тенденцию и разброс медианных значений скорости. Они используются для обобщённой оценки изменений эффективности пит-стопов.
Визуализация статистики
Линия отражает медианное время пит-стопов по годам. Заштрихованная область показывает интерквартильный диапазон и характеризует стабильность скорости.
Гистограмма показывает распределение значений времени пит-стопов. Наличие асимметрии и длинного хвоста объясняет выбор медианы как основной метрики.
Boxplot позволяет сравнить медианы и разброс значений между годами. Такой формат наглядно показывает изменения не только уровня, но и стабильности скорости.
Выводы и итоги проекта
В ходе анализа было рассмотрено распределение и динамика времени пит-стопов на основе исторических данных. Статистический профиль показал, что распределение скорости пит-стопов содержит выбросы, поэтому медиана является наиболее устойчивой и информативной характеристикой типичного времени остановки.
Агрегация данных по годам позволила выявить общую тенденцию изменения скорости пит-стопов. Наблюдается постепенное снижение медианного времени, что указывает на рост эффективности и оптимизацию процессов на пит-лейне. Одновременно с этим интерквартильный диапазон в ряде периодов сужается, что свидетельствует о повышении стабильности и стандартизации выполнения пит-стопов.
Таким образом, анализ показывает, что со временем пит-стопы становятся не только быстрее, но и более предсказуемыми. Выявленная тенденция отражает влияние технологического развития, накопленного опыта команд и совершенствования стратегий, что подтверждает значимость скорости пит-стопов как важного индикатора эффективности в автогонках.
Описание применения генеративной модели
В рамках выполнения проекта я использовала генеративную модель ChatGPT 5.2 в качестве вспомогательного аналитического инструмента.
ИИ применялся на нескольких этапах работы:
Поддержка при работе с кодом и анализом данных. В процессе анализа возникали технические сложности, связанные с агрегацией данных, расчётом статистических показателей и построением визуализаций. ИИ использовался для уточнения логики вычислений и оптимизации кода.
Редактура и структурирование аналитического текста. ИИ применялся для упрощения формулировок, логической организации выводов и приведения описаний к связному и объясняющему формату.
Создание визуальной обложки проекта. Генеративная модель использовалась для разработки концепции обложки, отражающей тему скорости и автогонок в абстрактной визуальной форме.