
В рамках данного проекта я выбрала датасет о глобальных температурах и изменении климата, доступный на платформе Kaggle. Данный набор данных охватывает период с 1750 года и содержит важные сведения о температурных изменениях на поверхности Земли. Данные можно найти по следующей ссылке:
Климатические изменения и глобальное потепление представляют собой одну из самых актуальных и значимых проблем современности. Необходимо понять текущие тренды и прогнозировать будущие изменения, чтобы разрабатывать меры по снижению вредного воздействия на окружающую среду и адаптации к новым климатическим условиям. Данные о глобальных температурах представляют собой ценнейший ресурс для экологов, политиков и широкой общественности, предоставляя эмпирическую основу для принятия решений и планирования действий.
В рамках данного проекта я планировала выполнить анализ данных и визуализацию, используя библиотеку Pandas для обработки данных и библиотеки Matplotlib и Seaborn для их визуализации. Я также решила стилизовать визуализации в стиле Pop Art, чтобы привлечь внимание к проблеме глобального потепления и сделать графики более яркими и запоминающимися.
Этапы работы
Первоначально я загрузила данные с Kaggle и сохранила их в формате CSV. Далее, я загрузила файл на Google Диск для последующей работы с ним в Google Colab. Код для монтирования Google Диска и чтения данных из файла выглядит следующим образом:

Загрузка и подготовка данных
После первичного осмотра данных я обнаружила наличие пропущенных значений. Для корректного анализа было необходимо удалить строки с пропущенными значениями в столбцах, которые участвуют в анализе. Я также добавила столбец с годом для удобства последующей группировки данных.

Очистка и подготовка данных
Группировка данных по годам и расчет среднего значения температур позволили мне выявить тенденции изменения температуры на Земле с течением времени. Я также вычислила основные статистические показатели для получения более глубокого понимания данных.
Анализ данных
Для визуализации данных я выбрала стиль Pop Art, который привлекает внимание яркими цветами и смелыми графическими решениями. Я построила несколько типов графиков:
— Линейный график изменений средней температуры на Земле с течением времени. — Гистограмма распределения температурных аномалий. — Столбчатая диаграмма для сравнения среднегодовых температур в разных регионах. — Круговая диаграмма для пропорций температурных изменений по регионам.
Линейный график изменений средней температуры
Библиотека plt предоставляет богатый набор функций для управления внешним видом графика. В данном случае я использовала plt.figure (figsize=(10, 5)) для настройки размера графика, sns.lineplot () для построения линии, plt.title (), plt.xlabel () и plt.ylabel () для добавления заголовка и подписей к осям. plt.show () отображает полученный график.
Этот график показывает, как изменялась средняя температура на Земле с течением времени. Линия на графике свидетельствует о значительном увеличении температуры, особенно в последние десятилетия.
Гистограмма распределения температурных аномалий
В частности, я использовала функцию sns.histplot (), которая является частью библиотеки Seaborn, построенной на основе matplotlib. Она позволяет создавать гистограммы с различными параметрами. В данном случае, я установила количество интервалов (bins=30) для более подробного представления распределения данных, а также включила кривую плотности (kde=True) для наглядного отображения формы распределен
Гистограмма демонстрирует распределение температурных аномалий за весь период наблюдений. Большинство значений сосредоточены вокруг средней температуры, но имеются и отклонения, указывающие на экстремальные температурные события.
Столбчатая диаграмма для сравнения среднегодовых температур
Сначала я сгруппировала данные по году и региону, а затем рассчитала среднюю температуру для каждого региона в каждый год, используя df.groupby ([’year’, ’Region’])[[’LandAverageTemperature’]].mean ().reset_index ().
Затем, я использовала sns.barplot () для построения диаграммы, где ось X представляет год, ось Y — среднюю температуру, а цвет столбцов (hue) отображает разные регионы. Я задала цветовую палитру palette=’bright’ для лучшей визуализации.
Эта диаграмма позволяет сравнить среднегодовые температуры в разных регионах. На основе данных можно сделать вывод о том, какие регионы больше всего подвержены температурным изменениям.
Круговая диаграмма для пропорций температурных изменений
Сначала я посчитала количество записей для каждого региона с помощью df[’Region’].value_counts (), получая информацию о пропорциях регионов в данных.
Затем, используя plt.pie (), я создала круговую диаграмму, где каждый сегмент представляет регион. Я задала метки для каждого сегмента (labels=region_counts.index), формат отображения значений (autopct=’%1.1f%%’) и цветовую палитру (colors) для визуализации.
Эта диаграмма показывает пропорции данных по регионам, что позволяет оценить вклад каждого региона в общий набор данных.
Использование ChatGPT
Например, нейросеть указала мне на проблему в palette, который содержит больше цветов, чем количество уникальных регионов в моем наборе данных. Для исправления ошибки я указала palette=’bright’, чтобы seaborn автоматически выбрал подходящие цвета для каждого региона.
Заключение
Данный проект позволил мне глубже понять динамику изменения глобальных температур и представить результаты в наглядной и привлекательной форме. Анализ показал, что глобальное потепление является серьезной проблемой, требующей внимания и активных действий. Надеюсь, что яркие и запоминающиеся визуализации помогут привлечь внимание к этой важной теме и способствуют осознанию необходимости изменения подходов к охране окружающей среды.