Содержание

— Выбор данных — Почему именно эти данные? — Подход к визуализации — Обработка данных — Использование нейросетей — Стилизация графиков — Изучающий и объясняющий формат визуализации — Используемые статистические методы — Boxplot количественных показателей WHR — Scatterplot «ВВП на душу vs Уровень счастья» с линией регрессии — Boxplot уровня счастья по регионам мира — Карта Шухарта для России (2015–2021) — Ссылки на код и данные

Выбор источников

World Happiness Report — ежегодный отчёт о субъективном благополучии в более чем 150 странах (уровень счастья, свобода, социальная поддержка); World Bank Open Data — официальные макроэкономические показатели (ВВП на душу, продолжительность жизни, урбанизация и др.). Оба набора структурированы в формате CSV, регулярно обновляются и широко используются в научных и аналитических исследованиях.

Почему именно эти данные?

Меня заинтересовало, насколько субъективное ощущение счастья связано с объективными условиями жизни. Это социально значимый вопрос: понимание таких связей помогает правительствам и международным организациям принимать решения, направленные на реальное улучшение качества жизни. Кроме того, данные WHR основаны на опросах Gallup World Poll — одном из самых надёжных источников глобальных социологических данных.

Подход к визуализации

Для наглядности и глубины анализа использованы разные типы графиков: Гистограммы и boxplot — для оценки распределения и выявления выбросов; Scatterplot с линиями тренда — для демонстрации корреляций; Столбчатые диаграммы — для сравнения регионов и кластеров; Линейные графики и контрольные карты — для анализа динамики во времени. Каждый график не просто красив, а несёт конкретную аналитическую нагрузку — он объясняет, а не только показывает.

Обработка данных

Вся обработка данных проводилась в Python с использованием библиотеки Pandas. Работа шла в несколько этапов: Загрузка данных — через официальный API Kaggle (kagglehub) были скачаны два датасета: World Happiness Report (158 стран за один год), World Bank Open Data (более 21 тыс. строк, содержащих проектные и агрегированные макроэкономические данные). Проверка качества — анализ на пропуски, дубликаты и типы данных. WHR оказался полностью чистым; в WBOD пропуски были только во вспомогательных полях и не влияли на ключевые показатели (ВВП, население). Базовая очистка — удаление дубликатов (хотя их не было) и фильтрация по наличию названия страны. Анализ временного ряда — для второй части исследования был загружен многолетний датасет World Happiness Report 2015–2022, отфильтрованы данные по России, преобразованы в числовой формат и удалены пропуски. Весь код структурирован по блокам: загрузка → очистка → анализ → визуализация. Это позволило легко воспроизводить каждый этап.

Нейросети не использовались для анализа или моделирования. Вместо этого применялись классические статистические и машинно-обучающие методы (линейная регрессия, K-means, просы вроде «как рассчитать коэффициент вариации в pandas», «почему возникает ошибка при построении карты Шухарта», «как правильно оформить сводную таблицу по регионам». Это ускорило разработку и помогло избежатьANOVA), которые лучше подходят для интерпретируемости и соответствуют задачам исследования. Однако ChatGPT активно использовался как помощник при написании и отладке кода: за типичных ошибок.

Графики

Графики создавались с помощью Matplotlib и Seaborn с акцентом на ясность и консистентность, а не на декоративность. Основные принципы стилизации: Единая цветовая палитра: #4e79a7 (синий) — для высоких значений / благополучных групп, #f28e2b (оранжевый) — для средних, #e15759 (красный) — для низких / уязвимых. Все графики содержат заголовки, подписи осей, легенды и сетку для удобства чтения. Использованы разные типы визуализаций в зависимости от задачи: гистограммы — для распределений, scatterplot — для корреляций, линейные графики — для трендов. Вдохновением послужили работы The Economist и FiveThirtyEight — минималистичные, но информативные графики, где данные «говорят сами за себя».

Изучающий и объясняющий формат визуализации

Каждый график не просто показывает данные, а объясняет вывод: На scatterplot с регрессией подписаны коэффициент корреляции и p-value — сразу видно силу связи. Boxplot по регионам сопровождается ANOVA-результатами — визуально и статистически подтверждены различия. Карта Шухарта включает границы допуска (LSL/USL) и контрольные пределы — можно оценить и стабильность, и соответствие цели. Временной ряд содержит скользящую среднюю и прогноз — чётко видна тенденция и её продолжение. Такой подход превращает графики из иллюстраций в инструменты анализа.

Исходный размер 754x699

Используемые статистические методы

1. Описательная статистика: среднее, медиана, стандартное отклонение, коэффициент вариации, квартили. 2. Корреляционный анализ: коэффициент Пирсона с проверкой p-value. 3. Регрессионный анализ: линейная и полиномиальная модели, оценка R², MAE, MPE. 3. Дисперсионный анализ (ANOVA): проверка различий между регионами, с предварительной проверкой гомогенности дисперсий (тест Левена). 4. Кластерный анализ: K-means с определением оптимального числа кластеров (метод локтя, силуэт). 5. Статистический контроль качества: карта Шухарта, индексы Cp и Cpk. 6. Анализ временных рядов: скользящая средняя, цепные и базисные показатели динамики (абсолютные приросты, темпы роста и прироста). Все методы выбраны целенаправленно и интерпретированы в контексте социально-экономической реальности.

Исходный размер 1179x665

Boxplot количественных показателей WHR

Тип: Горизонтальный boxplot (ящик с усами) Что показывает: Распределение ключевых показателей счастья — разброс, медиану, наличие выбросов. Почему важен: Демонстрирует, что данные «чистые» (нет экстремальных выбросов), а также позволяет сравнить вариативность разных факторов (например, доверие к власти сильно варьируется, а ВВП — умеренно). Из какого блока кода: «Первая часть. 3. Первичный анализ данных» → визуализация, subplot (2,2,2)

Исходный размер 1239x591

Scatterplot «ВВП на душу vs Уровень счастья» с линией регрессии

Тип: Точечная диаграмма \+ линия тренда Что показывает: Сильную положительную корреляцию между экономическим благосостоянием и субъективным ощущением счастья. Подписаны r = 0.78 и p < 0.001. Почему важен: Это ключевая гипотеза всего исследования — и она визуально и статистически подтверждена. Из какого блока кода: «Первая часть. 4. Анализ взаимосвязей» → первый scatterplot в сетке

Исходный размер 1280x849

Boxplot уровня счастья по регионам мира

Тип: Вертикальный boxplot с категориями Что показывает: Статистически значимые различия между регионами (ANOVA: p < 0.001). Западная Европа — вверху, Африка — внизу. Почему важен: Подтверждает, что география и культура влияют на благополучие, даже при схожих экономических условиях. Из какого блока кода: «Первая часть. 6. Дисперсионный анализ (ANOVA)» → plt.figure (figsize=(12, 7))

Исходный размер 951x701

Карта Шухарта для России (2015–2021)

Тип: Линейный график с контрольными и спецификационными границами Что показывает: Фактические точки (голубые кружки), Центральную линию (CL), Контрольные пределы (UCL/LCL — красные пунктиры), Целевой диапазон (LSL/USL — фиолетовая и оранжевая пунктирные линии). Почему важен: Это уникальный элемент вашего проекта — применение методов промышленного контроля качества к социальным данным. Показывает: процесс стабилен, но не соответствует целевому уровню (Cpk = 0.42). Из какого блока кода: «Вторая часть. 3. Карта Шухарта и индекс пригодности процесса»

Исходный размер 780x497

Ссылка на код и датасет: https://drive.google.com/drive/folders/1hei9exMjETbe7o1g2hEdvYTcOQCznjdQ?usp=sharing

Анализ данных и визуализация благополучия в разных странах