Original size 912x1280

Выжившие после Титаника

PROTECT STATUS: not protected

Выбор данных и источник

Для анализа я выбрала исторический датасет Titanic, содержащий информацию о пассажирах одноимённого лайнера и факте их выживания после крушения. Датасет загружен автоматически из открытой библиотеки Seaborn, что исключает необходимость скачивания и ручной загрузки файла.

Почему я выбрала данные о выживших после крушения «Титаника»:

Мне было особенно интересно проанализировать этот датасет, потому что трагедия «Титаника» — не просто набор чисел. Это история о человеческих судьбах, о неравенстве, о случайности и о выборе. В этом проекте под сухими статистическими данными скрыто отражение больших социальных процессов. Каждая строка в таблице — это человек, который однажды сел на корабль, не зная, что через 100 лет его судьба будет интересовать людей по всему миру.

Так какие же факторы действительно способны определить нашу судьбу?

Какие виды графиков я использовала и почему

Я выбрала 5 видов визуализаций — каждый раскрывает разные стороны данных:

1. Столбиковая диаграмма — показывает общую долю выживших. Простой способ быстро оценить масштаб трагедии. 2. Горизонтальные бары — сравнение вероятности выживания по полу. 3. Линейный график — демонстрирует выживаемость по классам кают и позволяет проследить тенденцию и показать социальное неравенство. 4. Ступенчатая линия по возрастным группам — отражает влияние возраста. 5. Точечный график — показывает связь между возрастом, тарифами и выживаемостью. Именно он формирует объясняющее представление о том, какие пассажиры имели больше шансов.

Совместно эти графики дают цельную картину факторов выживания.

Этапы работы

1. Загрузка данных

big
Original size 1280x403

Стилизация графиков

Original size 1280x593

В качестве референса я использовала тёмные минималистичные инфографики с неоновыми акцентами, и на ихоснове создала собственный стиль:

  • фон: #050608
  • основной акцент: неоново-зелёный #9EFF3C
  • вспомогательный акцент: неоново-голубой #4EC5FF
  • сетка: тонкая, полупрозрачная, пунктирная
  • текст: светлый, контрастный

Такой стиль делает графики современными, читабельными и визуально цельными.

Original size 1280x274

Использованные статистические методы

1. Частоты и проценты Использовались для вычисления доли выживших и групповых сравнений. 2. Группировка данных (groupby) Применялась для анализа по полу, возрасту, классу. 3. Среднее значение бинарной переменной Поскольку Survived = 0 или 1, среднее совпадает с вероятностью выжить. 4. Категоризация признаков Разделение возраста на группы позволило оценить тенденции по возрастным кластерам. 5. Корреляционный анализ (визуальный) Scatter-график помогает увидеть корреляцию между стоимостью билета и шансом выжить.

График 1. Общая доля выживших и погибших

Original size 1280x701
Original size 1280x790

Это самый общий срез: какая доля пассажиров в принципе выжила, а какая — погибла. Сразу видно масштаб трагедии: выживших значительно меньше половины. Этот график стоит в начале, чтобы создать эмоциональный контекст для всех последующих.

График 2. Вероятность выжить по полу

Original size 1280x604
Original size 1280x776

На графике видно сильное различие между мужчинами и женщинами. Женщины имели намного более высокую вероятность выжить. Как мне кажется, этот график наглядно иллюстрирует, как работал принцип «женщины и дети — вперёд» во время катастрофы.

График 3. Выживаемость по классам кают

Original size 1280x721
Original size 1280x724

Линия на графике чётко убывает от 1-го к 3-му классу. Пассажиры 1-го класса имели гораздо большую вероятность выжить, чем 3-го. Это наглядно иллюстрирует социальное неравенство: место билета = шанс человека на жизнь.

График 4. Выживаемость по возрастным группам

0
Original size 1280x820

Ступенчатая линия отражает изменение вероятности выжить от детства к старости. По графику видно, что у самых маленьких (0–12) вероятность выше, у взрослых среднего возраста — ниже, а у пожилых — одна из самых низких. Этот график помогает ответить на вопрос: насколько принцип «сначала дети» был реализован на практике.

График 5. Возраст, стоимость билета и выживаемость

Original size 1280x726
Original size 1280x940

Этот график — объясняющий, он помогает увидеть, что среди дорогих билетов доля выживших выше. При этом у молодых и с дорогими билетами точек «выжил» больше, чем «не выжил». Визуально видно, как Возраст + Стоимость совместно связаны с шансом выживания. Это свидетельствует о необходимости многомерного анализа: в любой катастрофе для выживания важен не один фактор, а их удачная комбинация.

Использование нейросетей

При написании кода я использовала ChatGPT для:

  • разработки единого графического стиля,
  • описания статистических методов
  • исправлении ошибок в коде при возникновении подобных

Промпты включали:

  • «Создай минималистичный стиль графиков в неоновой тёмной палитре»
  • «Сделай графики в единой инфографической стилистике»

Блокнот и данные

Датасет загружался мной автоматически через Seaborn. Ссылка на блокнот с облаком: https://cloud.mail.ru/public/KVz9/QTfAubqJY

Выжившие после Титаника
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more