
Выбор данных и источник
Для анализа я выбрала исторический датасет Titanic, содержащий информацию о пассажирах одноимённого лайнера и факте их выживания после крушения. Датасет загружен автоматически из открытой библиотеки Seaborn, что исключает необходимость скачивания и ручной загрузки файла.
Почему я выбрала данные о выживших после крушения «Титаника»:
Мне было особенно интересно проанализировать этот датасет, потому что трагедия «Титаника» — не просто набор чисел. Это история о человеческих судьбах, о неравенстве, о случайности и о выборе. В этом проекте под сухими статистическими данными скрыто отражение больших социальных процессов. Каждая строка в таблице — это человек, который однажды сел на корабль, не зная, что через 100 лет его судьба будет интересовать людей по всему миру.
Так какие же факторы действительно способны определить нашу судьбу?
Какие виды графиков я использовала и почему
Я выбрала 5 видов визуализаций — каждый раскрывает разные стороны данных:
1. Столбиковая диаграмма — показывает общую долю выживших. Простой способ быстро оценить масштаб трагедии. 2. Горизонтальные бары — сравнение вероятности выживания по полу. 3. Линейный график — демонстрирует выживаемость по классам кают и позволяет проследить тенденцию и показать социальное неравенство. 4. Ступенчатая линия по возрастным группам — отражает влияние возраста. 5. Точечный график — показывает связь между возрастом, тарифами и выживаемостью. Именно он формирует объясняющее представление о том, какие пассажиры имели больше шансов.
Совместно эти графики дают цельную картину факторов выживания.
Этапы работы
1. Загрузка данных

Стилизация графиков
В качестве референса я использовала тёмные минималистичные инфографики с неоновыми акцентами, и на ихоснове создала собственный стиль:
Такой стиль делает графики современными, читабельными и визуально цельными.
Использованные статистические методы
1. Частоты и проценты
Использовались для вычисления доли выживших и групповых сравнений.
2. Группировка данных (groupby)
Применялась для анализа по полу, возрасту, классу.
3. Среднее значение бинарной переменной
Поскольку Survived = 0 или 1, среднее совпадает с вероятностью выжить.
4. Категоризация признаков
Разделение возраста на группы позволило оценить тенденции по возрастным кластерам.
5. Корреляционный анализ (визуальный)
Scatter-график помогает увидеть корреляцию между стоимостью билета и шансом выжить.
График 1. Общая доля выживших и погибших
Это самый общий срез: какая доля пассажиров в принципе выжила, а какая — погибла. Сразу видно масштаб трагедии: выживших значительно меньше половины. Этот график стоит в начале, чтобы создать эмоциональный контекст для всех последующих.
График 2. Вероятность выжить по полу
На графике видно сильное различие между мужчинами и женщинами. Женщины имели намного более высокую вероятность выжить. Как мне кажется, этот график наглядно иллюстрирует, как работал принцип «женщины и дети — вперёд» во время катастрофы.
График 3. Выживаемость по классам кают
Линия на графике чётко убывает от 1-го к 3-му классу. Пассажиры 1-го класса имели гораздо большую вероятность выжить, чем 3-го. Это наглядно иллюстрирует социальное неравенство: место билета = шанс человека на жизнь.
График 4. Выживаемость по возрастным группам
Ступенчатая линия отражает изменение вероятности выжить от детства к старости. По графику видно, что у самых маленьких (0–12) вероятность выше, у взрослых среднего возраста — ниже, а у пожилых — одна из самых низких. Этот график помогает ответить на вопрос: насколько принцип «сначала дети» был реализован на практике.
График 5. Возраст, стоимость билета и выживаемость
Этот график — объясняющий, он помогает увидеть, что среди дорогих билетов доля выживших выше. При этом у молодых и с дорогими билетами точек «выжил» больше, чем «не выжил». Визуально видно, как Возраст + Стоимость совместно связаны с шансом выживания. Это свидетельствует о необходимости многомерного анализа: в любой катастрофе для выживания важен не один фактор, а их удачная комбинация.
Использование нейросетей
При написании кода я использовала ChatGPT для:
Промпты включали:
Блокнот и данные
Датасет загружался мной автоматически через Seaborn. Ссылка на блокнот с облаком: https://cloud.mail.ru/public/KVz9/QTfAubqJY