Описание
В рамках данной работы был проведён анализ датасета, посвящённого заболеваниям и медицинским показателям пациентов. Данные были получены не из открытого источника: ими со мной поделилась моя подруга, профессионально занимающаяся анализом данных. Датасет содержит информацию о демографических характеристиках пациентов, наличии сопутствующих заболеваний и медицинских факторов риска.
Выбор именно этих данных обусловлен личным интересом к теме. Заболевания, представленные в датасете, напрямую связаны с моим ближайшим окружением, поэтому анализ данной информации имеет для меня не только учебную, но и практическую и личную значимость. Работа с такими данными позволяет лучше понять возможные факторы риска и взаимосвязи между различными показателями здоровья.
Цель проекта — выявить факторы, связанные с повышенным риском приступов, и на основе анализа построить простую предиктивную модель.
Визуализация данных
Для визуального анализа данных были выбраны различные типы графиков: гистограммы, столбчатые диаграммы, boxplot-диаграммы и диаграммы распределения.
Такой выбор обусловлен тем, что разные типы визуализаций позволяют по-разному взглянуть на данные: изучить распределения признаков, сравнить группы между собой и выявить возможные зависимости между переменными.
Исходный датасет загружен через Dropbox. Формально — это данные частной клиники.
Этапы работы
Провести обработку: переименовать столбцы, убрать пропуски, привести типы данных в порядок. Изучить распределения признаков. Сравнить пациентов с приступами и без по ключевым параметрам. Построить простую модель для прогнозирования риска приступа. Визуализировать значимые выводы. Сформулировать общие выводы и рекомендации.
Вопросы исследования:
- Какие признаки чаще всего встречаются у людей, перенёсших приступ?
- Есть ли существенные отличия по возрасту, глюкозе, болезням, образу жизни?
- Какие группы риска можно выделить?
- Можно ли на основе имеющихся данных предсказать вероятность приступа?
- Какие параметры являются наиболее важными для прогнозирования?
Импорт библиотек
На первом этапе были подключены основные библиотеки для анализа и визуализации данных.
Настройка цветовой палитры
На данном этапе была создана пользовательская цветовая палитра, состоящая из пяти оттенков. Она применяется ко всем графикам автоматически, что обеспечивает единый визуальный стиль и повышает читаемость визуализаций.
Загрузка датасета
Происходит загрузка датасета из файла в формате CSV и сохранение его в объект DataFrame, с которым далее проводится анализ.
Первичное изучение данных
На первом этапе были загружены исходные данные и выполнено первичное ознакомление с датасетом. Были изучены структура данных, типы переменных и основные статистические характеристики. Также была проведена проверка на наличие пропущенных значений. Для работы использовались библиотеки pandas и numpy, обеспечивающие удобную обработку и анализ табличных данных.
Данные команды позволяют ознакомиться со структурой датасета, типами данных, количеством строк и столбцов, а также получить основные статистические характеристики числовых признаков.
Проверка и обработка пропусков


Построение гистограммы распределения
Анализ параметров пациентов с приступами
Средний уровень глюкозы по возрасту
Сердечные заболевания
Для всех графиков был выбран единый визуальный стиль. Использовалась ограниченная цветовая палитра приглушённых оттенков, что снижает визуальную перегруженность и повышает читаемость. Для оформления заголовков, подписей осей и легенд применялся единый шрифт, а размеры элементов графиков были согласованы между собой. Такой подход делает визуализации цельными и аккуратными, приближая их к формату аналитических и исследовательских работ.
Выводы
Самые значимые графики:
Взаимодействие наличия приступа с возрастом и с уровнем глюкозы. Именно по этим показателям данные показывают четкие паттерны. На основе этого я выяснила: у пациентов с приступами чаще наблюдаются пожилой возраст и высокий уровень глюкозы.
Другие графики были менее репрезентативными: большинство выводов было проблематично сформировать однозначно.
С точки зрения индекса массы тела:
Можно увидеть, что однозначной корелляции не присутствует — у обеих групп пациентов наблюдается, в основном, более низкий индекс. Повышение индекса не ведет к повышению вероятности приступа. С точки зрения наличия сердечных заболеваний можно увидеть, что вероятность приступа увеличивается и уменьшается в схожей пропорции — вывод состоит в том, что людей, у которых нет сердечных заболеваний, просто больше, а у них тоже может быть или не быть наличие сердечного приступа. Схожие выводы касаются и типа занятости, курения и наличия гипертонии. Вероятности варьируются в примерно схожих пропорциях, не выявляя определенных паттернов.
Заметно, что пожилые люди более подвержены риску сердечного приступа; У пациентов с высоким риском сердечного приступа более выражен высокий уровень глюкозы. В комплексном анализе также выявлено, что высокий уровень глюкозы опасен для возрастных пациентов.
Описание применения генеративной модели
ChatGPT5 (помогал мне исправлять ошибки в коде, и помогал структурировать текст для презентации). Для создания обложки проекта я использовала сервис Ideogram Для подбора цветовой палитры графиков я воспользовалась Adobe Color, чтобы цвета были гармоничными и соответствовали единому стилю презентации.



