Original size 894x1173

Анализ датасета из ресурса Kaggle Diabetes Health Dataset Analysis

PROTECT STATUS: not protected
11

Я выбрала именно этот датасет, так как мне всегда хотелось поучаствовать в научных исследованиях и привнести какой-то вклад. Но раз уж не научный, так аналитический, а я к тому же ещё и дизайнер, так что попробую помочь научным работникам визуализировать данные и работать с ними для решения проблем диабетиков.

Виды графиков

1. Хитмэп график; 2. Столбчатый график; 3. Хитмэп корреляций признаков; 4. Линейный график зависимости; 5. Скеттер график после кластеризации.

Этапы работы

1. Выбор данных, которые интересно проанализировать, предобработка данных; 2. Анализ данных; 3. Визуализация.

Оформление графиков

В оформлении графиков я использовала разные символы, которые напоминают детские пластыри в сочетании с разноцветными графиками, что отражает тему датасета.

Описание датасета

Данный датасет содержит комплексные данные о здоровье 1,879 пациентов, уникально определённых идентификаторами в диапазоне от 6,000 до 7,878. Данные включают демографические сведения, факторы образа жизни, медицинскую историю, клинические измерения, использование лекарств, симптомы, оценки качества жизни, экологические воздействия и здоровые привычки. Каждый пациент связан с конфиденциальным врачом, ответственным за него, обеспечивая конфиденциальность и неразглашение данных. Этот датасет идеален для исследователей и дата-саентистов, желающих изучить факторы, связанные с диабетом, разработать прогностические модели и провести статистические анализы.

Сделаю общую предобработку (импорт библиотек, поверхностный анализ и т. д.).

Original size 2664x872

Ещё я почищу данные. Например, я выяснила, что ID пациента и доктор, который отвечает за пациента, нас не особо интересуют. Поэтому я уберу эти колонки, чтобы «чище» посмотреть на визуализацию.

Original size 886x108

Сначала хочу общо рассмотреть данные в датасете по признакам, так я сделаю интерактивный график, чтобы переключаться между графиками, так как признаков очень много.

Ещё я стилизовала с помощью ChatGPT в красно-оранжевые цвета, он предложил «использовать цветовую палитру „RdYlBu“ из библиотеки Seaborn для создания красно-жёлтых оттенков на гистограмме и текстовых элементах графика. Таким образом, вы сможете стилизовать график в соответствии с заданными цветовыми предпочтениями.»

ПРОМТ — сделай код стилизованным в красно-жёлтых оттенках.

Original size 1418x828
Original size 1312x896

Теперь я хочу посмотреть на корреляцию признаков и выявить те, которые стоит подробнее исследовать.

Original size 1470x714
Original size 1684x1426

От меня полезнее будет исследование вредных привычек и их влияние на здоровье людей разных возрастов и гендера, поэтому я сгруппирую их в отдельный датафрейм.

Original size 2662x714
Original size 2158x718

Тут я попросила ChatGPT стилизовать колонки каким-то принтом (напоминает детский пластырь).

ПРОМТ — стилизуй график, чтобы колонки были с принтом.

Original size 1584x846

Распределение вредных привычек по возрасту и гендеру

Теперь я построю график для визуализации матрицы корреляции факторов здоровья среди различных групп людей (по полу и кластерам), предварительно используя метод группировки данных с помощью алгоритма KMeans и интерактивные возможности библиотеки Plotly Express. График позволяет визуально сравнить взаимосвязь между различными факторами здоровья (индекс массы тела, курение, потребление алкоголя, физическая активность, качество диеты, качество сна) и выделенными кластерами людей. Это поможет вам лучше понять взаимосвязи между этими факторами и группировкой людей по их характеристикам здоровья.

Original size 2226x868
Original size 1408x961

Матрица корреляции факторов здоровья по полу и кластерам

Надеюсь, что моё мини-исследование поможет в научной сфере или хотя бы предупредит людей остерегаться вредных привычек во избежания заболеваний.

Анализ датасета из ресурса Kaggle Diabetes Health Dataset Analysis
11
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more