
Я выбрала именно этот датасет, так как мне всегда хотелось поучаствовать в научных исследованиях и привнести какой-то вклад. Но раз уж не научный, так аналитический, а я к тому же ещё и дизайнер, так что попробую помочь научным работникам визуализировать данные и работать с ними для решения проблем диабетиков.
Виды графиков
1. Хитмэп график; 2. Столбчатый график; 3. Хитмэп корреляций признаков; 4. Линейный график зависимости; 5. Скеттер график после кластеризации.
Этапы работы
1. Выбор данных, которые интересно проанализировать, предобработка данных; 2. Анализ данных; 3. Визуализация.
Оформление графиков
В оформлении графиков я использовала разные символы, которые напоминают детские пластыри в сочетании с разноцветными графиками, что отражает тему датасета.
Описание датасета
Данный датасет содержит комплексные данные о здоровье 1,879 пациентов, уникально определённых идентификаторами в диапазоне от 6,000 до 7,878. Данные включают демографические сведения, факторы образа жизни, медицинскую историю, клинические измерения, использование лекарств, симптомы, оценки качества жизни, экологические воздействия и здоровые привычки. Каждый пациент связан с конфиденциальным врачом, ответственным за него, обеспечивая конфиденциальность и неразглашение данных. Этот датасет идеален для исследователей и дата-саентистов, желающих изучить факторы, связанные с диабетом, разработать прогностические модели и провести статистические анализы.
Сделаю общую предобработку (импорт библиотек, поверхностный анализ и т. д.).


Ещё я почищу данные. Например, я выяснила, что ID пациента и доктор, который отвечает за пациента, нас не особо интересуют. Поэтому я уберу эти колонки, чтобы «чище» посмотреть на визуализацию.
Сначала хочу общо рассмотреть данные в датасете по признакам, так я сделаю интерактивный график, чтобы переключаться между графиками, так как признаков очень много.
Ещё я стилизовала с помощью ChatGPT в красно-оранжевые цвета, он предложил «использовать цветовую палитру „RdYlBu“ из библиотеки Seaborn для создания красно-жёлтых оттенков на гистограмме и текстовых элементах графика. Таким образом, вы сможете стилизовать график в соответствии с заданными цветовыми предпочтениями.»
ПРОМТ — сделай код стилизованным в красно-жёлтых оттенках.
Теперь я хочу посмотреть на корреляцию признаков и выявить те, которые стоит подробнее исследовать.
От меня полезнее будет исследование вредных привычек и их влияние на здоровье людей разных возрастов и гендера, поэтому я сгруппирую их в отдельный датафрейм.
Тут я попросила ChatGPT стилизовать колонки каким-то принтом (напоминает детский пластырь).
ПРОМТ — стилизуй график, чтобы колонки были с принтом.
Распределение вредных привычек по возрасту и гендеру
Теперь я построю график для визуализации матрицы корреляции факторов здоровья среди различных групп людей (по полу и кластерам), предварительно используя метод группировки данных с помощью алгоритма KMeans и интерактивные возможности библиотеки Plotly Express. График позволяет визуально сравнить взаимосвязь между различными факторами здоровья (индекс массы тела, курение, потребление алкоголя, физическая активность, качество диеты, качество сна) и выделенными кластерами людей. Это поможет вам лучше понять взаимосвязи между этими факторами и группировкой людей по их характеристикам здоровья.
Матрица корреляции факторов здоровья по полу и кластерам
Надеюсь, что моё мини-исследование поможет в научной сфере или хотя бы предупредит людей остерегаться вредных привычек во избежания заболеваний.