
Описание
В рамках этого проекта я проанализировала Obesity Prediction Dataset, который содержит данные о факторах, влияющих на развитие ожирения у людей. Я сама увлекаюсь спортом, считаю калории и стараюсь поддерживать здоровый образ жизни, поэтому эта тема мне интересна. Плюс в последние годы эта проблема становится всё более актуальной: уровень ожирения растет, что, в свою очередь, влияет на качество жизни и здоровье людей по всему миру. Анализ таких факторов, как питание, физическая активность, вредные привычки и другие, помогает лучше понять, что именно играет ключевую роль в поддержании нормального веса.
Для проекта я использовала данные с kaggle, доступны по ссылке: Obesity Prediction Dataset на Kaggle
Оформление
Большинство людей думают, что проблема лишнего веса именно в сладком, поэтому у многих оно является триггерным продуктом. Моим вдохновением стали работы Уэйна Тибо — американского художника, который как раз писал сладости (пирожные, мороженое, торты) в стиле поп-арт. Основные и акцентные цвета его работ я использовала в создании своих графиков.

работы Уэйна Тибо

цветовая палитра
Тёмно-серый фон (#2F2F2F) для визуальной приятности при чтении
Лиловый (#B9AEDC) к насыщенному красному (#D91C24) градиент — символизация перехода от нормальных значений к более важным или критическим Белый (#FFFFFF) и чёрный (#000000) для текста и рамок — чёткие и яркие цвета, которые делают текст и элементы графика хорошо видимыми на темном фоне
Для визуализации данных я использовала корреляционную матрицу (помогает лучше понять структуру данных и идентифицировать важные взаимосвязи), боксплот (позволяет наглядно увидеть распределение возраста в разных группах уровня ожирения, показывая медиану, кварталы и возможные выбросы), гистограмму (позволяет анализировать связь между курением и уровнем ожирения в исследуемой выборке) и точечную диаграмму (показывает взаимосвязь роста и веса).
Предобработка данных
План:
1. Изучение структуры данных Нужно понять, какие признаки присутствуют в данных, какие типы данных в них содержатся и есть ли пропущенные значения, чтобы выбрать правильный способ их обработки.
2. Обработка пропущенных значений Пропущенные значения могут искажать результаты анализа, и их нужно корректно обработать, чтобы данные стали полноценными для дальнейшего анализа.
3. Преобразование категориальных признаков Большинство аналитических методов требуют, чтобы категориальные данные были преобразованы в числовые, чтобы их можно было использовать в моделях.
4. Обработка выбросов Выбросы могут сильно исказить результаты анализа или модели, поэтому важно их корректно выявить и либо удалить, либо обработать, чтобы не нарушать общие тенденции.
5. Преобразование целевой переменной Требуется для выявления корреляций.
1.Библиотеки 2.Загрузка данных 3.Изучение структуры данных 4.Обработка пропущенных значений 5.Преобразование категориальных признаков 6.Обработка выбросов 7.Преобразование целевой переменной
Визуализация данных
корреляционная матрица
Из матрицы видно, что семейная история избыточного веса (family_history_with_overweight) и частота потребления высококалорийной пищи (FAVC) имеют значительную связь с уровнем ожирения. Также важно учитывать физическую активность (FAF) и частоту потребления овощей (FCVC), которые могут способствовать снижению риска ожирения. В то время как использование технологий (TUE) и выбор транспорта (MTRANS) могут быть связаны с малоподвижным образом жизни и увеличением вероятности ожирения
боксплот
Из боксплота видно, что наибольшее количество людей с избыточным весом и ожирением сосредоточено в возрасте от 20 до 40 лет. В то же время, люди с недостаточным весом и ожирением более старшего возраста, как правило, старше 30 лет
гистограмма (1)
Из графика видно, что большинство людей, независимо от уровня ожирения, не курят, с наибольшей концентрацией среди тех, кто имеет нормальный вес. В то же время курящих наблюдается значительно меньше, особенно среди людей с ожирением более высоких типов (Obesity Type II и III), что может свидетельствовать о более низкой распространенности курения среди людей с более выраженными стадиями ожирения
гистограмма (2)
Из графика видно, что наибольшая концентрация людей с ожирением (особенно с типами ожирения II и III) наблюдается среди тех, кто часто или всегда потребляет пищу между основными приемами пищи (часто выбирают «Sometimes» или «Always» в категории Eating Habits). Люди с нормальным весом в основном выбирают «No» или «Sometimes», что свидетельствует о более здоровых пищевых привычках.
точечная диаграмма
Из графика видно, что с увеличением роста (в пределах 1.5–1.9 м) также увеличивается вес, особенно среди людей с ожирением более высоких типов (Obesity Type II и III). Люди с нормальным весом и недостаточным весом (Insufficient Weight) имеют меньшие значения массы тела при том же росте, что подтверждает тенденцию к более низким значениям веса у этой группы по сравнению с другими уровнями ожирения.
Заключение
Итак, чтобы избежать ожирения, важно знать не только, что делать, но и чего не стоит делать. Во-первых, если у вас есть семейная предрасположенность к избыточному весу, не стоит игнорировать это — риск выше. Во-вторых, частое потребление высококалорийной еды (жирного, жареного, сладкого) напрямую связано с развитием ожирения — стоит ограничивать такие продукты. В-третьих, перекусы между основными приёмами пищи — особенно частые — увеличивают риск набора веса. Четвёртое — чрезмерное использование технологий (например, беспрерывное сидение за компьютером) и выбор транспорта вместо пеших прогулок — это всё снижает уровень физической активности. Пятое — хотя большинство людей с нормальным весом не курят, сама привычка курить никак не помогает снизить вес, а может даже вредить метаболизму. И шестое — игнорирование малоподвижного образа жизни в возрасте от 20 до 40 лет особенно опасно, потому что именно в этот период наблюдается пик ожирения.
Регулярная физическая активность и включение овощей в рацион (высокие значения FCVC) заметно снижают риск ожирения — это подтвердили и корреляции, и графики. А ещё — важно соблюдать режим питания: ешьте осознанно, не на бегу.
Применение генеративной модели
Использовалась модель ChatGPT 4o https://chatgpt.com/?model=gpt-4o
1.Код генерации градиентной палитры от одного цвета к другому 2.Добавление черной обводки графиков в столбчатой диаграмме
Для генерации обложки использовалась нейросеть Fusion Brain https://fusionbrain.ai