Original size 2919x4096

Анализ заболеваний раком кожи

PROTECT STATUS: not protected
702

Концепция

Рак кожи — одно из наиболее распространенных онкологических заболеваний, которое может повлиять на качество жизни и здоровье людей. В развитых странах заболеваемость раком кожи постепенно увеличивается, что подчеркивает актуальность изучения этой проблемы.

big
Original size 1200x300

В своем анализе я использовала The ISIC 2020 Challenge Dataset, предоставленный International Skin Imaging Collaboration [1]. Датасет содержит в себе данные о доброкачественных и злокачественных новообразованиях кожи более чем у 2 000 пациентов. При составлении датасета использовались также изображения опухолей, но в своем анализе я использовала только данные о возрасте, поле пациентов, а также месте нахождения и характере новообразования.

big
Original size 1200x300

Для своего вдохновения я использовала изображения кожи с винтажной обработкой, а также записи, сделанные на печатной машинке. В свои графики я хотела привнести ощущение телесности и намек на архивные записи с пожелтевшей бумагой.

big
Original size 1200x600

Для визуализации данных я выбрала круговую диаграмму (наглядно показывает соотношение полов), гистограмму (хорошо показывает разброс в возрастной группе), точечную диаграмму (одновременно демонстрирует количество пациентов и связь возраста с характером новообразования) и тепловую карту (подчеркивает частотность опухолей в определенных местах).

Обработка данных

Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot и pandas. После чего считала скачанный csv-файл датасета.

После чего приступила к подготовке данных для круговой диаграммы. Переменную name использовала для информации о поле пациентов (female и male), а value — для подсчета количества упоминаний каждого пола.

Original size 1200x300

Далее обработала данные для гистограммы. В переменную male_data сохраняла значения возраста, если в столбце sex был указан мужской пол. Похожую операцию сделала с переменной female_data.

Для создания точечной диаграммы я применяла группировку по возрасту (age_approx) и характеру опухоли (bening_malignant). С помощью функции .size () подсчитывается количество пациентов.

Original size 1200x300

Потом с помощью Chat-GPT подготовила данные для создания тепловой карты. Используя метод .pivot_table, я создала сводную таблицу, которая потом использовалась для матрицы. Индексы в таблице — пол пациентов (sex), а столбцы — место расположения опухоли (anatom_site_general_challenge). Функция size используется для подсчета количества пациентов, а fill_value помогает заполнить отсутствующие значения.

Посмотреть использованные промпты для Chat-GPT можно в разделе «Описание применения генеративной модели».

Original size 1200x300

Визуализация данных

0

Круговая диаграмма. Соотношение мужчин и женщин с новообразованиями

Круговая диаграмма показывает, что количество пациентов-мужчин и пациентов-женщин с обнаруженными кожными новообразованиями примерно одинаковое. Тем не менее количество мужчин превышает на 10%.

0

Гистограмма. Возрастное распределение пациентов по полу

С помощью гистограммы понятно, что больше всего онкологическим кожным заболеваниям подвержены люди от 45 до 60 лет. Количество пациентов-мужчин превалирует почти в каждой возрастной группе.

0

Точечная диаграмма. Возраст и количество пациентов с доброкачественными и злокачественными новообразованиями на коже

Точечная диаграмма показывает, что чаще всего доброкачественные образования на коже возникают у людей от 40 до 60 лет. Тогда как злокачественные образования с примерно одинаковой частотой возникают у людей разных возрастов. Однако наиболее подвержены злокачественным опухолям пациенты от 45 до 75 лет.

0

Тепловая карта. Зависимость места опухоли от пола пациентов

Тепловая карта демонстрирует, что наиболее часто новообразования на коже возникают в области туловища (живот, спина, грудь, таз). Также из этой матрицы видно, что количество мужчин-пациентов с новообразованиями превышает количество женщин.

Описание применения генеративной модели

Для своей работы я использовала Chat-GPT версии 4.0. Он помог мне подготовить датасет для использования в тепловой карте, а также кастомизировать цветовую палитру в колорбаре.

Посмотреть промпты: https://docs.google.com/document/d/1DQVpgD5CN6wuZUWt0c5E7DkfcUjnu0DqyIgmB_biot0/edit?usp=sharing

Ссылка на модель: https://openai.com/index/gpt-4/

Список источников

[1] Rotemberg, V., Kurtansky, N., Betz-Stablein, B., Caffery, L., Chousakos, E., Codella, N., Combalia, M., Dusza, S., Guitera, P., Gutman, D., Halpern, A., Helba, B., Kittler, H., Kose, K., Langer, S., Lioprys, K., Malvehy, J., Musthaq, S., Nanda, J., Reiter, O., Shih, G., Stratigos, A., Tschandl, P., Weber, J. & Soyer, P. A patient-centric dataset of images and metadata for identifying melanomas using clinical context. Sci Data 8, 34 (2021). https://doi.org/10.1038/s41597-021-00815-z

Анализ заболеваний раком кожи
702
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more