
Концепция
Рак кожи — одно из наиболее распространенных онкологических заболеваний, которое может повлиять на качество жизни и здоровье людей. В развитых странах заболеваемость раком кожи постепенно увеличивается, что подчеркивает актуальность изучения этой проблемы.

В своем анализе я использовала The ISIC 2020 Challenge Dataset, предоставленный International Skin Imaging Collaboration [1]. Датасет содержит в себе данные о доброкачественных и злокачественных новообразованиях кожи более чем у 2 000 пациентов. При составлении датасета использовались также изображения опухолей, но в своем анализе я использовала только данные о возрасте, поле пациентов, а также месте нахождения и характере новообразования.

Для своего вдохновения я использовала изображения кожи с винтажной обработкой, а также записи, сделанные на печатной машинке. В свои графики я хотела привнести ощущение телесности и намек на архивные записи с пожелтевшей бумагой.

Для визуализации данных я выбрала круговую диаграмму (наглядно показывает соотношение полов), гистограмму (хорошо показывает разброс в возрастной группе), точечную диаграмму (одновременно демонстрирует количество пациентов и связь возраста с характером новообразования) и тепловую карту (подчеркивает частотность опухолей в определенных местах).
Обработка данных
Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot и pandas. После чего считала скачанный csv-файл датасета.
После чего приступила к подготовке данных для круговой диаграммы. Переменную name использовала для информации о поле пациентов (female и male), а value — для подсчета количества упоминаний каждого пола.
Далее обработала данные для гистограммы. В переменную male_data сохраняла значения возраста, если в столбце sex был указан мужской пол. Похожую операцию сделала с переменной female_data.
Для создания точечной диаграммы я применяла группировку по возрасту (age_approx) и характеру опухоли (bening_malignant). С помощью функции .size () подсчитывается количество пациентов.
Потом с помощью Chat-GPT подготовила данные для создания тепловой карты. Используя метод .pivot_table, я создала сводную таблицу, которая потом использовалась для матрицы. Индексы в таблице — пол пациентов (sex), а столбцы — место расположения опухоли (anatom_site_general_challenge). Функция size используется для подсчета количества пациентов, а fill_value помогает заполнить отсутствующие значения.
Посмотреть использованные промпты для Chat-GPT можно в разделе «Описание применения генеративной модели».
Визуализация данных
Круговая диаграмма показывает, что количество пациентов-мужчин и пациентов-женщин с обнаруженными кожными новообразованиями примерно одинаковое. Тем не менее количество мужчин превышает на 10%.
С помощью гистограммы понятно, что больше всего онкологическим кожным заболеваниям подвержены люди от 45 до 60 лет. Количество пациентов-мужчин превалирует почти в каждой возрастной группе.
Точечная диаграмма показывает, что чаще всего доброкачественные образования на коже возникают у людей от 40 до 60 лет. Тогда как злокачественные образования с примерно одинаковой частотой возникают у людей разных возрастов. Однако наиболее подвержены злокачественным опухолям пациенты от 45 до 75 лет.
Тепловая карта демонстрирует, что наиболее часто новообразования на коже возникают в области туловища (живот, спина, грудь, таз). Также из этой матрицы видно, что количество мужчин-пациентов с новообразованиями превышает количество женщин.
Описание применения генеративной модели
Для своей работы я использовала Chat-GPT версии 4.0. Он помог мне подготовить датасет для использования в тепловой карте, а также кастомизировать цветовую палитру в колорбаре.
Посмотреть промпты: https://docs.google.com/document/d/1DQVpgD5CN6wuZUWt0c5E7DkfcUjnu0DqyIgmB_biot0/edit?usp=sharing
Ссылка на модель: https://openai.com/index/gpt-4/
Список источников
[1] Rotemberg, V., Kurtansky, N., Betz-Stablein, B., Caffery, L., Chousakos, E., Codella, N., Combalia, M., Dusza, S., Guitera, P., Gutman, D., Halpern, A., Helba, B., Kittler, H., Kose, K., Langer, S., Lioprys, K., Malvehy, J., Musthaq, S., Nanda, J., Reiter, O., Shih, G., Stratigos, A., Tschandl, P., Weber, J. & Soyer, P. A patient-centric dataset of images and metadata for identifying melanomas using clinical context. Sci Data 8, 34 (2021). https://doi.org/10.1038/s41597-021-00815-z