
Shine bright like a diamond
Diamonds // Rihanna
Описание проекта
В рамках проекта я выбрала датасет о бриллиантах. Этот набор данных содержит подробные характеристики бриллиантов, включая их физические параметры, качество огранки, цвет, чистоту и цену.
Основной целью проекта было изучить взаимосвязи между различными характеристиками бриллиантов и тем, как эти параметры могут влиять на конечную стоимость бриллианта.
В качестве материала для анализа я использовала базу данных diamonds с сайта Kaggle
Анализ данных о бриллиантах проводится для того, чтобы выявить зависимости между различными характеристиками алмазов — такими как вес, цвет, чистота, размеры и качество огранки — и тем, как эти параметры влияют на их стоимость. Такой анализ позволяет лучше понимать принципы ценообразования, видеть распределение характеристик, определять наиболее значимые факторы и на практическом примере применять методы визуализации и исследовательского анализа данных.
Я выбрала тему бриллиантов потому, что датасет является хорошо структурированным, понятным и идеально подходит для понятного анализа. Кроме того, рынок драгоценных камней представляет реальную и практическую сферу, в которой такие характеристики действительно формируют цену, что делает исследование особенно интересным и наглядным. Мне сама тема тоже показалась увлекательной, поскольку интересно увидеть, какие именно параметры формируют стоимость бриллианта и как они между собой связаны.
Фотография сгенерирована с помощью ChatGPT
Виды диаграмм
Я сделала 6 разных диаграмм.
Гистограмма (1)— отображает распределение карата бриллиантов. Такая диаграммы наглядно показывает, как часто встречаются разные значения карата и позволяет легко увидеть общее распределение данных.
Гистограмма (2) — отображает распределение цены бриллиантов. Интересно посмотреть, какие цены встречаются чаще всего и как изменяется количество бриллиантов при увеличении стоимости.
Линейная диаграмма — показывает среднюю глубину по типу огранки, позволяет легко увидеть общую тенденцию и сравнить категории между собой.
Круговая диаграмма — показывает, распределение огранки бриллиантов по сегментом.
Столбчатая диаграмма (1) — показывает, распределение цвета бриллиантов. Это позволит легко сравнить количество бриллиантов разных цветов и сразу увидеть, какие категории встречаются чаще остальных.
Столбчатая диаграмма (2) — показывает, распределение чистоты бриллиантов.
На изображении Принцесса Диана в тиаре Спенсеров.
Этапы работы над визуальной частью
Я использовала нежно-розовую и серую пастельную палитру, чтобы сделать визуализации мягкими и приятными для восприятия, не перегружая графики слишком яркими цветами. Такая гамма помогает сосредоточиться на данных и делает анализ аккуратным и эстетичным.
Цветовая палитра для диаграмм
Референсы для оформления проекта
Гистог. (1)— Распределение карата бриллиантов
Гистог. (1)— Распределение карата бриллиантов // В Fifma использовала режим обработки для стилизации изображения
На гистограмме показано распределение карата бриллиантов, где видно, как часто встречаются камни разного веса. Основная масса бриллиантов сосредоточена в диапазоне от 0,2 до 1 карата, что отражается высокими столбцами в левой части графика. По мере увеличения карата частота резко уменьшается, и крупные бриллианты встречаются заметно реже.
Гистограмма показывает, что маленькие и средние по весу бриллианты являются наиболее распространёнными. Крупные бриллианты значительно реже встречаются в выборке, что подчёркивает их редкость и возможную более высокую стоимость.
В Figma использовала режим обработки для стилизации изображения
В ходе работы над проектом я использовала Python с библиотеками Pandas, Matplotlib и Seaborn, необходимых для работы с данными и построения визуализаций. Затем прописала цветовая палитра, которая позже будет использоваться для оформления графиков. После этого программа загружает датасет и сохраняет его. Далее из данных удаляются дубликаты и строки с пропущенными значениями, чтобы обеспечить корректность анализа.
Для повышения эффективности разработки я задействовала ChatGPT, что позволило мне оптимизировать код и получить различные подходы к интерпретации данных.
Фотоизображение из Pinterest
Гистог. (2) — Распределение цены бриллиантов
Гистог. (2) — Распределение цены бриллиантов // В Figma использовала режим обработки для стилизации изображения
На гистограмме представлено распределение цен бриллиантов, где по оси X указана стоимость, а по оси Y — количество экземпляров. Большинство бриллиантов сосредоточено в низком ценовом диапазоне — примерно до 3000 долларов, что видно по высоким столбцам слева. По мере увеличения цены количество бриллиантов резко снижается, и в правой части графика остаются лишь единичные значения.
График показывает, что самые распространённые бриллианты имеют относительно невысокую стоимость. Дорогие бриллианты встречаются значительно реже, что подчёркивает их эксклюзивность и ограниченное количество в датасете.
Фотоизображение из Pinterest
ЛД — Средняя глубина по типу огранки
ЛД — Средняя глубина по типу огранки // В Figma использовала режим обработки для стилизации изображения
На диаграмме показана средняя глубина бриллиантов в зависимости от типа огранки. Значения глубины представлены на вертикальной оси, а категории огранки — на горизонтальной. Видно, что бриллианты с огранкой «Fair» имеют наибольшую среднюю глубину, после чего глубина постепенно уменьшается у типов «Good», «Ideal» и «Premium».
График показывает, что более качественная огранка обычно связана с меньшей средней глубиной бриллианта. Это может означать, что лучшие типы огранки предполагают более точные пропорции, что влияет на внешний вид и качество камня.
Кадр из фильма «Красотка» (1990 год)
КД — Распределение огранки бриллиантов по сегментам
КД — Распределение огранки бриллиантов по сегментам // В Figma использовала режим обработки для стилизации изображения
На кольцевой диаграмме показано распределение типов огранки бриллиантов, где каждый сегмент отражает долю определённой категории. Наибольшую часть занимают бриллианты с огранкой Ideal — почти 40%, затем следуют Premium и Very Good. Меньше всего представлены огранки Good и Fair, которые занимают небольшие сегменты.
Диаграмма показывает, что большинство бриллиантов в датасете относятся к высоким категориям огранки, что говорит о преобладании более качественных камней. Огранки низшего уровня встречаются гораздо реже, что подчёркивает их меньшую популярность или меньший спрос.
Фотоизображение из Pinterest
СД (1) — Распределение цвета бриллиантов
СД (1) — Распределение цвета бриллиантов // В Figma использовала режим обработки для стилизации изображения
На данной столбчатой диаграмме представлено распределение бриллиантов по цветовым категориям от D до J. Видно, что больше всего бриллиантов относится к цвету G, затем следуют категории E и F с немного меньшим количеством. Цвета I и J представлены значительно меньше, занимая самые низкие столбцы на графике.
Диаграмма показывает, что наиболее распространёнными цветами в датасете являются G, E и F, что может отражать их популярность или доступность на рынке. Наименее распространёнными оказались бриллианты цветов I и J, что может указывать на меньший спрос или более редкое появление таких экземпляров в выборке.
Фотоизображение из Pinterest
СД (2) — Распределение чистоты бриллиантов
СД (2) — Распределение чистоты бриллиантов // В Figma использовала режим обработки для стилизации изображения
На этой столбчатой диаграмме показано распределение бриллиантов по уровням чистоты — от I1 до WS2. Лучше всего представлены категории SI1 и VS2, которые имеют самые высокие столбцы. Чистоты I1 и IF встречаются значительно реже, что видно по минимальным значениям на графике.
Диаграмма показывает, что наиболее распространёнными являются бриллианты средних уровней чистоты — SI1, SI2 и VS2. Наименее распространённые категории I1 и IF встречаются редко, что подчёркивает их либо низкое качество, либо ограниченное количество таких камней в датасете.
Кадр из фильма «Великий Гэтсби» (2013 год)
Заключение
«Diamonds Are a Girl’s Best Friend»
Фраза Мэрилин Монро, её она произносила в фильме «Джентльмены предпочитают блондинок».
Фотоизображение из Pinterest
Проведённый анализ датасета бриллиантов позволил выявить ключевые закономерности в распределении их характеристик. Было установлено, что большинство бриллиантов имеют небольшой вес — до 1 карата, а также низкую цену, что делает такие камни наиболее распространёнными на рынке. Анализ огранки показал, что доминируют высококачественные типы — Ideal, Premium и Very Good, тогда как огранки Fair и Good встречаются значительно реже. Изучение цвета и чистоты бриллиантов также выявило преобладание средних категорий, таких как G, E, F, а также SI1 и VS2, тогда как крайние значения по этим параметрам встречаются гораздо реже.
Гистограммы и графики помогли наглядно показать, что рынок бриллиантов преимущественно состоит из камней среднего уровня по весу, чистоте, цвету и стоимости, что отражает спрос и доступность таких камней. Полученные результаты подтверждают, что высокое качество огранки и сбалансированные характеристики гораздо чаще представлены в выборке, тогда как редкие цвета, высокая чистота или крупный размер встречаются значительно меньше, что подчёркивает их ценность и эксклюзивность. В целом проект показал, насколько важно анализировать данные для понимания структуры рынка, выявления тенденций и формирования объективных выводов о представленной выборке бриллиантов.
Нейросеть:
Chat GPT — использовался для генерации изображений и для запросов рекомендаций по улучшению кода и его написанию.