Original size 426x557

Анализ данных бриллиантов

PROTECT STATUS: not protected
The project is taking part in the competition

Shine bright like a diamond

Diamonds // Rihanna

Описание проекта

В рамках проекта я выбрала датасет о бриллиантах. Этот набор данных содержит подробные характеристики бриллиантов, включая их физические параметры, качество огранки, цвет, чистоту и цену.

Основной целью проекта было изучить взаимосвязи между различными характеристиками бриллиантов и тем, как эти параметры могут влиять на конечную стоимость бриллианта.

В качестве материала для анализа я использовала базу данных diamonds с сайта Kaggle

Анализ данных о бриллиантах проводится для того, чтобы выявить зависимости между различными характеристиками алмазов — такими как вес, цвет, чистота, размеры и качество огранки — и тем, как эти параметры влияют на их стоимость. Такой анализ позволяет лучше понимать принципы ценообразования, видеть распределение характеристик, определять наиболее значимые факторы и на практическом примере применять методы визуализации и исследовательского анализа данных.

Я выбрала тему бриллиантов потому, что датасет является хорошо структурированным, понятным и идеально подходит для понятного анализа. Кроме того, рынок драгоценных камней представляет реальную и практическую сферу, в которой такие характеристики действительно формируют цену, что делает исследование особенно интересным и наглядным. Мне сама тема тоже показалась увлекательной, поскольку интересно увидеть, какие именно параметры формируют стоимость бриллианта и как они между собой связаны.

Original size 1365x637

Фотография сгенерирована с помощью ChatGPT

Виды диаграмм

Я сделала 6 разных диаграмм.

Гистограмма (1)— отображает распределение карата бриллиантов. Такая диаграммы наглядно показывает, как часто встречаются разные значения карата и позволяет легко увидеть общее распределение данных.

Гистограмма (2) — отображает распределение цены бриллиантов. Интересно посмотреть, какие цены встречаются чаще всего и как изменяется количество бриллиантов при увеличении стоимости.

Линейная диаграмма — показывает среднюю глубину по типу огранки, позволяет легко увидеть общую тенденцию и сравнить категории между собой.

Круговая диаграмма — показывает, распределение огранки бриллиантов по сегментом.

Столбчатая диаграмма (1) — показывает, распределение цвета бриллиантов. Это позволит легко сравнить количество бриллиантов разных цветов и сразу увидеть, какие категории встречаются чаще остальных.

Столбчатая диаграмма (2) — показывает, распределение чистоты бриллиантов.

Original size 1280x720

На изображении Принцесса Диана в тиаре Спенсеров.

Этапы работы над визуальной частью

Я использовала нежно-розовую и серую пастельную палитру, чтобы сделать визуализации мягкими и приятными для восприятия, не перегружая графики слишком яркими цветами. Такая гамма помогает сосредоточиться на данных и делает анализ аккуратным и эстетичным.

Original size 728x252

Цветовая палитра для диаграмм

Original size 4348x2070

Референсы для оформления проекта

Гистог. (1)— Распределение карата бриллиантов

0

Гистог. (1)— Распределение карата бриллиантов // В Fifma использовала режим обработки для стилизации изображения

На гистограмме показано распределение карата бриллиантов, где видно, как часто встречаются камни разного веса. Основная масса бриллиантов сосредоточена в диапазоне от 0,2 до 1 карата, что отражается высокими столбцами в левой части графика. По мере увеличения карата частота резко уменьшается, и крупные бриллианты встречаются заметно реже.

Гистограмма показывает, что маленькие и средние по весу бриллианты являются наиболее распространёнными. Крупные бриллианты значительно реже встречаются в выборке, что подчёркивает их редкость и возможную более высокую стоимость.

Original size 1919x576

В Figma использовала режим обработки для стилизации изображения

В ходе работы над проектом я использовала Python с библиотеками Pandas, Matplotlib и Seaborn, необходимых для работы с данными и построения визуализаций. Затем прописала цветовая палитра, которая позже будет использоваться для оформления графиков. После этого программа загружает датасет и сохраняет его. Далее из данных удаляются дубликаты и строки с пропущенными значениями, чтобы обеспечить корректность анализа.

Для повышения эффективности разработки я задействовала ChatGPT, что позволило мне оптимизировать код и получить различные подходы к интерпретации данных.

Original size 1199x722

Фотоизображение из Pinterest

Гистог. (2) — Распределение цены бриллиантов

0

Гистог. (2) — Распределение цены бриллиантов // В Figma использовала режим обработки для стилизации изображения

На гистограмме представлено распределение цен бриллиантов, где по оси X указана стоимость, а по оси Y — количество экземпляров. Большинство бриллиантов сосредоточено в низком ценовом диапазоне — примерно до 3000 долларов, что видно по высоким столбцам слева. По мере увеличения цены количество бриллиантов резко снижается, и в правой части графика остаются лишь единичные значения.

График показывает, что самые распространённые бриллианты имеют относительно невысокую стоимость. Дорогие бриллианты встречаются значительно реже, что подчёркивает их эксклюзивность и ограниченное количество в датасете.

Original size 750x421

Фотоизображение из Pinterest

ЛД — Средняя глубина по типу огранки

0

ЛД — Средняя глубина по типу огранки // В Figma использовала режим обработки для стилизации изображения

На диаграмме показана средняя глубина бриллиантов в зависимости от типа огранки. Значения глубины представлены на вертикальной оси, а категории огранки — на горизонтальной. Видно, что бриллианты с огранкой «Fair» имеют наибольшую среднюю глубину, после чего глубина постепенно уменьшается у типов «Good», «Ideal» и «Premium».

График показывает, что более качественная огранка обычно связана с меньшей средней глубиной бриллианта. Это может означать, что лучшие типы огранки предполагают более точные пропорции, что влияет на внешний вид и качество камня.

Original size 1281x831

Кадр из фильма «Красотка» (1990 год)

КД — Распределение огранки бриллиантов по сегментам

0

КД — Распределение огранки бриллиантов по сегментам // В Figma использовала режим обработки для стилизации изображения

На кольцевой диаграмме показано распределение типов огранки бриллиантов, где каждый сегмент отражает долю определённой категории. Наибольшую часть занимают бриллианты с огранкой Ideal — почти 40%, затем следуют Premium и Very Good. Меньше всего представлены огранки Good и Fair, которые занимают небольшие сегменты.

Диаграмма показывает, что большинство бриллиантов в датасете относятся к высоким категориям огранки, что говорит о преобладании более качественных камней. Огранки низшего уровня встречаются гораздо реже, что подчёркивает их меньшую популярность или меньший спрос.

Original size 620x354

Фотоизображение из Pinterest

СД (1) — Распределение цвета бриллиантов

0

СД (1) — Распределение цвета бриллиантов // В Figma использовала режим обработки для стилизации изображения

На данной столбчатой диаграмме представлено распределение бриллиантов по цветовым категориям от D до J. Видно, что больше всего бриллиантов относится к цвету G, затем следуют категории E и F с немного меньшим количеством. Цвета I и J представлены значительно меньше, занимая самые низкие столбцы на графике.

Диаграмма показывает, что наиболее распространёнными цветами в датасете являются G, E и F, что может отражать их популярность или доступность на рынке. Наименее распространёнными оказались бриллианты цветов I и J, что может указывать на меньший спрос или более редкое появление таких экземпляров в выборке.

Original size 1551x838

Фотоизображение из Pinterest

СД (2) — Распределение чистоты бриллиантов

0

СД (2) — Распределение чистоты бриллиантов // В Figma использовала режим обработки для стилизации изображения

На этой столбчатой диаграмме показано распределение бриллиантов по уровням чистоты — от I1 до WS2. Лучше всего представлены категории SI1 и VS2, которые имеют самые высокие столбцы. Чистоты I1 и IF встречаются значительно реже, что видно по минимальным значениям на графике.

Диаграмма показывает, что наиболее распространёнными являются бриллианты средних уровней чистоты — SI1, SI2 и VS2. Наименее распространённые категории I1 и IF встречаются редко, что подчёркивает их либо низкое качество, либо ограниченное количество таких камней в датасете.

Original size 1371x981

Кадр из фильма «Великий Гэтсби» (2013 год)

Заключение

«Diamonds Are a Girl’s Best Friend»

Фраза Мэрилин Монро, её она произносила в фильме «Джентльмены предпочитают блондинок».

Original size 1371x852

Фотоизображение из Pinterest

Проведённый анализ датасета бриллиантов позволил выявить ключевые закономерности в распределении их характеристик. Было установлено, что большинство бриллиантов имеют небольшой вес — до 1 карата, а также низкую цену, что делает такие камни наиболее распространёнными на рынке. Анализ огранки показал, что доминируют высококачественные типы — Ideal, Premium и Very Good, тогда как огранки Fair и Good встречаются значительно реже. Изучение цвета и чистоты бриллиантов также выявило преобладание средних категорий, таких как G, E, F, а также SI1 и VS2, тогда как крайние значения по этим параметрам встречаются гораздо реже.

Гистограммы и графики помогли наглядно показать, что рынок бриллиантов преимущественно состоит из камней среднего уровня по весу, чистоте, цвету и стоимости, что отражает спрос и доступность таких камней. Полученные результаты подтверждают, что высокое качество огранки и сбалансированные характеристики гораздо чаще представлены в выборке, тогда как редкие цвета, высокая чистота или крупный размер встречаются значительно меньше, что подчёркивает их ценность и эксклюзивность. В целом проект показал, насколько важно анализировать данные для понимания структуры рынка, выявления тенденций и формирования объективных выводов о представленной выборке бриллиантов.

Нейросеть:

Chat GPT — использовался для генерации изображений и для запросов рекомендаций по улучшению кода и его написанию.

Анализ данных бриллиантов
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more