Анализ винных рецензий: что делает вино популярным? на HSE Design

Введение

Для данного проекта я решила проанализировать данные с сайта Kaggle. Датасет собрал в себе более 130 000 рецензий на вина от авторитетного журнала WineEnthusiast, включая информацию о стране происхождения, сорте винограда, цене и экспертной оценке в баллах. Мне показалось, что здесь собраны максимально подробные и полные данные для того, чтобы понять, как устроен винный рынок.

Интересны эти данные тем, что помогают ответить на вопрос: Что делает вино хорошим и дорогим? Как связаны цена и качество? Какие страны производят лучшие вина? Какие сорта винограда самые популярные и самые престижные? Такие данные нужны не только сомелье и винным критикам, но и обычным людям, которые хотят разбираться в вине и делать осознанный выбор при покупке.

Выбор графиков

Для визуализации данных я использовала несколько типов графиков:

Столбчатая диаграмма
Круговая диаграмма
Линейная диаграмма
Точечная диаграмма

Данные типы графиков позволяют визуализировать связь между любой комбинацией численной и текстовой информации, а также выявить скрытые закономерности, которые не очевидны при простом просмотре таблицы.

Стилизация

Одной из важных задач при создании визуализации было не просто отобразить данные, но и сделать это в едином эстетическом ключе, чтобы графики выглядели целостно, привлекательно и соответствовали тематике проекта. Для этого я разработала собственную цветовую палитру, настроила оформление каждого графика и добилась визуального единства всех элементов.

Розово-бордовый — #B33570 (красное вино, насыщенность, элегантность) Оливково-зелёный — #8A8806 (виноградная лоза, природа, натуральность) Золотисто-оранжевый — #E3A212 (выдержанное вино, премиальность, солнце)

Исходный размер 4625x1076

Также я создала обложку с помощью нейросети Google Gemini. Обложка задаёт общее настроение работы, визуально связывая тему исследования с эстетикой, в которой выполнены графики. Промт: Создай обложку для презентации. Это чисто визуальное изображение без текста. На переднем плане — деревянный стол для дегустации вина. На столе стоят два бокала: один с красным вином, другой с белым. Рядом — бутылка вина, несколько виноградин, виноградные листья. На заднем плане — живописный виноградник на склоне холма. Ряды виноградных лоз уходят вдаль. Закатное солнце освещает сцену тёплым золотистым светом. Цветовая гамма: глубокий бордовый (B33570), оливково-зелёный (8A8806), золотисто-янтарный (E3A212), кремовый фон. Стиль: элегантный, премиальный, журнальный. Атмосфера уюта и винодельни.

Для написания промта я использовала нейросеть Deepseek.

Анализ данных

Для обработки данных я использовала Google Colab. Я загрузила датасет с помощью встроенной функции Google Colab и написала код: from google.colab import files и uploaded = files.upload ()

После чего нажала кнопку «Выберите файл» и выбрала нужный CSV-файл с моего компьютера.

Затем я импортировала необходимые библиотеки: pandas для работы с данными, matplotlib.pyplot для построения графиков и numpy для математических операций.

Потом загрузила данные в переменную df: pd.read_csv ('winemag-data-130k-v2.csv')

На следующем этапе я провела первичный осмотр данных, чтобы понять, с чем я работаю. Я вывела первые пять строк таблицы командой df.head (), чтобы увидеть структуру данных и примеры записей. Затем я посмотрела общую информацию о датасете через df.info () (так я узнала, какие колонки есть в таблице, сколько в них значений и какие типы данных хранятся). Также я проверила наличие пропусков с помощью df.isnull ().sum (). Выяснилось, что больше всего пропусков в колонках region_2 (регион), taster_name (имя дегустатора) и price (цена).

Поскольку для моего анализа важны были в первую очередь цена, оценка, страна и сорт винограда, я решила не удалять все пропуски, а работать с теми данными, которые мне нужны.

Для построения точечной диаграммы, показывающей зависимость цены от оценки, я создала отфильтрованный датасет. Я убрала строки, где отсутствовала цена или оценка, с помощью dropna (subset=['price', 'points']). Также я ограничила цены до 500 долларов, чтобы убрать экстремальные выбросы, которые могли бы исказить визуальное восприятие графика. Для этого я использовала условие df['price'] < 500.

Исходный размер 1328x312

Далее я приступила к статистическому анализу. Я вычислила среднюю цену и среднюю оценку с помощью df['price'].mean () и df['points'].mean (), а также медиану и стандартное отклонение через describe (). Также я провела частотный анализ: с помощью value_counts () я определила топ-10 стран по количеству вин и топ-10 сортов винограда, чтобы увидеть, какие категории встречаются чаще всего.

Столбчатая диаграмма

Для того чтобы понять, какие страны являются лидерами по объёму производства вина в представленной выборке, я построила столбчатую диаграмму, отображающую топ-10 стран по количеству рецензий. Выбор столбчатой диаграммы обусловлен тем, что она наилучшим образом подходит для сравнения категориальных данных — в данном случае стран между собой.

Исходный размер 1222x562

География выборки смещена в сторону США, что важно учитывать при интерпретации результатов. Тем не менее, классические европейские винодельческие регионы (Франция, Италия, Испания, Португалия) также представлены значительным количеством образцов, что позволяет проводить сравнительный анализ.

Для создания данной диаграммы я использовала следующий код. Он включает в себя загрузку данных, настройку визуального оформления и построение графика.

Исходный размер 1866x754

Круговая диаграмма

Для визуализации распределения сортов винограда в датасете я выбрала круговую диаграмму. Этот тип графика идеально подходит для отображения долей и процентного соотношения частей целого. Круговая диаграмма позволяет быстро оценить, какие сорта занимают лидирующие позиции, а какая часть приходится на всё остальное разнообразие.

Исходный размер 1046x892

Пятёрка лидеров охватывает чуть больше половины всех вин (51,9%). Шардоне уверенно лидирует, что подтверждает его статус самого популярного сорта винограда в мире. Огромное разнообразие остальных сортов (почти половина выборки) говорит о богатстве и многообразии мировой винодельческой культуры. Интересно, что в топ-5 вошли как белые сорта (Шардоне, Совиньон Блан), так и красные (Пино Нуар, Каберне Совиньон, Сира), что отражает разнообразие предпочтений потребителей.

Для создания круговой диаграммы я использовала следующий код:

Исходный размер 1878x1086

Линейная диаграмма

Для анализа качества вин в разных странах я выбрала линейную диаграмму. Этот тип графика отлично подходит для сравнения значений по категориям, особенно когда важно показать не только сами значения, но и динамику их изменения от одной категории к другой. В данном случае линейная диаграмма позволяет легко сопоставить средние оценки стран и увидеть, какие из них лидируют по качеству.

Исходный размер 1202x594

Страны с самым большим количеством вин в выборке (США, Франция, Италия) не получают самых высоких оценок. Австрия и Германия, несмотря на значительно меньшие объёмы производства (и, соответственно, меньшее количество рецензий), демонстрируют наивысшее качество по мнению экспертов.

Количество производимого вина не равно его качеству. Небольшие страны с многовековыми традициями виноделия (Австрия, Германия) способны производить вина, которые эксперты оценивают выше, чем массовая продукция крупных винодельческих держав. Для потребителя это означает, что обращать внимание стоит не только на известные бренды, но и на вина из менее раскрученных, но качественных регионов.

Для создания линейной диаграммы я использовала следующий код:

Исходный размер 1576x1102

Точечная диаграмма

Для того чтобы ответить на главный вопрос исследования — «Связаны ли цена и качество вина?» — я использовала точечную диаграмму. Этот тип графика является наиболее информативным для визуализации связи между двумя числовыми переменными. Каждая точка на графике представляет одно вино: её положение по горизонтали соответствует цене, а по вертикали — оценке в баллах. Такой формат позволяет увидеть общую картину распределения данных, выявить закономерности, а также заметить выбросы и исключения из правил.

Исходный размер 1115x789

Дорогое не значит хорошее. Хотя существует слабая тенденция к повышению оценки с ростом цены, разброс настолько велик, что цена не может служить надёжным индикатором качества. Потребителям стоит обращать внимание не только на стоимость, но и на другие факторы: регион производства, сорт винограда, репутацию производителя и, конечно, собственные вкусовые предпочтения. Есть множество прекрасных вин в среднем и даже бюджетном ценовом сегменте, которые получают высокие оценки экспертов.

Для создания точечной диаграммы я использовала следующий код:

Исходный размер 1616x1202

Заключение

В ходе выполнения данного проекта я провела комплексный анализ данных о винных рецензиях, используя датасет WineEnthusiast, содержащий более 130 000 записей. Основной целью исследования было выявление факторов, влияющих на качество и стоимость вина, а также проверка гипотезы о том, что высокая цена гарантирует высокое качество.

Высокая цена не является надёжным индикатором высокого качества вина. Существует множество недорогих вин (до $30), которые получают от экспертов оценки 90+ баллов, а также дорогие вина (выше $100), которые не оправдывают ожиданий. Цена объясняет лишь около 16% изменчивости оценок, что означает, что при выборе вина стоит обращать внимание не только на стоимость, но и на другие факторы: регион производства, сорт винограда, репутацию производителя и, конечно, собственные вкусовые предпочтения.

Данный проект позволил мне не только применить на практике знания по анализу данных и визуализации, но и получить интересные, а главное — полезные для реальной жизни выводы. Теперь, выбирая вино в магазине, я буду руководствоваться не только ценником, но и другими, более значимыми факторами. А умение работать с данными и представлять результаты в наглядной форме станет важным преимуществом в моей дальнейшей профессиональной деятельности.

Описание применения генеративной модели и вспомогательных сайтов

deepseek — частичные написание кода (объяснение ошибок, оптимизация, обработка данных, добавление частей кода для конкретных операций), анализ информации, генерация промпта для создания обложки.
Google Gemini — генерация обложки
Kaggle — поиск датасета
Google Colab — визуализация кода
Яндекс диск — хранение файлов для кода

Блокнот

Блокнот 2

Датасет