
Вводная часть
Для анализа я выбрала датасет «Amazon Top 50 Bestselling Books 2009-2019», который был найден мной на сайте:
Этот датасет содержит информацию о 550 бестселлерах Amazon за период с 2009 по 2019 год. Данные представлены в CSV-формате и включают следующие колонки: название книги, автор, пользовательский рейтинг, количество отзывов, цена, год попадания в топ, и жанр (художественная/нехудожественная литература).
Эти данные представляют ценность по нескольким причинам. Например, они позволяют проанализировать тенденции на книжном рынке за десятилетие и дают понимание, какие типы книг становятся бестселлерами. Также они показывают взаимосвязь между ценой, рейтингом и популярностью книг.
Этапы работы
Для визуализации данных были выбраны следующие графики:
- Точечная диаграмма чтобы показать зависимость между ценой и количеством отзывов с цветовым кодированием по рейтингу.
- Круговуая диаграмма для отображения распределения книг по жанрам.
- Гистограмма для сравнения распределения цен по жанрам.
- Линейный график для демонстрации динамики средней цены книг по годам.

Подготовка данных
В начале работы были импортированы необходимые библиотеки: pandas, matplotlib, numpy. Далее следует импорт скачанного датасета в csv формате.
Следующим этапом работы стала настройка визуализации данных. Я выбрала темный фон для графиков с контрастными цветами, чтобы создать элегантный и современный вид. Основные элементы стиля:
- Темный фон (#333333) - Пользовательская цветовая палитра - Шрифт Roboto Slab для заголовков и подписей
График № 1
Далее я построила фигуру размером 20×20 дюймов с сеткой 2×2 для четырех различных визуализаций. Добавила общий заголовок «Визуализация данных». Фон всей фигуры темно-серый (#333333).
В первом субплоте я создала scatter plot, где: - По оси X — цена книг - По оси Y — количество отзывов
Цвет точек соответствует рейтингу (используется прописанная цветовая карта). Прозрачность 70% помогает различать перекрывающиеся точки.
Далее я добавила подписи осей, заголовок, настроила цвет и размер шрифта всех текстовых элементов. Сетка полупрозрачная серая линия для лучшей читаемости. Цветовая шкала справа объясняет соответствие цветов значениям рейтинга.
График № 1
График № 2
Во втором субплоте строится pie chart, показывающий соотношение художественной и нехудожественной литературы в датасете. Используя метод value_counts для подсчета книг каждого жанра. Диаграмма включает:
- Ярлыки с названиями жанров - Процентные значения с точностью до десятых - Цвета из нашей палитры - Белый текст с нашим шрифтом
График № 2
График № 3
В третьем субплоте я создала гистограмму, в которой для каждого жанра строится отдельный столбец.
- По оси X — ценовые диапазоны (10 бинов) - По оси Y — количество книг в каждом диапазоне
Разные жанры книг проиллюстрированы разными цветами из заранее прописанной цветовой палитры. Также я добавила легенду для идентификации жанров.
График № 3
График № 4
В последнем субплоте я отобразила динамику изменения средней цены книг-бестселлеров с 2009 по 2019 год. Для этого я сгруппировала данные по году. Затем вычислила среднюю цену для каждого года. После этого построила линию с маркерами в виде кружков. Далее я использовала четвертый цвет из палитры. Добавляем сетку для удобства чтения значений.
График № 4
Визуализация данных
Финальным этапом работы была регулировка отступов между субплотами с помощью subplots_adjust (), чтобы все элементы визуализации правильно помещались и не перекрывали друг друга. Параметры top, bottom, left, right задают отступы от краев фигуры, а hspace и wspace — расстояния между графиками по вертикали и горизонтали.
Финальная команда plt.show () выводит на экран всю созданную визуализацию.
Выводы:
Итоговый результат проделанной мной работы представляет собой информативную панель из четырех взаимодополняющих графиков, выполненных в едином стиле. Каждая визуализация раскрывает определенный аспект данных. Scatter plot показывает взаимосвязь цены, популярности и рейтинга, pie chart демонстрирует соотношение жанров, histogram выявляет распределение ценовых категорий, line graph отслеживает динамику изменения цен за 10 лет
Все элементы оформления согласованы между собой: одинаковые шрифты, цветовая схема, стиль подписей и сетки. Это создает целостное восприятие и облегчает анализ информации.