Введение
Для итогового проекта я выбрала тему анализа музыкальных предпочтений на базе платформы Spotify. В качестве основного источника данных был взят объемный датасет «Spotify Tracks Dataset» с платформы Kaggle, содержащий более 28 000 записей.
Эта тема показалась мне наиболее интересной, так как она находится на стыке цифровых технологий и человеческих эмоций. Мне, как будущему UX-дизайнеру, важно понимать, какие объективные характеристики звука — темп, энергичность или «танцевальность» — делают продукт (в данном случае песню) популярным у миллионов пользователей.
Виды графиков
Для исследования я решила использовать четыре вида графиков.
Гистограмма
Для анализа общего распределения популярности.Scatter Plot (Диаграмма рассеяния)
Для поиска прямой связи между танцевальностью и успехом.Box Plot (Ящик с усами)
Для сравнения характеристик внутри разных жанров.Line Plot (Линейный график)
Для отслеживания трендов изменения энергии звука по годам.Donut Chart (Кольцевая диаграмма)
стилизованный под виниловую пластинку график, показывающий жанровое разнообразие библиотеки.Этапы работы
Процесс обработки данных был разделен на несколько этапов.
Сначала я импортировала библиотеку Pandas и загрузила CSV-файл напрямую через облачный репозиторий для автоматизации процесса. Важным шагом стала предобработка: очистка данных от пустых значений (dropna) в ключевых полях и преобразование строковых дат в числовой формат года для анализа временных рядов.
В работе я применила такие статистические методы, как описательная статистика (среднее арифметическое, медиана), корреляционный анализ для выявления зависимостей и агрегация данных по категориям жанров.

Стилизация
Чтобы инфографика выглядела консистентно и оригинально, я разработала авторский стиль
«Vinyl Aesthetic»
Вместо использования стандартных настроек Python, я программно задала цветовую палитру через plt.rcParams.
В качестве фона выбран теплый бежевый оттенок (F5F5DC), имитирующий бумажные конверты виниловых пластинок, а акцентным цветом стал приглушенный красный (B22222).
Также я изменила стандартный шрифт на Serif (с засечками), чтобы придать графикам более «аналоговый» и законченный вид.
Источник вдохновения: Дизайн обложек классических джазовых и рок-пластинок середины XX века. Меня вдохновили тёплые бумажные фактуры, минималистичная типографика и приглушённые «земляные» оттенки.
Источник вдохновения
Использование нейросетей
В работе над проектом нейросеть (Gemini) использовалась как вспомогательный инструмент для оптимизации отдельных технических задач.
Роль ИИ в проекте была ограничена следующими задачами:
- Справочная поддержка по синтаксису.
- Автоматизация рутинных фрагментов.
- Финальное форматирование текста
Пример промта
Распределение популярности
Для первичного анализа я использовала метод histplot. Параметр bins=30 разбивает данные на тридцать интервалов для детальности, а kde=True накладывает сглаженную линию плотности, которая помогает увидеть общую форму распределения
Мы видим, что огромное количество треков находится в зоне низкой популярности (ближе к 0). Это подтверждает теорию «длинного хвоста»: в стриминге миллионы песен, но лишь единицы становятся мировыми хитами. Средняя популярность в нашей выборке — около 42 баллов.
Жанровое разнообразие
Чтобы создать визуальную метафору винилового диска, я применила функцию plt.pie. Основная сложность здесь — расчет долей через value_counts (), который автоматически группирует данные по категориям и считает их количество
Связь танцевальности и популярности
Для поиска взаимосвязей я использовала scatterplot. Главный прием здесь — параметр alpha=0.1. Поскольку точек почти 30 тысяч, они накладываются друг на друга. Прозрачность позволяет увидеть, где плотность данных (скопление точек) максимальна
Изменение энергичности музыки по годам
Для анализа временных трендов я использовала линейный график. Сначала данные были сгруппированы по годам с помощью метода groupby ('year'), а затем для каждого года было вычислено среднее арифметическое показателя энергичности (energy). Это позволяет увидеть, как менялся «звуковой ландшафт» на протяжении десятилетий
Распределение энергичности по жанрам
Этот график строится функцией boxplot. Она автоматически вычисляет пять ключевых чисел: минимум, первый квартиль, медиану, третий квартиль и максимум. Это лучший способ сравнить несколько групп (жанров) по одному числовому признаку
Заключение
Проведенный анализ 28 000 треков позволил математически подтвердить несколько важных гипотез о современной музыкальной индустрии:
«Рецепт» популярности: Исследование показало, что наиболее успешные треки обладают выраженной танцевальностью (выше 0.6). Это подтверждает, что физический отклик слушателя (желание двигаться) напрямую коррелирует с коммерческим успехом композиции.
Эволюция звука: Линейный анализ выявил тренд на постепенное повышение энергичности музыки с 1960-х по 2020-е годы. Современный слушатель привык к более плотному, громкому и динамичному звучанию.
Жанровая специфика: Несмотря на общие тренды, каждый жанр сохраняет свою уникальную «кардиограмму». EDM остается эталоном высокой энергии, в то время как R&B и Rap предлагают слушателю наибольшее разнообразие эмоциональных состояний.
Феномен «невидимых» треков: Огромное количество песен с нулевой популярностью (пик на гистограмме) напоминает о жесточайшей конкуренции на стриминговых платформах. Наличие качественного звука — это лишь входной билет, но не гарантия успеха.



