Анализ и визуализация данных о фильмах и телешоу Netflix на HSE Design

Выбор данных для анализа

Я выбрала данные о фильмах и телешоу Netflix. Netflix — одна из самых популярных платформ потокового мультимедиа и видео. Этот набор табличных данных состоит из списков всех фильмов и телешоу, доступных на Netflix, а также таких подробностей, как актерский состав, режиссеры, рейтинги, год выпуска, продолжительность и т. д. Данные я нашла на Kaggle — сайте соревнований для специалистов по Data Science.

Ссылка на датасет

Я являюсь поклонницей фильмов и сериалов от Netflix, также люблю смотреть дорамы их авторства. Именно поэтому я решила проанализировать конкретно эти данные. Мне близка эта тема кино, поэтому процесс анализа был для меня увлекательным и интересным. Я решила проанализировать, как контент распределяется по годам, по странам, по жанрам, по типу контента и по рейтингам и создать визуализацию своего анализа.

Выбор графиков для визуализации

Я решила создать линейные диаграммы, так как этот тип диаграмм позволяет четко увидеть тенденции и закономерности в изменении анализируемых данных, а также легко сравнивать значения между разными временными точками. Они также удобны для отслеживания роста и спада показателей, выявления пиковых значений и периодов стабильности. Кроме того, линейные диаграммы являются простыми и наглядными для восприятия, что делает их идеальным выбором для представления большого объема данных в понятном и информативном виде. Я стилизовала диаграммы, найдя понравившийся референс на сайте matplotlib.

Исходный размер 1038x593

Линейный график, использованный в качестве референса для стилизации

Поэтапная обработка данных

В анализе в первую очередь я, конечно же, импортировала библиотеки.

Исходный размер 1730x124

Затем я загрузила данные из CSV-файла в DataFrame df с помощью функции pd.read_csv (), а также прописала путь к датасету, лежащему на моем компьютере.

Исходный размер 1678x110

Затем я напечатала первые несколько строк данных, чтобы увидеть структуру и содержимое DataFrame.

Исходный размер 1672x114

Затем я настроила стили графиков для интересной визуализации

Исходный размер 1650x250

После я определила функцию для создания стековых графиков

Исходный размер 1612x326

Далее я приступила к анализу распределения контента по годам: считаю количество контента, выпущенного каждый год и сортирую по годам, Извлекаю индексы и значения для построения графика и создаю и отображаю стековый график, показывающий распределение контента по годам.

Исходный размер 1698x422

Исходный размер 1185x583

Затем начала анализировать распределение контента по странам, считала количество контента для каждой страны и выбрала топ-10 стран, затем использовала функцию create_stackplot для создания и отображения графика.

Исходный размер 2110x142

Исходный размер 1183x584

Далее проанализировала распределение контента по жанрам: сначала преобразовала строковые значения жанров в dummy-переменные и суммировала их, а затем выбрала топ-10 жанров и использовала функцию create_stackplot для создания и отображения графика.

Исходный размер 2148x144

Исходный размер 1184x584

После исследовала распределение по типу контента: сначала считала количество контента для каждого типа (фильм или шоу), а затем использовала функцию create_stackplot.

Исходный размер 2110x148

Исходный размер 1183x584

Далее начала анализировать распределение контента по рейтингам. Для этого я считала количество контента для каждого рейтинга и выбрала топ-10. Использовала функцию create_stackplot.

Исходный размер 2110x148

Исходный размер 1183x584

В проекте для генерации обложки проекта я пользовалась нейросетью ideogram. У искусственного интеллекта я запросила создать 3д-линейную диаграмму, указала стиль 3д-рендер.

Ссылка на блокнот с кодом