Original size 1140x1600

Анализ и визуализация данных о фильмах и телешоу Netflix

PROTECT STATUS: not protected
15

Выбор данных для анализа

Я выбрала данные о фильмах и телешоу Netflix. Netflix — одна из самых популярных платформ потокового мультимедиа и видео. Этот набор табличных данных состоит из списков всех фильмов и телешоу, доступных на Netflix, а также таких подробностей, как актерский состав, режиссеры, рейтинги, год выпуска, продолжительность и т. д. Данные я нашла на Kaggle — сайте соревнований для специалистов по Data Science.

Я являюсь поклонницей фильмов и сериалов от Netflix, также люблю смотреть дорамы их авторства. Именно поэтому я решила проанализировать конкретно эти данные. Мне близка эта тема кино, поэтому процесс анализа был для меня увлекательным и интересным. Я решила проанализировать, как контент распределяется по годам, по странам, по жанрам, по типу контента и по рейтингам и создать визуализацию своего анализа.

Выбор графиков для визуализации

Я решила создать линейные диаграммы, так как этот тип диаграмм позволяет четко увидеть тенденции и закономерности в изменении анализируемых данных, а также легко сравнивать значения между разными временными точками. Они также удобны для отслеживания роста и спада показателей, выявления пиковых значений и периодов стабильности. Кроме того, линейные диаграммы являются простыми и наглядными для восприятия, что делает их идеальным выбором для представления большого объема данных в понятном и информативном виде. Я стилизовала диаграммы, найдя понравившийся референс на сайте matplotlib.

big
Original size 1038x593

Линейный график, использованный в качестве референса для стилизации

Поэтапная обработка данных

В анализе в первую очередь я, конечно же, импортировала библиотеки.

Original size 1730x124

Затем я загрузила данные из CSV-файла в DataFrame df с помощью функции pd.read_csv (), а также прописала путь к датасету, лежащему на моем компьютере.

Original size 1678x110

Затем я напечатала первые несколько строк данных, чтобы увидеть структуру и содержимое DataFrame.

Original size 1672x114

Затем я настроила стили графиков для интересной визуализации

Original size 1650x250

После я определила функцию для создания стековых графиков

Original size 1612x326

Далее я приступила к анализу распределения контента по годам: считаю количество контента, выпущенного каждый год и сортирую по годам, Извлекаю индексы и значения для построения графика и создаю и отображаю стековый график, показывающий распределение контента по годам.

Original size 1698x422
Original size 1185x583

Затем начала анализировать распределение контента по странам, считала количество контента для каждой страны и выбрала топ-10 стран, затем использовала функцию create_stackplot для создания и отображения графика.

Original size 2110x142
Original size 1183x584

Далее проанализировала распределение контента по жанрам: сначала преобразовала строковые значения жанров в dummy-переменные и суммировала их, а затем выбрала топ-10 жанров и использовала функцию create_stackplot для создания и отображения графика.

Original size 2148x144
Original size 1184x584

После исследовала распределение по типу контента: сначала считала количество контента для каждого типа (фильм или шоу), а затем использовала функцию create_stackplot.

Original size 2110x148
Original size 1183x584

Далее начала анализировать распределение контента по рейтингам. Для этого я считала количество контента для каждого рейтинга и выбрала топ-10. Использовала функцию create_stackplot.

Original size 2110x148
Original size 1183x584

В проекте для генерации обложки проекта я пользовалась нейросетью ideogram. У искусственного интеллекта я запросила создать 3д-линейную диаграмму, указала стиль 3д-рендер.

Анализ и визуализация данных о фильмах и телешоу Netflix
15
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more