Original size 832x1248

Анализ данных Netflix

PROTECT STATUS: not protected
3

Netflix — это американский стриминговый сервис, предоставляющий доступ к фильмам, сериалам и документальным программам

big
Original size 1024x277

Для своего проекта я выбрала данные о контенте Netflix из датасета Netflix Movies and TV Shows. Нашла я его на Kaggle, где собрано много разных открытых датасетов для анализа. Я выбрала Netflix, потому что сама обожаю этот сервис и постоянно что-то там смотрю. Мне было интересно узнать, какой на самом деле контент преобладает на платформе, и сделать эти данные наглядными.

В датасете есть много классной информации — там и названия всех шоу и фильмов, и режиссеры, и актеры, и даты добавления на платформу, и страны производства, и даже возрастные рейтинги. Мне кажется, это супер интересные данные, потому что Netflix сейчас такой популярный, и многие мои друзья тоже им пользуются. Хотелось понять, как развивалась платформа и какой контент там преобладает.

Для визуализации я решила сделать несколько разных графиков:

Круговую диаграмму для показа соотношения фильмов и сериалов — это самый наглядный способ сравнить две основные категории.

Линейный график для показа тренда добавления контента по годам — тут интересно увидеть динамику роста платформы и когда был самый большой скачок.

Столбчатые диаграммы для стран-производителей и возрастных рейтингов — они хорошо подходят, когда нужно сравнить много категорий между собой.

Гистограмму для распределения длительности фильмов — она классно показывает, сколько фильмов попадает в каждый временной диапазон.

Этапы работы с данными и процесс создания визуализаций

Когда я получила датасет, я сначала хотела просто понять, что в нем вообще есть. Для работы с данными я использовала Python и три главные библиотеки:

Pandas — для анализа, Matplotlib и Seaborn — для графиков.

Сначала я импортировала все нужные библиотеки и настроила основной стиль для графиков:

Original size 1050x530

код (1)

Потом загрузила CSV-файл и посмотрела, что вообще там есть:

Original size 1065x738

код (2)

Сначала я импортировала все нужные библиотеки и настроила основной стиль для графиков.

Оказалось, что в датасете целых 8807 записей и 12 столбцов! Я была в шоке от количества информации. Там есть не только базовые данные о названиях и типах шоу, но и подробная информация о жанрах (столбец listed_in) и даже описания (description).

Когда я проверила данные на пропуски, то обнаружила большую проблему с режиссерами — в столбце director аж 2634 пропуска! Также много пропусков в столбцах:

cast (825), country (831), а также небольшие пробелы в date_added, rating и duration.

Поскольку в данных было так много пропусков, я решила сначала с ними разобраться. С заполнением пропусков было немного сложно, особенно для продолжительности, потому что там нужно было разделять фильмы и сериалы. У фильмов продолжительность в минутах, а у сериалов — в сезонах. Но мне всё-таки удалось это сделать!

Original size 1463x1300

код (3)

Сравнение фильмов и сериалов

Дальше я перешла к анализу типов контента. Я была в шоке, когда увидела, что фильмов почти 70%, а сериалов только около 30%! Мне всегда казалось, что сериалов на Netflix больше, потому что о них чаще говорят.

0

график (1)

Анализ трендов добавления контента по годам

Потом мне стало интересно, как Netflix рос со временем. Мне было нелегко разобраться с обработкой дат, но когда все получилось, результат меня впечатлил! Оказалось, что с 2015 по 2019 годы платформа супер быстро росла, а потом в 2020-м произошел спад. Наверное, из-за пандемии меньше контента снимали.

0

график (2)

Анализ стран-производителей

Дальше было сложнее, потому что в столбце со странами могло быть несколько стран через запятую. Пришлось их разделять. И вот тут меня ждал еще один сюрприз — США впереди с огромным отрывом! Хотя я и ожидала, что они будут на первом месте, но не думала, что разрыв будет настолько большим. Индия на втором месте, что тоже интересно.

0

график (3)

Возрастные рейтинги

Потом я решила посмотреть, для какой аудитории больше всего контента. Оказалось, что больше всего контента с рейтингом TV-MA, то есть для взрослых. Это логично, учитывая популярность таких шоу как «Игра в кальмара» или «Очень странные дела».

0

график (4)

Стилизация графиков

post

Для стилизации графиков я вдохновилась интерфейсом самого Netflix. Вот что я использовала:

Темный фон — это классическая черная тема Netflix через plt.style.use ('dark_background') Фирменный красный цвет (#E50914) — я нашла точный код цвета на сайте Netflix Brand Assets Контрастные подписи — белый текст на черном фоне для лучшей читаемости Вот пример заставки Netflix, которая вдохновила меня на этот стиль:

Original size 940x529

Для последнего штриха я сделала общий дашборд, где собрала все графики вместе:

Original size 1984x1472

Описание применения генеративной модели

На некоторых этапах я консультировалась с ChatGPT. Например, когда не могла понять, как правильно обработать даты и как сделать красивые подписи на графиках. Я просила его примерно так:

«Как в matplotlib добавить значения над столбцами гистограммы?» «Как извлечь год из столбца с датами в pandas?»

Еще он помог мне с разбором стран, где в одной ячейке было несколько значений через запятую, и особенно с заполнением пропущенных значений. Так же я использовала ideogram.ai для генерации обложки проекта.

Анализ данных Netflix
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more