
Выбор данных для анализа
Я выбрала данные о фильмах и телешоу Netflix. Netflix — одна из самых популярных платформ потокового мультимедиа и видео. Этот набор табличных данных состоит из списков всех фильмов и телешоу, доступных на Netflix, а также таких подробностей, как актерский состав, режиссеры, рейтинги, год выпуска, продолжительность и т. д. Данные я нашла на Kaggle — сайте соревнований для специалистов по Data Science.
Я являюсь поклонницей фильмов и сериалов от Netflix, также люблю смотреть дорамы их авторства. Именно поэтому я решила проанализировать конкретно эти данные. Мне близка эта тема кино, поэтому процесс анализа был для меня увлекательным и интересным. Я решила проанализировать, как контент распределяется по годам, по странам, по жанрам, по типу контента и по рейтингам и создать визуализацию своего анализа.
Выбор графиков для визуализации
Я решила создать линейные диаграммы, так как этот тип диаграмм позволяет четко увидеть тенденции и закономерности в изменении анализируемых данных, а также легко сравнивать значения между разными временными точками. Они также удобны для отслеживания роста и спада показателей, выявления пиковых значений и периодов стабильности. Кроме того, линейные диаграммы являются простыми и наглядными для восприятия, что делает их идеальным выбором для представления большого объема данных в понятном и информативном виде. Я стилизовала диаграммы, найдя понравившийся референс на сайте matplotlib.

Поэтапная обработка данных
В анализе в первую очередь я, конечно же, импортировала библиотеки.
Затем я загрузила данные из CSV-файла в DataFrame df с помощью функции pd.read_csv (), а также прописала путь к датасету, лежащему на моем компьютере.
Затем я напечатала первые несколько строк данных, чтобы увидеть структуру и содержимое DataFrame.
Затем я настроила стили графиков для интересной визуализации
После я определила функцию для создания стековых графиков
Далее я приступила к анализу распределения контента по годам: считаю количество контента, выпущенного каждый год и сортирую по годам, Извлекаю индексы и значения для построения графика и создаю и отображаю стековый график, показывающий распределение контента по годам.
Затем начала анализировать распределение контента по странам, считала количество контента для каждой страны и выбрала топ-10 стран, затем использовала функцию create_stackplot для создания и отображения графика.
Далее проанализировала распределение контента по жанрам: сначала преобразовала строковые значения жанров в dummy-переменные и суммировала их, а затем выбрала топ-10 жанров и использовала функцию create_stackplot для создания и отображения графика.
После исследовала распределение по типу контента: сначала считала количество контента для каждого типа (фильм или шоу), а затем использовала функцию create_stackplot.
Далее начала анализировать распределение контента по рейтингам. Для этого я считала количество контента для каждого рейтинга и выбрала топ-10. Использовала функцию create_stackplot.
В проекте для генерации обложки проекта я пользовалась нейросетью ideogram. У искусственного интеллекта я запросила создать 3д-линейную диаграмму, указала стиль 3д-рендер.