Original size 1290x2072

Анализ данных о самых просматриваемых каналах на Youtube за 2023

PROTECT STATUS: not protected

Введение

Для своего проекта я выбрала данные о популярных YouTube-каналах из датасета Global YouTube Statistics 2023. Нашла я его на Kaggle, где собрано много разных открытых датасетов для анализа.

Если честно, выбрала YouTube, потому что сама часто пользуюсь этой платформой и мне интересно, какие каналы наиболее популярны в мире.

В датасете есть много интересной информации:

- Имена ютуберов - Количество подписчиков - Просмотры видео - Категории контента - Страны происхождения - Примерные доходы каналов

Мне кажется, это супер интересные данные, потому что YouTube сейчас такой популярный, и многие мои друзья тоже им пользуются. Хотелось понять, какой контент преобладает на платформе и как распределяются популярные каналы по миру.

Визуализация данных

Для визуализации я решила сделать несколько разных графиков:

Круговая диаграмма — для показа распределения каналов по типам. Это наглядный способ сравнить, сколько индивидуальных блогеров и сколько брендов среди топовых каналов. Линейный график — для показа тренда создания популярных каналов по годам. Тут интересно увидеть динамику роста платформы и когда был пик появления самых успешных каналов. Столбчатая диаграмма — для показа топ-10 стран по количеству популярных каналов. Это поможет понять, какие страны доминируют на платформе. Диаграмма рассеяния — для анализа взаимосвязи между подписчиками и доходами. Интересно увидеть, как количество подписчиков влияет на доход ютуберов. Горизонтальная столбчатая диаграмма — для показа топовых каналов по подписчикам, чтобы наглядно увидеть, кто возглавляет список самых популярных каналов на платформе.

Шаг 1: Загрузка данных и первичный анализ

big
Original size 1146x525

Я загрузила датасет и провела его первичный анализ. Как оказалось, в датасете содержится информация о 995 популярных YouTube-каналах с множеством атрибутов. При изучении данных я обнаружила, что есть некоторые пропущенные значения, особенно в таких колонках как категории, страны, прирост подписчиков за последние 30 дней и т. д. С этими проблемами нужно будет разобраться перед тем, как строить визуализации.

Шаг 2: Обработка данных и подготовка к анализу

Original size 2479x934
Original size 2688x520

Для дальнейшего анализа мне нужно было обработать данные. Я заполнила пропущенные значения: для числовых данных использовала медианные значения, а для категориальных — метку «Unknown». Мне также понадобилось создать дополнительные колонки для средних значений доходов, чтобы облегчить анализ. Кроме того, я сгруппировала категории контента, оставив только топ-10 самых частых, а все остальные объединила в категорию «Other». Это сделает наши визуализации более читаемыми и позволит сосредоточиться на самых важных категориях.

Шаг 3: Круговая диаграмма — распределение каналов по типам

Original size 1829x779
Original size 1573x1310

Круговая диаграмма показывает, что Entertainment (Развлечения) составляет наибольшую долю (30.6%) всех популярных YouTube-каналов. На втором месте идут Music (Музыка) с 21,7%, за ними следуют People (Люди) с 10,2% и Games (Игры) с 9,8%. Далее идут Comedy (Комедия) с 5,1%, Education (Образование) с 4,9% и Film (Фильмы) с 4,2%. Остальные категории занимают менее значительные доли. Это демонстрирует, что развлекательный и музыкальный контент доминирует на платформе.

Шаг 4: Столбчатая диаграмма — топ-10 стран по количеству популярных каналов

Original size 2488x971
Original size 1280x728

Соединенные Штаты значительно лидируют с 313 популярными каналами. Индия занимает второе место со 168 каналами. Интересно отметить категорию «Unknown» (Неизвестно) с 122 каналами, что указывает на довольно большое количество каналов без указанной страны происхождения. Далее следуют Бразилия (62), Великобритания (45), Мексика (33), Индонезия (28), Испания (22), Таиланд (18) и Южная Корея (17). Это распределение показывает доминирование США на платформе YouTube, а также значительное присутствие развивающихся стран.

Шаг 5: Линейный график — динамика создания популярных каналов по годам

Original size 2591x1088
Original size 1280x727

График показывает несколько интересных пиков в динамике создания популярных каналов. Первый значительный пик наблюдался в 2006 году (91 канал), затем было относительное снижение. Второй крупный рост начался в 2011 году (82 канала) с абсолютным пиком в 2014 году (98 каналов). После 2015–2016 годов наблюдается постепенное снижение, которое становится более заметным после 2017 года. К 2022 году количество новых популярных каналов сократилось до минимума (5 каналов). Эта динамика может указывать на насыщение платформы и возрастающую сложность достижения популярности для новых каналов.

Шаг 6: Диаграмма рассеяния — взаимосвязь между подписчиками и доходами

Original size 2567x1114
Original size 1280x788

Диаграмма рассеяния с логарифмическими шкалами показывает четкую корреляцию между количеством подписчиков и годовым доходом каналов. Большинство точек формируют восходящую тенденцию, демонстрируя, что с увеличением количества подписчиков растет и доход. Однако заметны также каналы с относительно небольшим количеством подписчиков, но высоким доходом, и наоборот. Интенсивность цвета, отражающая количество просмотров, показывает, что каналы с наибольшим количеством просмотров (более темные точки) обычно имеют более высокий доход.

Шаг 7: Горизонтальная столбчатая диаграмма — топ-15 каналов по подписчикам

Original size 2631x1284
Original size 1280x911

T-Series (Music) значительно лидирует с примерно 245 миллионами подписчиков. За ним следуют YouTube Movies (Film & Animation) с около 170 миллионами и MrBeast (Entertainment) с 166 миллионами. Другие топовые каналы включают Cocomelon — Nursery Rhymes (Education), SET India (News), а также несколько музыкальных и развлекательных каналов. В топ-15 представлены различные категории: музыка, фильмы и анимация, развлечения, образование, игры и спорт, что отражает разнообразие популярного контента на платформе.

Описание применения генеративной модели

Если честно, я пока не эксперт в Python, поэтому на некоторых этапах я консультировалась с ChatGPT. (https://chatgpt.com)

Например, когда у меня возникли сложности с:

- Обработкой дат. - Добавлением красивых подписей на графики. - Разбором стран, где в одной ячейке было несколько значений через запятую. - Заполнением пропущенных значений. Я просила его примерно так:

«Как в matplotlib добавить значения над столбцами гистограммы?» «Как извлечь год из столбца с датами в pandas?»

ChatGPT помог мне разобраться с этими задачами, что значительно ускорило работу над проектом.

Итоги проекта

Работа над этим проектом была супер интересной!

Я не только:

Научилась работать с реальными данными. Создавать крутые визуализации. Разобралась в основах анализа данных. Но и узнала много нового про YouTube и популярные каналы.

Основные выводы:

Платформа сильно изменилась со временем. Теперь я лучше понимаю, какой контент там преобладает и почему. Особенно интересно было увидеть динамику создания популярных каналов. Попасть в топ становится всё сложнее, но по-прежнему возможно! Пример MrBeast показывает, что индивидуальные контент-мейкеры могут добиться огромного успеха, если найти свой уникальный подход!

Этот проект дал мне новый взгляд на YouTube и вдохновил на дальнейшее изучение анализа данных!

Блокнот и дататест

Анализ данных о самых просматриваемых каналах на Youtube за 2023
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more