Популярность ≠ качество на HSE Design

«The Movies Dataset» (метаданные TMDB) — большой и достаточно «живой» набор данных о фильмах: в нём есть не только названия и даты релиза, но и жанры, зрительские оценки, число голосов, показатели популярности, а также финансовые метрики (бюджет и сборы). Мне было интересно взять именно эти данные, потому что в кино часто расходятся два понятия: популярность (что обсуждают и что массово смотрят) и качество/восприятие (насколько зрителям действительно понравилось). За счёт объёма и разнообразия признаков этот датасет хорошо подходит для анализа таких различий и поиска закономерностей.

В этом проекте я анализирую фильмы на основе movies_metadata.csv из Kaggle (The Movies Dataset). В ходе работы данные были очищены и подготовлены для анализа: я привела типы столбцов к корректным (даты и числа), выделила год релиза, обработала жанры и рассчитала взвешенный рейтинг, который учитывает не только среднюю оценку, но и количество голосов (чтобы отделить «случайно высокий рейтинг» от устойчивого). Далее я визуализировала результаты с помощью разных типов графиков (распределение рейтингов, сравнение жанров, связь бюджета и сборов, динамика по годам). Такой анализ позволяет увидеть, как связаны оценки, популярность и коммерческий успех, и сделать выводы о том, где «успех» действительно совпадает с «качеством», а где — нет.

The Movies Dataset

Цель визуализации: объяснить различие между рейтингом, популярностью и коммерческим успехом. Выбранные виды графиков:

Гистограмма рейтингов Почему: показать распределение и «типичную» оценку, а не отдельные примеры.
Столбчатая диаграмма (горизонтальная) + доверительные интервалы: жанры vs взвешенный рейтинг Почему: сравнение групп + честно показываем неопределённость.
Линейный график по годам: медианный рейтинг и количество релизов Почему: тренды/динамика во времени.

Обработка данных

— загрузка CSV в Pandas — удаление дубликатов — приведение типов: дата/числа — фильтрация строк без ключевых полей (год, оценка, число голосов)

Исходный размер 1113x337

Жанры хранятся строкой в формате JSON‑подобного списка.

Исходный размер 1102x403

Статистическая идея проекта: «взвешенный рейтинг»

Фильм с 10 голосами и оценкой 9.5 нельзя сравнивать напрямую с фильмом с 50 000 голосов и оценкой 8.1. Использован IMDb‑style weighted rating: — R — vote_average — v — vote_count — C— средняя оценка по датасету — m — порог голосов (в проекте: 90‑й перцентиль)

Исходный размер 1102x280

Стилизация графиков (единый стиль)

Цель стилизации: сделать консистентную «редакционную» инфографику: светлый фон, воздух, один акцентный цвет, аккуратные подписи. Что сделано кодом: — единый фон и сетка — палитра (accent + нейтральные) — единые размеры, шрифты — сохранение графиков в PNG для презентации

Исходный размер 1105x256

Использование нейросетей

Я использовала ChatGPT как помощник: — чтобы собрать план анализа и список подходящих графиков — чтобы продумать единый стиль визуализации (палитра, сетка, подписи) — чтобы сделать структуру презентации и формулировки выводов

Примеры промптов (можно вставить 2–4 штуки): — «Предложи 4–6 разных типов графиков для анализа TMDB, чтобы был data‑story.» — «Сделай светлый редакционный стиль для matplotlib: фон, сетка, цвета, шрифт, сохранение PNG.» — «Как корректно сравнивать фильмы с разным числом голосов? Предложи метрику и объяснение для презентации.» — «Сгенерируй структуру презентации: вводная, этапы, методы, выводы.»

График 1: Гистограмма рейтингов

Исходный размер 1965x1162

— Большинство фильмов имеют рейтинг в узком диапазоне. — Среднее и медиана близки, поэтому «типичный» фильм оценивают примерно одинаково. — Это объясняет, почему для сравнения важнее дополнительные факторы (жанр, число голосов, популярность).

График 2: Жанры и взвешенный рейтинг + 95% CI

Исходный размер 1962x1162

— Средний взвешенный рейтинг различается между жанрами. — Доверительные интервалы показывают, что разница не всегда «абсолютна»: есть перекрытия. — Визуально это честнее, чем просто ранжировать жанры по среднему значению.

График 3: Бюджет vs сборы

Исходный размер 1956x1162

— В среднем больший бюджет связан с большими сборами, но разброс огромный. — Лог‑шкала нужна, потому что распределение денег крайне неравномерно (редкие блокбастеры). — Вывод: инвестиции повышают «потолок», но успех не гарантирован.

График 4: Динамика по годам

Исходный размер 1963x1162

— Количество фильмов по годам меняется сильнее, чем медианный рейтинг. — Рынок расширяется/сжимается, но оценки остаются относительно стабильными. — Для выводов о «качестве эпохи» важно учитывать, что меняется объём выпуска.

Корреляции Spearman

Исходный размер 1526x1165

— vote_count и popularity обычно связаны сильнее, чем рейтинг и касса. — Spearman выбран как устойчивый к выбросам и нелинейным зависимостям.

Ссылки на ноутбук и датасет

Ссылка