«The Movies Dataset» (метаданные TMDB) — большой и достаточно «живой» набор данных о фильмах: в нём есть не только названия и даты релиза, но и жанры, зрительские оценки, число голосов, показатели популярности, а также финансовые метрики (бюджет и сборы). Мне было интересно взять именно эти данные, потому что в кино часто расходятся два понятия: популярность (что обсуждают и что массово смотрят) и качество/восприятие (насколько зрителям действительно понравилось). За счёт объёма и разнообразия признаков этот датасет хорошо подходит для анализа таких различий и поиска закономерностей.
В этом проекте я анализирую фильмы на основе movies_metadata.csv из Kaggle (The Movies Dataset). В ходе работы данные были очищены и подготовлены для анализа: я привела типы столбцов к корректным (даты и числа), выделила год релиза, обработала жанры и рассчитала взвешенный рейтинг, который учитывает не только среднюю оценку, но и количество голосов (чтобы отделить «случайно высокий рейтинг» от устойчивого). Далее я визуализировала результаты с помощью разных типов графиков (распределение рейтингов, сравнение жанров, связь бюджета и сборов, динамика по годам). Такой анализ позволяет увидеть, как связаны оценки, популярность и коммерческий успех, и сделать выводы о том, где «успех» действительно совпадает с «качеством», а где — нет.
Цель визуализации: объяснить различие между рейтингом, популярностью и коммерческим успехом. Выбранные виды графиков:
- Гистограмма рейтингов Почему: показать распределение и «типичную» оценку, а не отдельные примеры.
- Столбчатая диаграмма (горизонтальная) + доверительные интервалы: жанры vs взвешенный рейтинг Почему: сравнение групп + честно показываем неопределённость.
- Линейный график по годам: медианный рейтинг и количество релизов Почему: тренды/динамика во времени.
Обработка данных
— загрузка CSV в Pandas — удаление дубликатов — приведение типов: дата/числа — фильтрация строк без ключевых полей (год, оценка, число голосов)

Жанры хранятся строкой в формате JSON‑подобного списка.
Статистическая идея проекта: «взвешенный рейтинг»
Фильм с 10 голосами и оценкой 9.5 нельзя сравнивать напрямую с фильмом с 50 000 голосов и оценкой 8.1. Использован IMDb‑style weighted rating: — R — vote_average — v — vote_count — C— средняя оценка по датасету — m — порог голосов (в проекте: 90‑й перцентиль)
Стилизация графиков (единый стиль)
Цель стилизации: сделать консистентную «редакционную» инфографику: светлый фон, воздух, один акцентный цвет, аккуратные подписи. Что сделано кодом: — единый фон и сетка — палитра (accent + нейтральные) — единые размеры, шрифты — сохранение графиков в PNG для презентации
Использование нейросетей
Я использовала ChatGPT как помощник: — чтобы собрать план анализа и список подходящих графиков — чтобы продумать единый стиль визуализации (палитра, сетка, подписи) — чтобы сделать структуру презентации и формулировки выводов
Примеры промптов (можно вставить 2–4 штуки): — «Предложи 4–6 разных типов графиков для анализа TMDB, чтобы был data‑story.» — «Сделай светлый редакционный стиль для matplotlib: фон, сетка, цвета, шрифт, сохранение PNG.» — «Как корректно сравнивать фильмы с разным числом голосов? Предложи метрику и объяснение для презентации.» — «Сгенерируй структуру презентации: вводная, этапы, методы, выводы.»
График 1: Гистограмма рейтингов
— Большинство фильмов имеют рейтинг в узком диапазоне. — Среднее и медиана близки, поэтому «типичный» фильм оценивают примерно одинаково. — Это объясняет, почему для сравнения важнее дополнительные факторы (жанр, число голосов, популярность).
График 2: Жанры и взвешенный рейтинг + 95% CI
— Средний взвешенный рейтинг различается между жанрами. — Доверительные интервалы показывают, что разница не всегда «абсолютна»: есть перекрытия. — Визуально это честнее, чем просто ранжировать жанры по среднему значению.
График 3: Бюджет vs сборы
— В среднем больший бюджет связан с большими сборами, но разброс огромный. — Лог‑шкала нужна, потому что распределение денег крайне неравномерно (редкие блокбастеры). — Вывод: инвестиции повышают «потолок», но успех не гарантирован.
График 4: Динамика по годам
— Количество фильмов по годам меняется сильнее, чем медианный рейтинг. — Рынок расширяется/сжимается, но оценки остаются относительно стабильными. — Для выводов о «качестве эпохи» важно учитывать, что меняется объём выпуска.
Корреляции Spearman
— vote_count и popularity обычно связаны сильнее, чем рейтинг и касса. — Spearman выбран как устойчивый к выбросам и нелинейным зависимостям.
Ссылки на ноутбук и датасет



