Исходный размер 1342x1846

Ваш фильм точно будет популярным

В поиске подходящего датасета на сайте kaggle.com, я наткнулась на любопытные данные со статистикой по разным аспектам киноиндустрии. Решила взять его, чтобы посмотреть, какие связи получится найти, например, между жанром и рейтингом или кассовыми сборами и актерами. С этой информацией получится составить образ «среднего успешного фильма» и возможно снять свой успешный фильм в будущем.

Диаграммы подбирались в соответствии с анализируемыми данными, где-то нужно было посмотреть соотношение долей, а где-то просто выявить самый частый результат

Типы диаграмм:

  1. диаграмма-область
  2. диаграмма-область
  3. точечная диаграмма
  4. столбчатая диаграмма
  5. диаграмма Санки
Исходный размер 2328x1300

Обработка данных

Для начала я импортировала необходимые мне библиотеки. После чего считала скачанный csv-файл датасета.

Исходный размер 562x355

Изучаем исходный датасет, чтобы принять решение с какой его частью будем работать.

Исходный размер 1002x864

Выбираем самые популярные рейтинги.

Исходный размер 1770x1172

Выбираем самые популярные жанры.

Исходный размер 1338x1520
Исходный размер 1756x466

То же самое проделываем для годов выпуска. Для 2020 записей слишком мало. В выборке df_sel не будем учитывать значения для этого года, а также отбросим записи по фильмам c редко встречающимися жанрами и рейтингами.

Затем я составила сокращенный вариант выборки, в котором не учитывались данные, с недостаточной информацией.

Исходный размер 1556x224

Визуализация данных

Для визуального оформления использовалась градиентная палитра между комплиментарными желтым и фиолетовым. Противоположные основные цвета подчеркивают разноплановость данных, а плавный градиент желто-фиолетовых оттенков, принадлежность данных к одной сфере кино.

Помимо этого выбранные цвета хорошо смотрятся в сочетании со строчками кода, которые тоже обладают цветовой кодировкой.

Исходный размер 1280x800

Первая диаграмма

Исходный размер 733x455

Динамика изменения долей фильмов различных жанров по годам

Исходный размер 1946x678

График иллюстрирует, как меняется распределение фильмов по жанрам с годами. Видно, что комедия в целом во все времена была популярна, но ближе к настоящему времени, рынок захватывают экшены.

Исходный размер 2992x1686

Вторая диаграмма

Исходный размер 746x455

Динамика изменения бюджетов фильмов различных жанров по годам

Исходный размер 2090x642

На этом графике мы видим, как менялся средний бюджет фильмов каждого жанра с годами. Можно заметить несколько изменений, например, 2 резких скачка в бюджетах фильмов жанра мистики или то, что анимация из минимальных затрат перешла в чуть ли не максимальные, в сравнении с другими жанрами.

Исходный размер 1080x608

Третья диаграмма

Исходный размер 846x547

Связь оценки и числа голосов

Исходный размер 1300x646

Третья диаграмма отражает, как связаны оценка фильма и количество голосующих. Мы видим, что если фильм плохой, то и желания ставить оценку у людей нет, но если фильм действительно хорош, то оценку ему поставят многие из зрителей. При этом драма и экшн занимают высокие места и по количеству голосов, и по рейтингу.

Исходный размер 1200x674

Четвертая диаграмма

Исходный размер 950x547

Средние сборы фильмов с участием звёзд

Исходный размер 1822x574

Столбчатая диаграмма показывает, участие какой звезды в фильме связано с большими сборами. По ней можно определить, у каких актеров, самая активная фанатская база.

Исходный размер 1800x1302

Пятая диаграмма

Исходный размер 1424x874

Диаграмма Санки: жанр и рейтинг

Исходный размер 1918x1484

Последняя диаграмма иллюстрирует, как связаны рейтинги и жанры фильмов. По нему видно, что больше всего снимается комедии с рейтингом R.

Исходный размер 1800x958

Итог

В процессе изучения датасета, с информацией о самых разных аспектах фильмов, я создала 5 диаграмм, которые показали, какими характеристиками должен обладать фильм, чтобы быть популярным.

В итоге образ среднего успешного фильма это комедия, если подешевле, или экшен, если подороже, с рейтингом R и Томом Холландом в главной роли.

Нейросети

Код для диаграммы Санки был написан с использованием Chat GPT.

https://trychatgpt.ru/

Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше