Выбор базы данных
Я обучаюсь на направлении Анимация и Иллюстрация, и меня привлекает анализ киноиндустрии в целом, как места моего будущего трудоустройства. Также меня интересует то, как именно аудитория и критики взаимодействуют с фильмами, какие предпочитают, какие оценки в основном ставят. Для этого я выбрала статистику с одного из самых популярных сайтов для оценки фильмов — Rotten tomatoes, чтобы определить основные жанры, языки представленных фильмов. а также состав критиков и время написания отзывов. В своем анализе я отдельно рассматриваю две таблицы — основные характеристики фильмов, а также их оценка от зрителей и оценка фильмов от критиков.
Данные я нашла на сайте Kaggle, для этого я сделала запрос о таблицах, связанных с Cinematography, и выбрала самую большую из тех, которые содержат данные по Rotten Tomatoes для более репрезентативной выборки. Первая таблица содержит как средний рейтинг фильма от зрителя, так и его базовые характеристики, такие как оригинальный язык фильма, дата выхода в прокат, жанр и хронометраж. Вторая таблица содержит оценку критиков, а также информацию о самом критике, например квалификацию и место публикации.
Визуализация данных
Для визуализации данных я применяла в основном два вида диаграмм: столбчатые для визуализации количества тех или иных данных и круговых (pie-диаграмм) для визуализации соотношения и пропорции в присутствующих данных. Также я использовала вафельную диаграмму в порядке эксперимента также для визуализации пропорции и соотношениями между жанрами фильмов на платформе.
Для стилизации я выбрала черно-белое оформление сетки графиков (как самое классическое, а также соответствующее стилистике самого сайта Rotten Tomatoes), а также различные холодные оттенки зеленого ('377543', '488553', '5aa167', '>86bf91', '91cf9c', '91cfc0', '6dad9e', '357566', '3166351'), так как именно эти цвета применяются для визуализации фильмов, получивших хорошую оценку на сайте.
Обработка данных
Программа для подключения библиотеки со зрительской статистикой из хранилища Google Drive.
Прикрепить карточку Программа для подключения библиотеки со статистикой критиков из хранилища Google Drive соотвественно.
Программы для создания круговых диаграмм для визуализации количество критиков с топовой квалификацией, а также для визуализации соотношения позитивных и негативных отызвов от критиков.
Пробный вариант круговой диаграммы для визуализации годов, в которые были созданы большинство отзывов от критиков на платформе.
Другой пробный вариант круговой диаграммы для визуализации годов, в которые на платформу было загружено большинство фильмов.
Столбчатая диаграмма для подсчета процентов фильмов, получивших оценку в одном из заданных пяти диапазонов по результатам зрительских отзывов.
Программа для определения топ-10 самых распространенных оригинальных языков среди фильмов, представленных на платформе.
Программа для визуализации топ-10 самых распространенных оригинальных языков среди фильмов, представленных на платформе в виде столбчатой диаграммы.
Программа для визуализации 10 самых популярных жанров фильмов в виде вафельном диаграммы с градиентом.
Итоговые данные и выводы
Эти две круговые диаграммы были призваны проанализировать данные из таблицы критиков, а именно какое количество из публикующихся на платформе критиков обладают топовой квалификацией, а также, сколькие из отзывов оставленных критиков можно отнести к категории положительных. Забавным совпадением является то, что количество критиков с топовой квалификацией пропорционально совпадает с количеством негативных отзывов, однако для подтверждения этой взаимосвязи требуются дальнейшие исследования.
Эти две круговые диаграммы были призваны сравнить самые распространенные даты, в которые критики оставляли отзывы на фильмы и даты, в которые большинство фильмов были загружены на платформу. Наблюдается интересное несовпадение: несмотря на то, что большее число фильмов вышло во вторую половину 2010-х годов — больше всего отзывов критиков было написано в 2000-х, что показывает, что в самом начале ХХI века до повсеместного распространения интернета, а также возрастания темпа производства контента обсуждения внутри киноиндустрии были более активны, чем сейчас, когда киноконтента стало больше.
Эта столбчатая диаграмма показывает, какой процент фильмов от общего числа получил балл в том или ином диапазоне. Наименьшее число фильмов получили оценку в диапазонах от от 21 — 40 баллов («хуже среднего») и 61 — 80 баллов («хорошо/ чуть выше среднего»). Из этого можно сделать вывод, что зрители предпочитают три крайние степени оценки («плохо», «средне» и «отлично») и чуть меньше внимания обращают на категории, являющиеся нюансами между ними, что в целом свидетельствует о некоторой импульсивности зрительской оценки.
Далее я приступила к анализу самих характеристик самих фильмов, большинство из которых попадает на платформу. Здесь я решила посмотреть, какие 10 языков являются самыми распространенными на платформе. Как и ожидалось, наиболее распространенным (с отрывом почти в 8000 картин) является американский английский, что показывает, что американские и в частности голливудские фильмы все ещё являются самыми популярными как среди зрителей, так и среди критиков. Из интересных данных хочется отметить также преобладание японского языка над большинством европейских, что может быть связано с популяризацией культуры Японии в медиапространстве в последнее время, в частности культуры анимэ. Индийский язык также преобладает над европейским, что свидетельствует о количестве и популярности контента, производимого в Болливуде.
Эта вафельная диаграмма показывает, какие жанры являются наиболее часто встречающимися на платформе. Самый распространенный жанр, представляющий около трети фильмов является драма, что может быть вызвано несколько популярностью данного жанра, а скорее относительной легкостью в производстве (например отсутствие дорогих декораций и спецэффектов в отличие от фантастики и хорроров). Следующими по популярности выступают документальные фильмы, что может быть объяснено тем, что большое количество документальных фильмов производится по заказу стриминговых сервисов и телеканалов. Наименее популярными из представленных оказались хоррор и мистика, а вовсе не представлены были такие жанры как фэнтези и научная фантастика, что может быть вызвано как относительной дороговизной производства, так и спецификой жанров в целом.
Описание генеративной модели
Для генерации обложки я использовала нейросеть: Ideogram.ai Промпт: Retro-futuristic illustration with film clip, camera and other cinematographic elements, ude dark backgrounds and different shades of green and blue-green
Источники
Kaggle — поиск датасета. URL: https://www.kaggle.com/datasets/andrezaza/clapper-massive-rotten-tomatoes-movies-and-reviews Ideogram — генерация обложки. URL: https://ideogram.ai/
Мои ссылки