Исходный размер 720x900

Визуализация данных Airbnb

PROTECT STATUS: not protected

Вводная часть:

Тема: Анализ данных Airbnb (Берлин): цены, спрос (загрузка) и районы Цель: понять, от чего зависит цена, где жильё дороже/дешевле, и как выглядит спрос по данным календаря и отзывов. Инструменты: Python, Pandas, Matplotlib.

набор в формате Inside Airbnb (Airbnb listings + calendar + reviews + районы). Использованные файлы:

listings.csv.gz — карточки объявлений (тип жилья, цена, вместимость, рейтинг и т. д.)

calendar.csv.gz — доступность по дням (можно оценить загрузку/спрос)

reviews.csv.gz — отзывы с датами (динамика по месяцам)

neighbourhoods.geojson — границы районов для карты

Период выгрузки: в данных есть поле last_scraped ≈ 24.09.2025, а календарь покрывает примерно год вперёд.

Airbnb — понятный реальный рынок: цена, локация, тип жилья влияют на выбор людей.

Эти данные полезны для практики: тут есть и таблицы, и временные ряды, и география (карта).

Для бизнеса/хостов ценность такая: 1)понять, какая цена типичная. 2)где районы дороже. 3) как приблизительно оценить спрос через «занятость» календаря.

Я сделал 5 разных типов графиков:

Гистограмма — чтобы увидеть распределение цен и «хвост» дорогих вариантов

Boxplot (ящик с усами) — чтобы сравнить цены по типам жилья (медиана и разброс)

Scatter (точечная диаграмма) + тренд — чтобы увидеть связь «цена ↔ вместимость»

Линейный график — чтобы показать динамику отзывов по месяцам (как индикатор спроса)

Карта (хороплет) — чтобы показать медианную цену по районам визуально

Этапы работы:

Я использовал ChatGPT для:

подсказок по Pandas (как считать загрузку из календаря),

выбора подходящих видов графиков под задачу,

улучшения читабельности кода и подписей,

формулировки выводов «по-человечески».

Примеры промптов:

«Как из calendar Airbnb посчитать долю занятых дней (booked rate) по listing_id?»

«Предложи 4–5 разных графиков, чтобы объяснить цены/спрос/районы.»

«Сделай единый стиль matplotlib: белый фон, аккуратная сетка, один цвет-акцент и один цвет для выделения.»

  1. Загрузка данных
Исходный размер 614x996

2. Чистка цены и базовые фильтры

Исходный размер 1648x456

3. Обработка выбросов

Исходный размер 1212x270

4. Свободные таблицы

Исходный размер 2260x1030

График 1 — гистограмма цен

Исходный размер 1241x706
Исходный размер 1454x536

График 2 — boxplot по типам жилья

Исходный размер 1241x709
Исходный размер 1260x604

График 3 — scatter: цена vs вместимость

Исходный размер 1241x709
Исходный размер 1664x628

График 4 — отзывы по месяцам (линейный график)

Исходный размер 1241x709
Исходный размер 1416x708

График 5 — карта медианной цены по районам

Исходный размер 1241x706
Исходный размер 1104x1152

Использованные статистические методы

Описательная статистика: среднее, медиана, квартили

Перцентили (1–99%) для обработки выбросов по цене

Группировки groupby + агрегаты (median/mean/count)

Корреляция Спирмена (Spearman) — оценка связи без строгих требований к распределению

Линейная аппроксимация (тренд) на scatter для визуального понимания

Bootstrap (бутстрэп) — чтобы оценить доверительные интервалы средних (как пример «стат. устойчивости»)

Стиль и визуальная «консистентность»

Я выбрал минималистичный инфографический стиль:

белый фон

тонкая серая сетка

один основной цвет (холодный)

один цвет для акцента (тёплый)

короткие подписи «как читать график»

Вдохновение (как идея стиля):

аккуратные графики в стиле Datawrapper / Our World in Data (простота + читабельность)

Описание применения генеративной модели:

Код и текст визуального исследование сгенерированы ChatGPT 5.2 Thinking https://chatgpt.com

Визуализация данных Airbnb
Проект создан 16.01.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше