Вводная часть:
Тема: Анализ данных Airbnb (Берлин): цены, спрос (загрузка) и районы Цель: понять, от чего зависит цена, где жильё дороже/дешевле, и как выглядит спрос по данным календаря и отзывов. Инструменты: Python, Pandas, Matplotlib.
набор в формате Inside Airbnb (Airbnb listings + calendar + reviews + районы). Использованные файлы:
listings.csv.gz — карточки объявлений (тип жилья, цена, вместимость, рейтинг и т. д.)
calendar.csv.gz — доступность по дням (можно оценить загрузку/спрос)
reviews.csv.gz — отзывы с датами (динамика по месяцам)
neighbourhoods.geojson — границы районов для карты
Период выгрузки: в данных есть поле last_scraped ≈ 24.09.2025, а календарь покрывает примерно год вперёд.
Airbnb — понятный реальный рынок: цена, локация, тип жилья влияют на выбор людей.
Эти данные полезны для практики: тут есть и таблицы, и временные ряды, и география (карта).
Для бизнеса/хостов ценность такая: 1)понять, какая цена типичная. 2)где районы дороже. 3) как приблизительно оценить спрос через «занятость» календаря.
Я сделал 5 разных типов графиков:
Гистограмма — чтобы увидеть распределение цен и «хвост» дорогих вариантов
Boxplot (ящик с усами) — чтобы сравнить цены по типам жилья (медиана и разброс)
Scatter (точечная диаграмма) + тренд — чтобы увидеть связь «цена ↔ вместимость»
Линейный график — чтобы показать динамику отзывов по месяцам (как индикатор спроса)
Карта (хороплет) — чтобы показать медианную цену по районам визуально
Этапы работы:
Я использовал ChatGPT для:
подсказок по Pandas (как считать загрузку из календаря),
выбора подходящих видов графиков под задачу,
улучшения читабельности кода и подписей,
формулировки выводов «по-человечески».
Примеры промптов:
«Как из calendar Airbnb посчитать долю занятых дней (booked rate) по listing_id?»
«Предложи 4–5 разных графиков, чтобы объяснить цены/спрос/районы.»
«Сделай единый стиль matplotlib: белый фон, аккуратная сетка, один цвет-акцент и один цвет для выделения.»
- Загрузка данных
2. Чистка цены и базовые фильтры
3. Обработка выбросов
4. Свободные таблицы
График 1 — гистограмма цен
График 2 — boxplot по типам жилья
График 3 — scatter: цена vs вместимость
График 4 — отзывы по месяцам (линейный график)
График 5 — карта медианной цены по районам
Использованные статистические методы
Описательная статистика: среднее, медиана, квартили
Перцентили (1–99%) для обработки выбросов по цене
Группировки groupby + агрегаты (median/mean/count)
Корреляция Спирмена (Spearman) — оценка связи без строгих требований к распределению
Линейная аппроксимация (тренд) на scatter для визуального понимания
Bootstrap (бутстрэп) — чтобы оценить доверительные интервалы средних (как пример «стат. устойчивости»)
Стиль и визуальная «консистентность»
Я выбрал минималистичный инфографический стиль:
белый фон
тонкая серая сетка
один основной цвет (холодный)
один цвет для акцента (тёплый)
короткие подписи «как читать график»
Вдохновение (как идея стиля):
аккуратные графики в стиле Datawrapper / Our World in Data (простота + читабельность)
Описание применения генеративной модели:
Код и текст визуального исследование сгенерированы ChatGPT 5.2 Thinking https://chatgpt.com



