Original size 832x1248

Анализ данных. California Housing Dataset

PROTECT STATUS: not protected
The project is taking part in the competition

Для анализа данных выбран California Housing Dataset, содержащий информацию о ценах на жилье в Калифорнии на уровне округов. Эти данные были получены из одного из наиболее авторитетных источников открытых датасетов для исследовательских целей. Набор данных был первоначально собран в ходе переписи населения США 1990 года и с тех пор стал эталонным для анализа жилищного рынка.

Мне интересно проанализировать именно этот датасет по нескольким причинам. Данные о рынке жилья имеют непосредственное применение в реальном мире — от принятия решений о покупке недвижимости до разработки государственной жилищной политики. Кроме того, набор содержит как географические координаты, так и разнообразные демографические и экономические показатели, что позволяет исследовать комплексные взаимосвязи. Наконец, доступность жилья остается одной из ключевых мировых социально-экономических проблем.

Выбранные типы визуализации

1. Гистограммы Анализ распределения цен на жилье, среднего дохода, возраста домов. Позволяют оценить нормальность распределения, выявить асимметрию и потенциальные выбросы

2. Scatter plots Исследование взаимосвязи между ценой на жилье и ключевыми факторами (доход, близость к океану, плотность населения). Наиболее эффективный способ визуализации корреляционных зависимостей между двумя непрерывными переменными

3. Географические карты Визуализация пространственного распределения цен с учетом координат. Калифорния имеет разнообразную географию, и расположение сильно влияет на стоимость жилья. Карты помогут выявить региональные закономерности

4. Box plots Применение: Сравнение распределения цен по категориям. Позволяют наглядно сравнить медианы, квартили и выбросы в разных группах

5. Матрица корреляций (тепловая карта) Анализ взаимосвязей между всеми числовыми переменными. Эффективный способ определения наиболее значимых предикторов

Такой набор визуализаций позволяет получить полное представление о данных: от общих статистических характеристик до сложных пространственных закономерностей и взаимосвязей между переменными. Каждый тип графика выбран для решения конкретных аналитических задач и в совокупности они создают целостную картину факторов, влияющих на стоимость жилья в Калифорнии.

1. Импорт библиотек и настройка стиля

Original size 1465x1207

2. Загрузка и первичный анализ данных

0

Признак — Описание — Единицы

MedInc — Медианный доход в районе — ×$10,000 HouseAge — Медианный возраст домов — годы AveRooms — Среднее количество комнат на дом — комнаты AveBedrms — Среднее количество спален на дом — спальни Population — Население района — человек AveOccup — Среднее количество жильцов на дом — человек Latitude — Широта — градусы Longitude — Долгота — градусы MedHouseVal — Медианная стоимость жилья (целевая) — ×$100,000

3. Описательная статистика

Original size 1465x730

Ключевые наблюдения:

Стоимость жилья (MedHouseVal): Среднее: ~ 207,000. Медиана: 180,000 Максимум: $500,000 (искусственное ограничение)

Доход (MedInc): Среднее: ~ 38,700/год. Разброс: от 5,000 до $150,000/год

4. Корреляционный анализ

0

Выводы из корреляционного анализа:

MedInc (доход) — самый сильный предиктор цены (0.688) AveRooms — слабая положительная связь (больше комнат → дороже) Latitude — отрицательная связь (северные районы дороже) Population, AveOccup — почти не влияют на цену

5. Визуализация распределений

0

Гистограммы для всех признаков с градиентной заливкой и статистикой.

Наблюдения по распределениям:

MedInc, MedHouseVal — скошены вправо (много дешевых домов/бедных районов) HouseAge — относительно равномерное (дома разного возраста) Latitude, Longitude — равномерное (покрытие всей Калифорнии)

6. Корреляционная тепловая карта

0

Как читать карту:

Красный: положительная корреляция (растут вместе) Синий: отрицательная корреляция (один растет, другой падает) Белый: нет корреляции

7. Географическое распределение

0

Карта Калифорнии с ценами на жилье.

География цен:

Побережье (левая часть) — самое дорогое жилье (желто-розовые точки) Сан-Франциско (север, ~38° широты) — очень дорого Лос-Анджелес (центр, ~34°) — смешанные цены Внутренние районы (правая часть) — дешевле (синие точки)

8. Зависимость цены от дохода

0

Scatter plot с линией тренда и коэффициентом детерминации R².

Интерпретация:

R² = 0.47 означает, что доход объясняет 47% вариации цен Линия тренда: при увеличении дохода на 10k, ценарастетна 42k Горизонтальная линия на 5.0 — искусственный потолок в датасете ($500k)

9. Анализ выбросов (Boxplots)

0

Диаграммы размаха для выявления аномальных значений.

Что видим:

AveBedrms — больше всего выбросов (6.9%) Population — много районов с экстремальным населением Latitude, Longitude — нет выбросов (географические координаты)

10. Попарные зависимости (Pairplot)

0

Матрица scatter plots для ключевых признаков.

Паттерны:

MedInc × MedHouseVal: четкая положительная связь HouseAge × MedHouseVal: слабая связь (разброс) Диагональ: распределения + плотность (KDE)

11. Violin Plots

0

Комбинация boxplot + плотность распределения.

Форма «скрипок»:

Широкая часть = много значений на этом уровне Узкая часть = мало значений Симметричная = нормальное распределение

12. Итоговый отчет

Original size 2443x1978
Original size 2978x2391

Основные детерминанты стоимости жилья Доход населения является наиболее значимым фактором, определяющим стоимость жилья в Калифорнии (коэффициент корреляции +0.688). Эта сильная положительная взаимосвязь подтверждает базовый экономический принцип: покупательная способность населения напрямую влияет на ценовой уровень недвижимости. Линейная регрессия показывает, что увеличение медианного дохода на $10,000 ведет к росту стоимости жилья примерно на $42,000.

Географические закономерности Пространственное распределение цен демонстрирует четкие паттерны: 1. Прибрежные районы существенно дороже внутренних регионов 2. Северная Калифорния (особенно район залива Сан-Франциско) имеет более высокие цены по сравнению с южными регионами 3. Географическая визуализация подтвердила ожидаемую концентрацию высокой стоимости жилья в мегаполисах и курортных зонах

Ограниченное влияние физических характеристик Анализ выявил умеренное влияние размера жилья на его стоимость: 1. Количество комнат имеет слабую положительную корреляцию (+0.152) 2. Возраст дома демонстрирует минимальное положительное влияние (+0.106) 3. Это свидетельствует о том, что в Калифорнии местоположение преобладает над физическими параметрами жилья

Проведенный анализ объясняет 47,3% вариативности цен (R² = 0.4734), что для социально-экономических данных является удовлетворительным результатом, но указывает на наличие других значимых факторов, не учтенных в датасете:

Практические рекомендации: Для покупателей/инвесторов: Приоритет следует отдавать районам с растущими доходами населения и прибрежным локациям Для застройщиков: Наиболее перспективны районы с высоким медианным доходом Для политиков: Неравномерность распределения цен требует дифференцированного подхода к жилищной политике в разных регионах

Рынок жилья Калифорнии характеризуется сильной зависимостью от экономического благосостояния населения и выраженным географическим неравенством. В то время как доход является основным драйвером цен, географические и демографические особенности штата создают сложную систему, требующих точечного, локализованного подхода к анализу и прогнозированию.

*Обложка и последнее изображение сгенерированы нейросетью Krea. Image promt: https://files.mediiia.ru/postimages/38910/4f3ad19b06ad42c8bdc77d9a5a93719b/27dced30e8cc4a698b7f80d0cb55b3671152x945.png

Original size 1568x672
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more