
Для выполнения задания по анализу и визуализации данных я выбрала данные о породах собак. Данные о собаках интересны для анализа, так как они могут показать различия наших пушистых друзей.
Выбранные данные: Породы собак.
Источник данных: Kaggle.
Типы визуализаций: — Линейные, столбчатые и круговые графики для показа тенденций окраса, региона, цвета глаз и проблем со здоровьем.
С помощью этой визуализации люди без проблем смогут узнавать и различать породы!
Причина выбора: Такой анализ поможет в работе начинающих собаководов и кинологов. Так же тем, кто впервые заводит собаку и не может определиться с породой или, если у человека уже есть собака, то лучше её понять.

Анализ данных
Продолжительность жизни: Анализ изменения средней продолжительности, используя линейные графики и соответствующую регрессию.
Частота пород собак по странам: Агрегация данных по странам для более наглядного различия.
Ну и анализ внешности собак по их росту и цвету шерсти.
Стилизация
Я вдохновилась современными минималистичными инфографиками, которые характеризуются использованием ярких тонов и чистыми линиями.
Итоговые графики
Линейный график
График показывает тенденцию средней продолжительности жизни у разных пород. Экстраполяция с помощью линейной регрессии может показать возрастные изменения.
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
data = { 'Longevity (yrs)': ['10-12', '12-15', '8-10', '14-16', '12-14', '10-13'] } dog_breeds = pd.DataFrame (data)
dog_breeds['Longevity (yrs)'] = dog_breeds['Longevity (yrs)'].str.split ('-').str[0].astype (float)
plt.figure (figsize=(8, 5)) sns.histplot (dog_breeds['Longevity (yrs)'], bins=10, kde=True, color="skyblue») plt.title («Distribution of Longevity of Dog Breeds») plt.xlabel («Longevity (years)») plt.ylabel («Frequency») plt.show ()
Столбчатая диаграмма
Диаграмма иллюстрирует популярность собак среди трёх стран, особенно они популярны в США.
import pandas as pd import matplotlib.pyplot as plt
data = {'Country of Origin': ['USA', 'UK', 'Germany', 'USA', 'UK', 'Germany', 'USA']} dog_breeds_data = pd.DataFrame (data)
plt.figure (figsize=(8, 5)) dog_breeds_data['Country of Origin'].value_counts ().plot (kind='bar', color="salmon») plt.title («Frequency of Dog Breeds by Country of Origin») plt.xlabel («Country») plt.ylabel («Number of Breeds») plt.xticks (rotation=45) plt.tight_layout () plt.show ()
А с помощью этой диаграммы мы выяснили, что немецкие овчарки — самые высокие собачки.
import matplotlib.pyplot as plt import seaborn as sns import pandas as pd
data = {'Breed': ['Golden Retriever', 'German Shepherd', 'Labrador Retriever', 'Dachshund'], 'Height (in)': [22, 24, 23, 9]} dog_breeds_data = pd.DataFrame (data)
plt.figure (figsize=(12, 6)) sns.barplot (data=dog_breeds_data, x='Breed', y='Height (in)', palette="viridis») plt.title («Average Height of Dog Breeds») plt.xlabel («Breed») plt.ylabel («Height (inches)») plt.xticks (rotation=90) plt.show ()
Круговая диаграмма
Позволяет визуализировать топ 10 распространенных окрасов и насколько много тех или иных оттенков есть у питомцев.
import matplotlib.pyplot as plt import pandas as pd
fur_colors = pd.Series ({'Brown': 150, 'Black': 120, 'White': 100, 'Gold': 80, 'Gray': 70, 'Red': 60, 'Cream': 50, 'Silver': 40, 'Chocolate': 30, 'Blue': 20})
plt.figure (figsize=(8, 8)) fur_colors.head (10).plot (kind='pie', autopct='%1.1f%%', startangle=140, colors=plt.cm.Paired.colors) #autopct for percentage, startangle for better layout, colors for color scheme
plt.title («Top 10 Fur Colors Among Dog Breeds») plt.ylabel (»»)
plt.show ()
Заключение
Эти визуализации помогают понять различия между разными породами собак и подчеркивают необходимость знаний об этом, чтобы понимать какие трудности могут возникнуть с ними. А если мы знаем в чём проблема, то можем с лёгкостью найти решение. :)
Дополнительные материалы