Original size 600x847

Анализ факторов, влияющих на успеваемость студентов

PROTECT STATUS: not protected
9

I. ВВОДНАЯ ЧАСТЬ

  1. Выбор источника данных

Данные были взяты из открытого источника на платформе Kaggle: «Student Performance Factors». Этот датасет содержит информацию о различных факторах, которые могут влиять на академическую успеваемость студентов.

  1. Актуальность анализа

Анализ этих данных представляет интерес, поскольку позволяет выявить наиболее значимые факторы, влияющие на успеваемость. Это может помочь образовательным учреждениям, преподавателям и родителям разрабатывать эффективные стратегии поддержки студентов и оптимизации образовательного процесса. Понимание этих факторов имеет ценность для повышения общего уровня образования и достижения лучших результатов.

  1. Выбор типов графиков

Гистограмма: Для визуализации распределения одной количественной переменной (например, количество часов, затраченных на учебу), чтобы понять ее общую структуру и выявить пиковые значения. Диаграмма рассеяния (Scatter Plot): Для выявления взаимосвязи между двумя количественными переменными (например, количество часов учебы и оценка на экзамене). Box Plot (Ящик с усами): Для сравнения распределений количественной переменной (например, оценки на экзамене) в разных категориях (например, по уровню вовлеченности родителей). Столбчатая диаграмма (Count Plot): Для отображения количества наблюдений в каждой категории категориальной переменной (например, уровень мотивации). Тепловая карта (Heatmap): Для визуализации матрицы корреляций между всеми количественными переменными в датасете, что позволяет быстро оценить силу и направление взаимосвязей. Комбинированный график (Столбцы и Линия): Для одновременного отображения количества студентов (столбцы) и среднего балла (линия) по категориям категориальной переменной (например, уровень мотивации). Pair Plot (матрица графиков): Для визуализации всех попарных взаимосвязей между несколькими переменными одновременно.

II. ЭТАПЫ РАБОТЫ

  1. Загрузка и подготовка данных
Original size 1300x552

Импорт библиотек, загрузка данных из CSV-файла, удаление строк с пропущенными значениями, корректировка оценок и создание новых признаков для анализа.

  1. Глобальные параметры стиля

Цветовая палитра: Глубокий темно-синий фон (bg_color: midnightblue), акцентные цвета — сливовый (plum) и бордовый (maroon). Шрифты: DejaVu Serif (для обеспечения читаемости и классического вида). Размеры шрифтов: Настройки размеров шрифтов для заголовков, подписей осей и меток. Обводка и границы: Использование темно-серой обводки (dimgray) для выделения элементов графика. Глобальные параметры стиля: Все настройки объединены в словарь style_params для обеспечения единообразия.

Original size 1300x662

Определение глобальных параметров стиля для обеспечения единообразного визуального оформления графиков.

Original size 1300x295

Применение глобального стиля.

  1. Создание различных типов графиков и их стилизация

Для каждого типа графика (гистограмма, boxplot, и т. д.) создавалась отдельная функция, которая использовала общие параметры стиля для единообразного оформления.

Тепловая карта: Корреляции между изучаемыми переменными

Original size 1300x152
Original size 941x859

Наиболее сильная положительная корреляция (0.58) наблюдается между посещаемостью (Attendance) и оценкой на экзамене (Exam_Score). Это говорит о том, что регулярное посещение занятий значительно влияет на успеваемость. Существует положительная корреляция (0.45) между количеством часов обучения (Hours_Studied) и оценкой на экзамене (Exam_Score). Это указывает на прямую зависимость между временем, затраченным на учебу, и результатами. Положительная корреляция (0.50) между успехом (Is_Successful) и оценкой на экзамене (Exam_Score).

Ящик с усами: Влияние внеклассных занятий на результаты экзаменов (Exam Score vs. Extracurricular Activities)

Original size 1300x383
Original size 978x578

На боксплоте видно, что распределение оценок по экзамену у студентов, участвующих во внеклассных мероприятиях (Yes), и у тех, кто не участвует (No), достаточно схожее. Медианные значения оценок у обеих групп примерно равны и находятся около 68–69 баллов. Диапазон значений и разброс оценок также сопоставимы, с наличием выбросов в обеих группах. Это говорит о том, что участие во внеклассных активностях не оказывает заметного влияния на средний уровень успеваемости по экзамену в данной выборке.

Гистограмма: Распределение часов обучения у успешных студентов и всех студентов

Original size 1300x597
Original size 1017x578

Гистограмма показывает распределение количества часов, проведённых за учёбой, для всех студентов и для группы успешных студентов. Видно, что большинство студентов учатся около 20 часов, что отражено пиком основного распределения (All). При этом успешные студенты (Successful) имеют более смещённое распределение в сторону больших значений часов обучения, с пиком ближе к 30 часам.

Это указывает на то, что успешные студенты в среднем тратят на учебу больше времени по сравнению с общей группой, что подтверждает важность интенсивной подготовки для достижения высоких результатов. Более высокий объём часов обучения коррелирует с успешностью, что подчёркивает прямую зависимость между усилиями и достижениями в учёбе.

Столбчатая диаграмма: Уровень мотивации успешных студентов

Original size 1300x132
Original size 777x578

Данная диаграмма показывает распределение студентов по уровням мотивации. Большинство студентов имеют средний уровень мотивации, что может указывать на необходимость стимулирования и поддержки для повышения мотивации у данной группы.

Ящик с усами: Влияние участия родителей на результаты экзаменов (Exam Score vs. Parental Involvement)

Original size 978x578

График показывает распределение оценок по экзамену в зависимости от уровня вовлечённости родителей (низкий, средний, высокий). Можно заметить, что медианные оценки студентов с высокой вовлечённостью родителей выше, чем у студентов с низким и средним уровнем вовлечённости. Также у группы с высокой вовлечённостью более широкий интерквартильный размах и больше выбросов с высокими оценками, что указывает на большую вариативность, но в целом более высокие достижения.

Это свидетельствует о положительном влиянии активного участия родителей на успеваемость детей, что может быть связано с дополнительной поддержкой и мотивацией. Следовательно, повышение вовлечённости родителей может способствовать улучшению результатов экзаменов у студентов.

Ящик с усами: Результаты экзаменов в зависимости от общей поддержки (Exam Score by Total Support)

Original size 977x578

График демонстрирует распределение оценок по экзамену в зависимости от уровня общей поддержки (Medium и High). Видно, что студенты с высоким уровнем поддержки имеют более высокие медианные оценки по сравнению с группой со средним уровнем поддержки. Кроме того, диапазон оценок у группы с высокой поддержкой смещён в сторону более высоких значений, а также наблюдаются выбросы с очень высокими баллами.

Это указывает на положительное влияние высокого уровня поддержки (возможно, со стороны семьи, школы или других источников) на успеваемость студентов, что подчеркивает важность комплексной поддержки для достижения лучших академических результатов.

Комбинированный график (Столбцы и Линия): Связь между уровнем мотивации и средним баллом (Motivation Level vs. Exam Score)

Original size 1300x149
Original size 978x578

Комбинированный график показывает количество студентов с каждым уровнем мотивации и средний балл для каждой группы. Мы видим, что средний балл растет с увеличением уровня мотивации. Это подтверждает гипотезу о положительной связи между мотивацией и успеваемостью. График наглядно демонстрирует потенциал повышения успеваемости за счет стимулирования мотивации студентов.

График рассеяния: Влияние количества часов обучения на результаты экзаменов

Original size 1300x91
Original size 923x569

Диаграмма рассеяния показывает, что существует положительная корреляция между количеством часов учебы и оценкой за экзамен. Однако, эта корреляция не является сильной, что указывает на наличие других факторов, влияющих на успеваемость. Видно, что даже при схожем количестве часов учебы некоторые студенты демонстрируют более высокие оценки, что может быть связано с их способностями, мотивацией или качеством обучения.

Парные взаимосвязи между факторами успеваемости студентов

Original size 1301x1030
Original size 958x1020

На матрице графиков можно заметить несколько важных взаимосвязей между переменными.

Наибольшая положительная корреляция наблюдается между посещаемостью (Attendance) и оценкой на экзамене (Exam_Score). Это подтверждается плотностью точек и формой распределения — студенты с более высокой посещаемостью обычно получают более высокие оценки. Также видна умеренная положительная связь между количеством часов обучения (Hours_Studied) и оценкой на экзамене (Exam_Score), что указывает на то, что большее время, уделяемое учебе, способствует лучшим результатам. Переменная Motivation_Level_Codes, отражающая уровень мотивации, имеет дискретное распределение и показывает тенденцию к улучшению показателей при увеличении мотивации, хотя взаимосвязь менее выражена и требует дополнительного анализа. Распределения по диагонали показывают, что все переменные имеют достаточно широкий разброс значений, что позволяет эффективно анализировать корреляции. В целом, графики подтверждают логику, что регулярное посещение и активная учеба положительно влияют на успеваемость студентов, а мотивация играет дополнительную роль в этом процессе.

  1. Использование нейросетей

В процессе работы над проектом для генерации кода, стилизации графиков и анализа данных активно использовалась большая языковая модель ChatBotChatApp.

Для чего использовались нейросети: Генерация кода для визуализации данных: Для создания различных типов графиков, таких как гистограммы, диаграммы рассеяния, box plot, тепловые карты и комбинированные графики. Оптимизация существующего кода: Улучшение читаемости и эффективности кода визуализации. Предложения по анализу данных: Получение идей для раскрытия взаимосвязей между переменными.

Примеры промптов: «Сгенерируй код на Python с использованием Matplotlib и Seaborn для создания тепловой карты корреляции, используя цветовую палитру, вдохновленную стилем ‘Dark Academia’ и установи шрифт ‘DejaVu Serif’.» «Напиши функцию на Python, которая принимает DataFrame и создает Box Plot для сравнения распределения оценок в разных категориях, стилизованный с использованием заданных параметров (словарь style_params).» «Проанализируй распределение оценок ‘Exam_Score’ и предложи наиболее подходящие визуализации для более глубокого понимания данных. Оцени, какие факторы могут влиять на различия в оценках.» «Создай код для диаграммы рассеяния, показывающей взаимосвязь между ‘Hours_Studied’ и ‘Exam_Score’, с возможностью отображения линии тренда.»

III. ССЫЛКИ

IV. ЗАКЛЮЧЕНИЕ

В ходе проведенного анализа мы выявили ряд ключевых факторов, оказывающих влияние на успеваемость студентов. Выполненные визуализации позволили наглядно продемонстрировать эти взаимосвязи и предложить ценные инсайты для улучшения образовательного процесса.

Основные выводы: Посещаемость: Является одним из наиболее сильных предикторов успеваемости, что подчеркивает важность регулярного посещения занятий. Мотивация: Высокий уровень мотивации тесно связан с высокими академическими достижениями. Вовлеченность родителей и общая поддержка: Оказывают значительное положительное влияние на оценки студентов. Количество часов обучения: Положительно коррелирует с успеваемостью, но его влияние менее выражено, чем у других факторов. Сбалансированный режим дня: Достаточный сон коррелирует с лучшими результатами, указывая на важность соблюдения режима. Взаимосвязь факторов: Графики рассеяния и матрица корреляций подтвердили наличие взаимосвязей между различными факторами, что подчеркивает комплексность процесса обучения.

Общий вывод

Анализ данных показывает, что ключевыми факторами, влияющими на успешность студентов и их оценки по экзамену, являются количество часов, проведённых за учёбой, посещаемость и уровень мотивации. Парные взаимосвязи между переменными демонстрируют положительную корреляцию между часами обучения и результатами экзамена, а также между посещаемостью и оценками. Успешные студенты, как правило, тратят на учёбу больше времени, что подтверждается распределением часов обучения.

Вовлечённость родителей и общий уровень поддержки также оказывают заметное влияние на успеваемость: студенты с высокой вовлечённостью родителей и высоким уровнем поддержки демонстрируют более высокие медианные оценки и большую вариативность в сторону лучших результатов. Это подчеркивает важность социальной и эмоциональной поддержки для учебного успеха.

При этом участие во внеклассных мероприятиях не показывает значительного влияния на средний уровень оценок, что может свидетельствовать о том, что данные активности не являются решающим фактором для академической успеваемости в данной выборке.

В целом, результаты подтверждают классическую логику: успешность в учёбе зависит от сочетания усилий студента (часы обучения, посещаемость, мотивация) и внешней поддержки (родители, общая поддержка). Для повышения академических результатов важно стимулировать как активное обучение, так и создание благоприятной поддерживающей среды.

Анализ факторов, влияющих на успеваемость студентов
9
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more