Data Mining в сфере образования, или Как спрогнозировать исход обучения студентов

Методы Data Mining находят широкое применение не только в бизнесе, но и во многих сферах общественной жизни. Сегодня речь пойдет о системе образования. Как колледжи могут спрогнозировать исход обучения студентов при помощи глубокого анализа данных?

Ситуация

В типичном городском колледже учатся 15 тыс. студентов. Как правило, их разделяют на три категории:

  • склонные к переводам на другие факультеты / в другие учебные заведения;
  • нацеленные на получение высшего образования;
  • повышающие базовую квалификацию.

Классификация основывается на данных, полученных от приемной комиссии. Она (хоть и является достаточно исчерпывающей) плохо иллюстрирует различия между категориями учащихся.

Используя глубокий анализ данных, колледжи могут построить рабочие типологии студентов, помогающие спрогнозировать исход обучения.

Решение

Над решением задачи работала команда специалистов SPSS Inc.

Этап 1

Чтобы создать рабочие типологии для 15 тысяч студентов, аналитики использовали два мощных алгоритма кластеризации – метод k-средних и так называемый двухступенчатый (TwoStep) кластерный анализ.

Их применили к вышеописанным категориям – границы между кластерами получились довольно размытыми. Даже после повторного анализа наборов данных, содержащих информацию о студентах, уклонившихся от ответа, и отсечения выпадающих значений (то есть студентов, которые не принадлежат ни к одной из групп) значительных улучшений не последовало.

Был сделан вывод: первоначальные цели студентов не всегда влияют на их дальнейшие действия. Так, специалисты прибегли к альтернативному методу, рассматривающему исход обучения в комбинации с его продолжительностью.

Этап 2

На следующем этапе аналитики столкнулись с проблемой корректного определения вариантов исхода обучения. Это может быть плановый выпуск, отчисление, академический отпуск с последующим восстановлением, перевод в другой колледж и т.д.

После отсечения выпадающих значений, двухступенчатый алгоритм выделил следующие категории студентов:

  • переводники;
  • студенты, нацеленные на получение высшего образования,
  • студенты, повышающие базовые квалификации,
  • студенты, которым потенциально грозит отчисление;
  • смешанный тип – например, повышающие квалификацию студенты, которым грозит отчисление.

Метод k-средних подтвердил эту классификацию, а введение элемента «продолжительность обучения» сделало кластеризацию более точной.

Результаты

Глубокий анализ данных позволил учебным заведениям лучше «узнать» и «понять» студентов. Выяснилось, что возраст влияет на выбранную программу обучения: молодые студенты стремились получить образование по ускоренной программе, студенты постарше предпочитали более длительный курс.

По словам аналитиков, наиболее интересным этапом стал выбор названий для типологий. Так, студентов, которые отдавали предпочтение длительному обучению, окрестили «историками»; среди прочих были «молчальники» и «прокачивающие навыки студенты».

Типологии позволили выйти за рамки обычного профилирования, определить однородные группы студентов и повысить точность алгоритмов прогнозного моделирования.

По материалам: SPSS

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =