10 типов регрессии – какой выбрать?

Сегодня мы расскажем о десяти основных видах регрессии и подскажем, какой из них выбрать исходя из контекста поставленной задачи.

Линейная или логистическая? Видов регрессии – сотни, и разобраться с ними порой бывает очень сложно. На основании практического опыта аналитиков и специалистов в области Data Science мы составили список из десяти самых распространенных регрессий, подкрепив их примерами использования для решения различных задач.

1. Линейная регрессия – «старейший» тип, появившийся два с половиной века назад. Вычисления на малых наборах данных с ее помощью легко провести даже вручную. Современные примеры использования включают интерполяцию, однако для реальных прогнозов и упреждающего анализа линейная регрессия не подходит. Плюс ко всему, на современных данных, которым свойственна весьма хаотичная структура, этот тип регрессии склонен «лагать»: сверхточность линейной регрессии, когда модель слишком хорошо работает на одном наборе данных, и из рук вон плохо на другой, тогда как она должна бы описывать общие закономерности, делает ее нестабильной практически во всех случаях.

Целевая функция линейной регрессионной модели (, где   — параметры модели,  — случайная ошибка модели )  имеет вид  , где   — параметры (коэффициенты) регрессии,   — регрессоры (факторы модели), k — количество факторов модели.

2. Логистическая регрессия широко используется в клинических испытаниях, определении количественных показателей и, например, определении мошенничества, когда ответ может быть получен в двоичном виде («да»/«нет») – для тестируемого препарата или транзакции по кредитной карте. Обладает некоторыми недостатками, свойственными линейной регрессии – низкая устойчивость к ошибкам, зависимость от набора данных, но в общем работает лучше, и может быть приведена к виду линейной регрессии для упрощения вычислений. Некоторые версии – к примеру, регрессия Пуассона – усовершенствованы для использования в случае необходимости получения недвоичного ответа – классификации, возрастных групп и даже регрессионных деревьев.

Делается предположение, что вероятность наступления события   равна:  где ,   и  — векторы-столбцы значений независимых переменных   и параметров (коэффициентов регрессии) — вещественных чисел , соответственно, а  — так называемая логистическая функция (иногда также называемая логит-функцией):

3. Гребневая регрессия (ридж-регрессия) – усовершенствование линейной регрессии с повышенной устойчивостью к ошибкам, налагающая ограничения на коэффициенты регрессии для получения куда более приближенного к реальности результата. Вдобавок, этот результат гораздо проще интерпретировать. Применяется метод для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (мультиколлинеарность).

Ридж-регрессия или гребневая регрессия предполагает оценку параметров по следующей формуле:

4. Лассо-регрессия сходна с гребневой, за исключением того, что коэффициенты регрессии могут равняться нулю (часть признаков при этом исключается из модели).

5. Так называемая экологическая регрессия используется в случаях, когда данные разделены на достаточно большие пласты или группы (регрессия применяется к каждой из них по отдельности) – к примеру, этот тип регрессии используется в политологии для оценки группового поведения избирателей исходя из сводных данных. Следует, однако, остерегаться «проклятия больших данных»: если происходит подсчет миллионов регрессий, какие-то из моделей могут быть абсолютно неточными, и удачные модели окажутся «задавленными» моделями шумными c высокой (и, естественно, искусственной) степенью согласия. Поэтому такой вид регрессии не подходит для прогнозирования экстремальных событий (землетрясения) и исследования причинных взаимосвязей (глобальное потепление).

6. Байесовская регрессия похожа на гребневую регрессию, однако основана на том допущении, что в данных шум (ошибка) распределен нормально – соответственно, предполагается, что общее понимание о структуре данных уже имеется, и это дает возможность получать более точную модель (по сравнению с линейной регрессией уж точно). Однако на практике, особенно если мы имеем дело с большими данными, первоначальные знания о данных не могут похвастаться точностью, поэтому предположение строится на основании сопряженных величин, то есть оно искусственно по своей сути – и это существенный недостаток данного типа регрессии.

Наблюдаемая переменная вычисляется так:

ошибка распределена нормально: 

7. Логическая регрессия используется, когда все переменные имеют двоичную природу – в особенности, в алгоритмах определения количественных показателей. Это специализированная, более точная форма логистической регрессии, использующаяся для определения случаев мошенничества, когда все переменные приведены к двоичному виду.

, где  – булева комбинация сопряженных величин

8. Квантильная регрессия используется в связи с экстремальными событиями – этот тип предполагает намеренное введение смещения в результат, повышая точность модели.

9. LAD-регрессия (LAD – Least Absolute Deviation, метод наименьших модулей) используется для оценки неизвестных величин по результатам измерений, содержащих случайные ошибки, а также для приближенного представления заданной функции более простыми (аппроксимации). Похожа на линейную регрессию, но использует абсолютные величины вместо квадратов – в итоге, повышается точность моделей без усложнения вычислений.

10. Джекнайф-регрессия (метод складного ножа) – новый тип регрессии, использующийся в целях кластеризации и прореживания данных. При этом «складной нож» не обладает недостатками классических типов, предоставляя приблизительное, но при этом очень точное и устойчивое к ошибкам решение задач на регрессию, отлично работает с «независимыми» переменными, которые коррелируют или не могут «похвастать» нормальным распределением. Считается, что этот тип регрессии идеален для алгоритмов прогнозирования типа «черный ящик» — он прекрасно аппроксимирует линейную регрессию без потери точности и работает даже в тех случаях, когда допущения традиционной регрессии (не коррелирующие переменные, нормальное распределение данных, постоянная условная дисперсия) принять невозможно в силу особенностей данных.

Пусть дана выборка . В вероятностно-статистической теории предполагаем, что это — набор независимых одинаково распределенных случайных величин. Пусть интересует некоторая статистика   Идея, которую предложил в 1949 г. М. Кенуй (это и есть «метод складного ножа») состоит в том, чтобы из одной выборки сделать много, исключая по одному наблюдению (и возвращая ранее исключенные). Перечислим выборки, которые получаются из исходной:

Всего новых (размноженных) выборок объемом (n-1) каждая. По каждой из них можно рассчитать значение интересующей эконометрика статистики (с уменьшенным на 1 объемом выборки):

Полученные значения статистики позволяют судить о ее распределении и о характеристиках распределения — о математическом ожидании, медиане, квантилях, разбросе, среднем квадратическом отклонении.

 Автор: Елизавета Филиппова

1 комментарий

  1. 14.06.2021

    […] 10 типов регрессии – какой выбрать? […]

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =