Сравнение различных видов кросс-валидации

Автор оригинальной публикации Макс Кун (Max Kuhn)

Перевод Станислава Петренко 

Это первая из двух статей, в которых мы сравним эффективность различных методов ресемплинга.

Краткий обзор:

  • Методы ресемплинга (resampling), такие как кросс-валидация (КВ, cross-validation, CV) и бутстреп (bootstrap), позволяют оценить прогнозную модель, используя обучающий набор данных.
  • Подобное оценивание выполняется для того, чтобы настроить параметры модели и выяснить ее реальные возможности без участия тестового набора данных.

Существует несколько методов ресемплинга. Кратко рассмотрим их концепции:

  • k-блочная кросс-валидация (k-fold cross-validation). Этот метод случайным образом разбивает данные на k непересекающихся блоков примерно одинакового размера. Поочередно каждый блок рассматривается, как валидационная выборка, а остальные k-1 блоков – как обучающая выборка. Модель обучается на k-1 блоках и прогнозирует валидационный блок. Прогноз модели оценивается с помощью выбранного показателя (правильность (accuracy), среднеквадратическое отклонение (СКО) и т.п.). Процесс повторяется k раз, и мы получаем k оценок, для которых рассчитывается среднее значение, являющееся итоговой оценкой модели. Обычно k выбирают равным 10, иногда 5. Если k равен количеству элементов в исходном наборе данных, этот метод называется кросс-валидацией по отдельным элементам (leave-one-out cross-validation) (в этой статье не рассматривается).
  • Многократная k-блочная кросс-валидация (repeated k-fold cross-validation). В рамках этого метода k-блочная кросс-валидация выполняется несколько раз. Например, 5-кратная 10-блочная кросс-валидация даст 50 оценок, на основе которых затем будет рассчитана средняя оценка. Обратите внимание, это не то же самое, что 50-блочная кросс-валидация.
  • Кросс-валидация на основе метода Монте-Карло (МККВ, Monte Carlo cross-validation, leave-group-out cross-validation). Данный метод заданное количество раз случайным образом разбивает исходный набор данных на обучающую и валидационную выборку в заданной пропорции.
  • Бутстреп (bootstrap). Бутстреп аналогичен кросс-валидации на основе метода Монте-Карло, за исключением того, что формирование обучающей выборки осуществляется с возвращением (with replacement) элементов. Это означает, что в данной обучающей выборке один и тот же элемент может встречаться несколько раз. Соответственно, некоторые элементы могут вообще не встречаться в обучающей выборке. Модель обучается на обучающей выборке, а данные, не вошедшие в обучающую выборку, используются для валидации.

Какой же метод выбрать? Это зависит от объема данных и некоторых других факторов. В сфере статистики для анализа методов используются их рабочие характеристики. Каждый из описанных выше методов, можно охарактеризовать с помощью смещения (bias) и дисперсии (variance).

Предположим, перед нами стоит задача регрессии, и мы оцениваем модель на основе СКО. Допустим также, что для наших данных существует некоторое «истинное» значение СКО, которое может обеспечить данная модель. Тогда смещением будет разница между истинным СКО и СКО, полученным с помощью данного метода ресемплинга. Смещение (bias) характеризует правильность (accuracy) оценки. Дисперсия (variance) характеризует точность (precision) оценки. Различные методы ресемплинга имеют различное смещение и дисперсию.

Представим, что истинное СКО находится в центре мишени. Представим также, что мы имеем 4 различных метода ресемплинга. Следующий рисунок позволяет сравнить различные сочетания правильности (accuracy) и точности (precision).

Not Precise – неточно; Precise – точно; Not Accurate – неправильно;  Accurate – правильно

Очевидно, что наилучший результат представлен в правом нижнем углу.

Считается, что в общем случае смещение метода ресемплинга зависит от размера валидационной выборки. Если размер валидационной выборки составляет 50% исходных данных (2-блочная кросс-валидация), итоговая оценка СКО будет более смещенной, чем в случае, когда этот размер составляет 10% исходных данных. С другой стороны, согласно общепринятой точке зрения, меньший размер валидационной выборки увеличивает дисперсию, поскольку каждая валидационная выборка содержит меньше данных для получения стабильного значения СКО.

Я провел серию тестов, чтобы определить смещение и дисперсию различных методов ресемплинга. В качестве модели я использовал случайный лес (random forest) с 1 000 деревьев. Остальные параметры имели значения по умолчанию. Я сгенерировал данные для регрессии с правильными ответами и вычислил истинное СКО. В частности, я сгенерировал 100 различных наборов данных по 500 элементов в каждом. Для каждого набора данных я применил каждый из перечисленных методов ресемплинга по 25 раз с различными инициализирующими значениями (seed) для генератора случайных чисел. В итоге я получил усредненные значения смещения и дисперсии для каждого метода.

Я не буду демонстрировать распределение смещения и дисперсии в серии тестов, а вместо этого использую медиану этих значений. Медиана хорошо характеризует распределение и ее легче визуализировать.

Вопросы 1а и 1б. Как ведут себя смещение и дисперсия при k-блочной кросс-валидации? Имеет ли преимущества многократная k-блочная кросс-валидация?

Давайте посмотрим, как дисперсия зависит от количества валидационных блоков.

Значение 5 на оси x соответствует 5-блочной КВ, значение 10 – 10-блочной КВ. Значения больше 10 соответствуют многократной 10-блочной КВ (например, 60 соответствует 6-кратной 10-блочной КВ). Значения на оси y являются медианами дисперсии. Например, значение 0,019 является медианой дисперсии по всем сгенерированным наборам данных для 5-блочной КВ.

Number of Held-Out Data Sets – количество валидационных блоков;  Median Variance – медиана дисперсии

Результат ожидаем: дисперсия уменьшается при многократном повторении k-блочной КВ. Относительно первых двух точек (однократная 5-блочная КВ и однократная 10-блочная КВ) следует отметить, что наблюдается уменьшение дисперсии при увеличении количества валидационных блоков с 5 до 10.

Рассмотрим теперь смещение. Согласно общепринятому мнению, смещение должно быть меньше для многократной 10-блочной КВ, поскольку в этом случае валидационные выборки имеют меньший размер. Ниже представлены результаты:

Number of Held-Out Data Sets – количество валидационных блоков;  Median Bias – медиана смещения

Мы видим, что оценка 5-блочной КВ является пессимистически смещенной, а при переходе к 10-блочной КВ смещение уменьшается. Как показал эксперимент, многократная 10-блочная КВ позволяет еще немного уменьшить смещение, хотя этот результат может находиться в пределах погрешности.

Вопросы 2а и 2б. Как оценка, полученная с помощью кросс-валидации на основе метода Монте-Карло, зависит от размера валидационной выборки? Имеет ли МККВ преимущества перед k-блочной КВ?

Анализ дисперсии для метода МККВ обнаружил интересную закономерность.

Percentage of Data Held-Out – размер валидационной выборки в процентах;  Median Variance – медиана дисперсии

Как видим, размер валидационной выборки имеет немного большее влияние на дисперсию, чем количество повторений процесса. Больший размер валидационной выборки обеспечивает более близкие индивидуальные значения СКО (т.е. меньшую дисперсию).

Теперь рассмотрим смещение.

Percentage of Data Held-Out – размер валидационной выборки в процентах;  Median Bias – медиана смещения

Как видим, МККВ дает чрезмерно пессимистические оценки при увеличении размера валидационной выборки. Причиной этому может служить тот факт, что при уменьшении обучающей выборки случайный лес создает менее эффективные модели. Трудно сказать, почему смещение не стремится к нулю при малых размерах валидационной выборки.

Следует также отметить, что количество повторений процесса не оказывает существенное влияние на смещение.

Таким образом, для метода МККВ можно порекомендовать использовать валидационную выборку малого размера (например, 10%) и выполнять большое количество повторений, чтобы уменьшить дисперсию. Но почему же тогда просто не воспользоваться многократной 10-блочной КВ?

Для сравнения двух методов (МККВ и многократной 10-блочной КВ) рассмотрим результаты тестов, в которых оба метода используют валидационную выборку размером 10%. Напомню, что основное отличие этих методов заключается в том, что 10-блочная КВ разбивает исходный набор данных на 10 непересекающихся блоков, в то время как МККВ каждый раз выполняет случайное разбиение. Следовательно, в рамках МККВ, некоторый элемент данных может встречаться в нескольких выборках. Таким образом, различие заключается в конфигурации выборок.

Ниже представлены кривые дисперсии:

Number of Held-Out Data Sets – количество валидационных блоков; Median Variance – медиана дисперсии

Результат вполне определенный: при прочих равных, многократная 10-блочная КВ обеспечивает на порядок меньшую дисперсию.

Кривые смещения содержат существенное количество шума (учитывая более крупный масштаб этой диаграммы).

Number of Held-Out Data Sets – количество валидационных блоков; Median Bias – медиана смещения

Здесь нет существенной разницы в смещении, и этот результат был ожидаем. Размер валидационной выборки для обоих методов составлял 10%, соответственно, если смещение зависит от этой величины, значит, оба метода должны давать примерно одинаковые результаты.

Таким образом, выполнив сравнительный анализ смещения и дисперсии, можно сделать общий вывод: лучшим методом является многократная 10-блочная кросс-валидация. Безусловно, следует сделать оговорку. Например, при наличии достаточно большого объема данных, однократная 10-блочная или даже 5-блочная кросс-валидация может дать вполне приемлемые результаты.

Здесь находится один из файлов с кодом для моделирования, описанного в статье. Я использовал несколько таких файлов, чтобы выполнять их параллельно, но при этом все они одинаковы, за исключением инициализирующих значений для генератора случайных чисел. Здесь находится файл разметки для данной статьи, где вы можете найти код для создания представленных выше диаграмм.

В следующей статье:

  • дисперсия и смещение для бутстрепа;
  • сравнение многократной 10-блочной кросс-валидации и бутстрепа;
  • оut-of-bag-оценка СКО для индивидуальной модели на основе случайного леса и ее сравнение с другими методами.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =