Машинное обучение в 10 диаграммах

1 Star2 Stars (3 votes, average: 5,00 out of 5)
Загрузка...

Я заметил, что всегда обращаюсь к одним и тем же диаграммам, объясняя основные концепции машинного обучения. Ниже представлены наиболее полезные из них.

Ошибка на обучающей и тестовой выборке

Model Complexity – сложность модели Prediction Error – ошибка прогноза Training Sample – обучающая выборка Test Sample – тестовая выборка High Bias – большое смещение Low Variance – малая дисперсия Low Bias – малое смещение High Variance – большая дисперсия Источник: «The Elements of Statistical Learning» (Figure 2.11) («Элементы статистического обучения» (рис. 2.11)).

На диаграмме представлена зависимость ошибки от сложности модели при испытании модели на обучающей и тестовой выборке. Малая ошибка на обучающей выборке не всегда обеспечивает такую же малую ошибку на тестовой выборке.

Недообучение и переобучение

Источник: «Pattern Recognition and Machine Learning» (Figure 1.4) («Распознавание образов и машинное обучение» (рис. 1.4)).

Синие точки представляют исходные данные. Зеленая линия является графиком функции, на основе которой были получены исходные данные. Красные линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.

Бритва Оккама

Источник: «Information Theory, Inference, and Learning Algorithms» (Figure 28.3) («Теория информации, вывод и алгоритмы машинного обучения» (рис. 28.3)).

Принцип Оккама (Occam’s razor) заключается в следующем: если имеется несколько моделей, то при прочих равных условиях предпочтительной является наиболее простая из них. Воплощением данного принципа является байесовский вывод (Bayesian inference). Диаграмма показывает, что в определенных случаях более сложные модели могут оказаться менее вероятными. Горизонтальная ось представляет пространство возможных наборов данных D. Теорема Байеса оценивает модели пропорционально их точности. Количественной характеристикой точности модели является нормированное распределение вероятностей на пространстве D, обозначенное P(D | Hi). Вероятность P(D | Hi), то есть вероятность появления определенных данных при заданной модели Hi, называется правдоподобием модели Hi. Простая модель H1 способна выполнять прогнозы лишь для наборов данных из ограниченного интервала C1 (кривая P(D | H1)). Более сложная модель H2, имеющая, например, большее количество свободных параметров по сравнению с H1, способна выполнять прогнозы для наборов данных из более широкого интервала (кривая P(D | H2)). Однако это означает, что модель H2 не может прогнозировать данные в интервале C1 так же точно, как модель H1. Следовательно, если обеим моделям присвоены одинаковые априорные вероятности (prior probability), и набор данных попадает в интервал C1, тогда простая модель H1 будет более вероятной моделью.

Комбинации признаков

Источник: «Feature Extraction Course by Isabelle Guyon» («Курс по извлечению признаков Изабель Гийон»).

Диаграмма показывает: (1) почему совместно информативные (relevant) признаки по отдельности могут казаться неинформативными (irrelevant); (2) почему линейные методы могут не работать.

Неинформативные признаки

Диаграмма объясняет, почему неинформативные признаки негативно влияют на эффективность метода k ближайших соседей (k-nearest neighbors algorithm, kNN), кластеризации и других методов, основанных на сходстве элементов. В левой части диаграммы изображены элементы двух классов, хорошо отделенные друг от друга по вертикальной оси. В правой части диаграммы добавлена неинформативная горизонтальная ось, нарушающая группировку, в результате чего, ближайшими соседями для многих элементов становятся элементы из другого класса.

Базисные функции

Нелинейная базисная функция позволяет преобразовать задачу классификации малой размерности с нелинейной границей в задачу классификации большей размерности с линейной границей.

На диаграмме одномерная задача классификации с входной переменной x и нелинейной границей преобразована в двумерную задачу z=(x, x2) с линейной границей.

Дискриминативные и генеративные модели

Источник: «Pattern Recognition and Machine Learning» (Figure 1.27) («Распознавание образов и машинное обучение» (рис. 1.27)).

Диаграмма показывает, почему дискриминативное (discriminative) обучение может быть проще, чем генеративное (generative).

В левой части диаграммы изображены условные плотности вероятности для одной входной переменной x и двух классов. В правой части диаграммы изображены соответствующие апостериорные вероятности. Обратите внимание на то, что условная плотность вероятности p(x | C1) (синий график в левой части диаграммы) не оказывает влияние на апостериорные вероятности. Вертикальная зеленая линия в правой части диаграммы является границей решения, обеспечивающей минимальный уровень ошибочной классификации.

Функции потерь

Источник: «Pattern Recognition and Machine Learning» (Figure 7.5) («Распознавание образов и машинное обучение» (рис. 7.5))

Алгоритмы машинного обучения можно рассматривать, как алгоритмы минимизации различных функций потерь (loss function). На диаграмме изображен график функции потерь, применяемой для метода опорных векторов (support vector machine, SVM) (синий), а также график функции потерь для логистической регрессии (logistic regression) (красный), отмасштабированный с коэффициентом 1/ln(2) для прохождения через точку (0, 1). Кроме того, изображены графики пороговой функции потерь (misclassification loss function) (черный) и квадратичной функции потерь (зеленый).

Геометрия метода наименьших квадратов

Источник: «The Elements of Statistical Learning» (Figure 3.2) («Элементы статистического обучения» (рис. 3.2)).

N-мерная геометрия регрессии на основе метода наименьших квадратов (method of least squares) с двумя предикторами. Вектор y ортогонально проецируется на гиперплоскость, образованную входными векторами x1 и x2. Проекция представляет собой вектор прогнозов.

Разреженность

Источник: «The Elements of Statistical Learning» (Figure 3.11)(«Элементы статистического обучения» (рис. 3.11)).

Диаграмма поясняет, почему лассо-регрессия (lasso regression) (L1-регуляризация или применение распределения Лапласа для априорных значений) дает в результате разреженные решения (т.е. весовые векторы с большим количеством нулей). На диаграмме изображены функции потерь и функции ограничения для лассо-регрессии (слева) и гребневой регрессии (ridge regression) (справа). Сплошные голубые области являются регионами ограничения 1| + |β2| ≤ t и β12 + β22 ≤ t2 соответственно. Красные эллипсы являются графиками функции потерь на основе наименьших квадратов.

Автор: Дениз Юрет (Deniz Yuret)

Перевод оригинальной публикации: Станислав Петренко

Автор публикации

не в сети 3 дня

Лариса Шурига

Комментарии: 16Публикации: 902Регистрация: 05-06-2014

Вам также может понравиться

1 комментарий

  1. Максим:

    Картинки съехали, поправьте пжлст

     

Добавить комментарий

Ваш e-mail не будет опубликован.

'
закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =
Авторизация
*
*

Login form protected by Login LockDown.


Регистрация
*
*
*
*
Генерация пароля