Все модели машинного обучения имеют свои недостатки

Многие молодые специалисты осваивают машинное обучение при помощи отдельных фреймворков, опираясь на определенные математические модели.  Оказывается, что все эти модели имеют существенные недостатки. Но суть заключается не в том, чтобы просто констатировать их. Данная информация позволяет сделать несколько важных выводов.

  1. Часто для изучения машинного обучения люди выбирают один инструмент, который в итоге становится их «домашним фреймворком». (Наверняка, вы встречали специалистов, использующих только ядра, или теорему Байеса, или приближенно правильное обучение (Probably approximately correct (PAC) learning)). Важно не допустить такой ситуации в своей практике.
  2. Будьте открытыми для новых математических моделей. Часто мы склонны не замечать недостатки той модели, с которой лучше всего знакомы, и преувеличивать недостатки других. Лучший способ избежать этого – образование.
  3. Сама по себе теория не имеет никакой ценности без практики.

Ниже представлена сводная информация о недостатках (как, впрочем, и достоинствах) различных моделей машинного обучения.

Байесовское обучение (Bayesian Learning)

Методика. Вы задаете априорное распределение вероятностей для выборок, затем P(выборка) использует теорему Байеса, чтобы найти апостериорную вероятность P(выборка | x). Истинные сторонники байесовского метода интегрируют апостериорную величину, чтобы получить прогнозы, в то время как многие непосредственно используют множество с наибольшей апостериорной величиной.

Положительные стороны. Возможность работать с малыми объемами данных. Высокая гибкость. Применимо в инженерии.

Отрицательные стороны.

  1. Информация является теоретически проблематичной. Зачастую трудно явно задать адекватную априорную величину.
  2. Часто встречаются задачи с высокой вычислительной сложностью.
  3. Требует значительного участия человека. Отчасти из-за указанных выше трудностей, а отчасти потому, что концепция «сначала необходимо задать априорную величину» встроена в фреймворк, этот подход предполагает ограниченную автоматизацию.

Графические/генеративные модели (Graphical/generative Models)

Методика. Иногда используется байесовский подход, иногда нет. Обычно предполагается, что выборки содержат независимые одинаково распределенные (НОР, independent and identically distributed, IID) данные фиксированной или переменной длины. Выборки представляются графически посредством условно независимых величин, закодированных в графе. Для некоторых графов существуют быстрые алгоритмы прогнозирования.

Положительные стороны. По сравнению с чисто байесовскими системами этот подход иногда имеет меньшую вычислительную сложность. И что еще более важно, язык графа является естественным, что помогает получить априорную величину.

Отрицательные стороны.

  1. Часто (по-прежнему) не позволяет устранить проблемы байесовского подхода.
  2. В реальных приложениях, настоящая условная независимость встречается редко, поэтому результаты быстро ухудшаются в связи с систематической ошибкой при трактовке условной независимости.

Оптимизация с помощью выпуклой функции потерь (Convex Loss Optimization)

Методика. Задайте функцию потерь, связанную со стандартной функцией потерь, которая является выпуклой в некоторой параметрической прогнозной системе. Оптимизируйте параметрическую прогнозную систему, чтобы найти глобальный оптимум.

Положительные стороны. Математически чистые решения, в которых приемлемая вычислительная сложность частично принята во внимание. Относительно автоматизируемый подход.

Отрицательные стороны.

  1. Иногда возникает слишком большое искушение забыть о том, что зачастую используются невыпуклые функции потерь, а несоответствие всегда опасно.
  2. Ограниченные модели. Несмотря на то, что переход к выпуклой функции потерь означает, что некоторая оптимизация становится выпуклой, оптимизация на представлениях, не являющихся однослойными линейными комбинациями (single layer linear combination) обычно представляет сложность.

Градиентный спуск (Gradient Descent)

Методика. Задайте архитектуру со свободными параметрами и примените к данным градиентный спуск для настройки параметров.

Положительные стороны. Относительно невысокая вычислительная сложность благодаря (а) модульности градиентного спуска и (б) прямой оптимизации количества, которое необходимо спрогнозировать.

Отрицательные стороны.

  1. Требовательность. Существуют проблемы, связанные с инициализацией параметров, размером шага и представлением. Существенно помогает накопленный опыт использования такого рода систем, потому что теоретических материалов достаточно мало.
  2. Серьезная проблема – переобучение.

Обучение на базе ядер (Kernel-based learning)

Методика. Вы выбираете ядро K(x, x’), удовлетворяющее определенным условиям, и используете его, как меру подобия при обучении.

Положительные стороны. Люди часто рассматривают задание функции подобия объектов, как естественный путь использования априорной информации для задач машинного обучения. Алгоритмы обучения (такие как метод опорных векторов (support vector machine, SVM)) являются достаточно практичными, например, с вычислительной сложностью O(n2).

Отрицательные стороны. Задать ядро не так просто для некоторых приложений (это еще один пример получения априорных величин). Вычислительная сложность O(n2) не обеспечивает достаточную эффективность при больших объемах данных.

Бустинг (Boosting)

Методика. Вы создаете алгоритм обучения, который может быть несовершенным, но при этом обеспечивает определенный уровень прогнозирования. Затем вы применяете его многократно различными способами, чтобы получить итоговый предиктор.

Положительные стороны. Стремление получить что-то, что работает быстро, – это естественное стремление. Этот подход относительно хорошо автоматизируется и (как следствие) легко может применяться начинающими специалистами.

Отрицательные стороны. Фреймворк бустинга ничего не говорит вам о том, как создать исходный алгоритм. Слабое допущение при обучении в какой-то момент итерационного процесса становится неадекватным.

Онлайн обучение с экспертами (Online Learning with Experts)

Методика. Вы создаете несколько базовых предикторов, после чего мастер-алгоритм автоматически переключается между ними, чтобы минимизировать сожаление (regret).

Положительные стороны. Это эффективный автоматизированный метод достижения производительности с помощью пула предикторов.

Отрицательные стороны. Высокая вычислительная сложность может быть проблемой. Этот подход полностью зависит от эффективности экспертов, но при этом доступно мало информации об их создании, или она вообще отсутствует.

Упрощение задач машинного обучения (Learning Reductions)

Методика. Вы решаете сложные задачи машинного обучения посредством приведения их к хорошо изученным базовым задачам.

Положительные стороны. Данный подход позволяет получить высоко автоматизированные алгоритмы обучения.

Отрицательные стороны. Наличие возможности приемлемого упрощения алгоритма не гарантирует успех. Упрощения дают мало или не дают вообще никакой информации о базовом алгоритме обучения.

Приближенно правильное обучение (Probably Approximately Correct (PAC) Learning)

Методика. Вы предполагаете, что выборки содержат независимые одинаково распределенные (НОР) случайные величины из неизвестного распределения D. Вы рассматривает обучение, как поиск оптимальной гипотезы в данном наборе гипотез, принимая во внимание вычислительную сложность.

Положительные стороны. Концентрация внимания на вычислениях – правильное направление, потому что, в конечном счете, мы ограничены тем, что можем вычислить.

Отрицательные стороны. Можно получить не так много существенных положительных результатов, особенно если распределение D шумное. В любом случае, на практике данные не являются НОР.

Теория статистического обучения (Statistical Learning Theory)

Методика. Вы предполагаете, что выборки содержат независимые одинаково распределенные (НОР) случайные величины из неизвестного распределения D. Вы рассматриваете обучение, как определение количества выборок, необходимого для того, чтобы выделить оптимальную гипотезу из набора гипотез.

Положительные стороны. Количество положительных результатов существенно больше по сравнению с приближенно правильным обучением. Кроме того, существует несколько примеров практических алгоритмов, непосредственно основанных на этом подходе.

Отрицательные стороны. Данные не являются НОР. Недооценка вычислительной сложности часто затрудняет применение. И что более важно, границы часто неопределенные (иногда вплоть до вырожденности).

Обучение на основе дерева решений (Decision tree learning)

Методика. Обучение представляет собой процесс разрезания входного пространства и присваивания прогнозов фрагментам пространства.

Положительные стороны. Алгоритмы на основе деревьев решений хорошо автоматизированы и могут быть достаточно быстрыми.

Отрицательные стороны. Существуют решаемые задачи обучения, которые, тем не менее, не могут быть решены с помощью деревьев решений. Часто другие подходы обеспечивают немного большую производительность. Теоретическое обоснование для многих вариантов данных алгоритмов отсутствует.

Алгоритмическая сложность (Algorithmic complexity)

Методика. Обучение предполагает поиск программы, которая точно прогнозирует выходные величины на основе входных.

Положительные стороны. Для любой рациональной задачи возможно реализовать обучение с помощью количества выборок, зависящего от длины описания программы.

Отрицательные стороны. Теория буквально рекомендует решать проблемы остановки (halting problems), чтобы решить задачи машинного обучения.

Обучение с подкреплением (reinforcement learning, RL) на основе марковского процесса принятия решений (МППР, Markov decision process, MDP)

Методика. Обучение представляет собой поиск и действие в соответствии с политикой, близкой к оптимальной, в неизвестном марковском процессе принятия решений.

Положительные стороны. Мы можем производить обучение и действовать при количестве суммарного сожаления, соответствующем O(SA), где S – количество состояний, A – количество действий на каждое состояние.

Отрицательные стороны. Подсчитывал ли кто-нибудь количество состояний в реальных задачах? Мы не можем позволить себе ждать так долго. Дискретизация состояний порождает частично наблюдаемый марковский процесс принятия решений (ЧНМППР, Partially Observed Markov Decision Process, POMDP) (см. ниже). Так или иначе, в реальном мире мы часто вынуждены иметь дело с ЧНМППР.

Обучение с подкреплением (reinforcement learning, RL) на основе частично наблюдаемого марковского процесса принятия решений (ЧНМППР, Partially Observed Markov Decision Process, POMDP)

Методика. Обучение представляет собой поиск и действие в соответствии с политикой, близкой к оптимальной, в частично наблюдаемом марковском процессе принятия решений.

Положительные стороны. В определенном смысле, мы не приняли никакие допущения, поэтому алгоритмы имеют широкую область применения.

Отрицательные стороны. Все известные алгоритмы слабо масштабируются по числу скрытых состояний.

Этот перечень, конечно же, неполный, но он представляет собой отправную точку для понимания данных вопросов. Вы можете дополнить данный список (что/положительные стороны/отрицательные стороны.)

По материалам: Hunch.net

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =