10 мифов о машинном обучении

1 Star2 Stars (2 votes, average: 5,00 out of 5)
Загрузка...

1-oi6d1dlvngd-4ano968lsw

Ранее машинное обучение не привлекало к себе существенного внимания, и алгоритмы выполняли свои задачи, находясь в тени.

Компания Amazon обрабатывала информацию о кликах и покупках, чтобы формировать качественные рекомендации, Google анализировала поисковые запросы для оптимизации показов рекламы, а Facebook исследовала социальную сеть, чтобы определить, какие публикации предложить данному пользователю.

Но сейчас машинное обучение все чаще появляется на первых полосах газет и становится предметом горячих дискуссий.

Алгоритмы управляют автомобилями, переводят речь и выигрывают телевикторины. На что они способны уже сейчас, и что им еще не по силам? Предвещает ли их существование конец тайны частной жизни, человеческого труда или даже всей человеческой расы? Рост осведомленности в этой сфере является хорошей тенденцией, поскольку машинное обучение – это одна из основных сил, формирующих наше будущее, и мы должны осознанно контролировать эту силу.

К сожалению, вокруг машинного обучения сформировались различные мифы, которые необходимо рассеять первым делом. Давайте кратко рассмотрим основные из них.

Машинное обучение – это лишь обобщение данных

На самом деле, основным назначением машинного обучение является предсказание будущего. Информация о фильмах, которые пользователь посмотрел в прошлом, является лишь средством для того, чтобы определить, какие фильмы он захочет посмотреть в будущем. Кредитная история позволяет предсказать, своевременно ли клиент будет вносить платежи. Словно роботы-ученые, алгоритмы машинного обучения формулируют гипотезы, совершенствуют их, и считают их верными только в тех случаях, когда прогнозы сбываются. Алгоритмы пока еще не настолько умны, как ученые, но они в миллионы раз быстрее.

Алгоритмы МО способны обнаруживать лишь корреляцию между двумя событиями

Такой вывод напрашивается на основе большинства упоминаний машинного обучения в средствах массовой информации. Известным примером является следующая взаимосвязь: увеличение количества поисковых запросов к Google со словом «грипп» является ранним признаком распространения этого заболевания. Однако многие алгоритмы способны обнаруживать значительно более сложные закономерности, такие как следующее правило: если родинка имеет необычную форму и цвет, а также увеличивается в размерах, это может быть рак кожи.

Машинное обучение позволяет обнаруживать корреляции, но не причинно-следственные связи

На самом деле, концепция наиболее распространенных алгоритмов заключается в выполнении различных действий и наблюдении за их последствиями, а это, по сути, и есть процесс поиска причинно-следственных связей. Например, интернет-магазин может протестировать множество различных вариантов презентации товара и выбрать вариант, обеспечивающий максимальные продажи. Многие из нас принимали участие в тысячах подобных экспериментов, даже не подозревая об этом. Кроме того, причинно-следственные связи могут быть обнаружены даже в тех случаях, когда эксперимент недоступен, и алгоритм имеет возможность оперировать лишь историческими данными.

Алгоритмы МО не способны предсказывать «черных лебедей», то есть ранее не наблюдавшиеся события

Если событие никогда не имело место прежде, его прогнозируемая вероятность должна быть равна нулю, как же может быть иначе? В то же время, машинное обучение – это искусство предсказания редких событий с высокой точностью. Если событие A является одной из причин события B, а событие B является одной из причин события C, тогда A может привести к наступлению C, даже если мы никогда не наблюдали его ранее. Каждый день спам-фильтры правильно идентифицируют спам, даже если эти нежелательные письма были переписаны в новой форме. «Черные лебеди», такие как ипотечный кризис 2008 года, на самом деле, были предсказаны, но, к сожалению, банки не хотели прислушаться к этим прогнозам.

Чем больше данных доступно для обучения модели, тем больше вероятность получить ошибочные результаты

Может показаться, что чем больше телефонных разговоров анализирует АНБ, тем больше вероятность того, что невиновный будет ошибочно принят за потенциального террориста при случайном соответствии правилу обнаружения. Анализ большего количества признаков объекта действительно может повысить риск ошибки, но специалисты по машинному обучению способны свести его к минимуму. С другой стороны, анализ большего количества объектов с одним набором признаков позволяет уменьшить риск ошибки, поскольку сформированные правила будут иметь более весомые основания. Кроме того, некоторые алгоритмы способны анализировать несколько объектов совместно, что делает их еще более надежными. Например, человек, снимающий на видео ратушу Нью-Йорка, не вызывает подозрений, как и другой человек, покупающий большое количество нитрата аммония. Но если два этих человека имеют тесный телефонный контакт, вероятно, ФБР следует обратить внимание на этот случай, чтобы исключить возможность теракта.

Машинное обучение не использует накопленные ранее знания

Специалисты из многих областей, куда проникает машинное обучение, с подозрением относятся к тому, что алгоритмы начинают свою работу «с чистого листа». Действительно, настоящие знания являются результатом длительного процесса рассуждений и экспериментов, который невозможно воспроизвести, просто обработав базу данных с помощью стандартного алгоритма. Но не все алгоритмы начинают «с чистого листа». Некоторые из них используют данные для обогащения уже имеющихся знаний, при условии, что эти знания представлены в форме, понятной компьютеру.

Модели, создаваемые алгоритмами в процессе обучения, непонятны для человека

Безусловно, это повод для беспокойства. Если алгоритм представляет собой «черный ящик», как же мы можем доверять его прогнозам? Некоторые типы моделей действительно очень сложны для понимания. Типичным примером являются глубокие нейронные сети, которым удалось добиться наиболее значимых успехов в сфере машинного обучения (например, в задаче распознавания кошек на видео из YouTube). Однако другие алгоритмы вполне понятны человеку, такие как правило для диагностики рака кожи, о котором мы говорили ранее.

Рассмотренные выше мифы пессимистичны, то есть предполагают, что машинное обучение более ограничено, чем оно есть на самом деле. Но существуют также и оптимистичные мифы. Их мы обсудим далее.

Более простые модели являются более точными

Этот тезис иногда отождествляется с бритвой Оккама. Однако принцип Оккама утверждает лишь то, что более простые объяснения являются более предпочтительными, но не говорит о причинах. На самом деле, более простые объяснения предпочтительны, потому что их легче понять, запомнить и использовать в рассуждениях. При этом нередко более простая гипотеза, согласующаяся с данными, обеспечивает менее точные прогнозы, чем более сложная гипотеза. Некоторые из наиболее мощных алгоритмов машинного обучения создают модели, кажущиеся необоснованно сложными, а иногда продолжают совершенствовать модель, даже когда она идеально описывает данные. Но именно благодаря этому такие алгоритмы превосходят своих конкурентов.

Закономерности, обнаруженные алгоритмом, можно полностью принимать на веру

Если алгоритм сформировал правило для диагностики рака кожи, о котором мы говорили ранее, и это правило является очень точным (в том смысле, что почти все родинки, удовлетворяющие условиям правила, действительно являются опухолями), это еще не означает, что данному правилу следует верить. Небольшие изменения в данных могут привести к тому, что алгоритм сформирует существенно отличающееся правило, которое будет при этом не менее точным. Доверять можно только надежным правилам, не подверженным влиянию случайных вариаций данных.

В ближайшем будущем развитие машинного обучения приведет к появлению сверхчеловеческого интеллекта

Если ориентироваться на выпуски новостей, легко может сложиться впечатление, что компьютеры уже почти способны видеть, говорить и рассуждать не хуже людей, а в скором времени превзойдут нас. Безусловно, мы прошли большой путь за первые 50 лет существования искусственного интеллекта, и машинное обучение является основной движущей силой недавних успехов в этой сфере, но еще больший путь нам предстоит пройти. Компьютеры прекрасно справляются со множеством узкоспециализированных задач, но у них по-прежнему нет здравого смысла, и никто не знает, как их этому научить.

Итак, перед вами основные мифы, связанные с машинным обучением. Как видите, мы склонны одновременно и недооценивать, и переоценивать возможности алгоритмов. Путь дальнейшего развития машинного обучения зависит только от нас, поэтому мы должны хорошо понимать эту непростую дисциплину.

Оригинал 

Перевод Станислава Петренко

Автор публикации

не в сети 3 дня

Лариса Шурига

Комментарии: 16Публикации: 871Регистрация: 05-06-2014

Вам также может понравиться

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =
Авторизация
*
*

Login form protected by Login LockDown.


Регистрация
*
*
*
*
Генерация пароля