Однажды моя начальница сказала: «Необязательно выполнять всю работу полностью». Эти слова адресовались исключительно мне, потому что я был перфекционистом и стремился добиться 100-процентного выполнения и совершенства каждого проекта.
Чтобы завершить исследование или отчет, мне требовалось больше времени, чем остальным, и моя руководительница знала почему. Она разрешила мне выполнять только 98% — 99% объема работы. Благодаря этому, мне удалось закончить большой трехгодичный отчет в течение дней, а не недель, и я смог двигаться дальше и выполнять более значительные и ответственные задания. Вскоре я сам стал руководителем проекта и часто цитировал известную мудрость: «Лучшее – враг хорошего».
Все вышесказанное вполне применимо к моделям машинного обучения, которые мы обучаем и используем для обработки больших данных. Стремясь к совершенству, мы сталкиваемся с определенными неприятностями.
Переобучение
Пытаясь создать модель, правильно обрабатывающую каждый маленький нюанс, отклонение и вариацию в нашем наборе данных, мы почти наверняка адаптируем модель к естественной дисперсии в данных, от которой уже никогда нельзя будет избавиться.
Создав такую модель, мы можем обнаружить, что она демонстрирует почти 100-процентную точность на обучающих данных, но значительно меньшую точность на тестовом наборе данных. Такие результаты являются гарантированным доказательством того, что мы переобучили нашу модель. Конечно, не хотелось бы получить и тривиальную (недообученную) модель. В общем, перефразируя Альберта Эйнштейна: «Модели должны быть настолько простыми, насколько это возможно, но не проще».
Замедление времени
Это еще одно понятие, за которое мы должны поблагодарить Эйнштейна и его теорию относительности (где речь идет о замедлении времени в быстродвижущихся системах отсчета). Здесь мне снова вспоминаются слова моей начальницы: «Пожалуйста, завершите проект вовремя». Это означает приемлемость чуть менее совершенной модели в том случае, если «достаточно хорошая» модель может быть создана быстрее.
Риск упустить «легкую добычу»
В настоящее время многие специалисты и консультанты в области больших данных говорят, что для предприятий (особенно для малых и средних) лучший способ быстро получить выгоду от анализа больших данных – поймать «легкую добычу». Это означает, что сначала необходимо создать быструю, содержательную и эффективную модель для конкретного бизнеса и начать использовать ее для решения некоторых простых и очевидных задач, связанных с данными.
Например, компания, оказывающая финансовые услуги, пыталась построить сложную модель удержания клиентов, чтобы предотвратить их переход к конкурентам. В результате нескольких относительно простых запросов к системе веб-аналитики было обнаружено, что клиенты, покинувшие компанию, проводили значительно больше времени в своих онлайн аккаунтах (изучая информацию о своих лицевых счетах) как раз перед тем, как перевести свои средства в другую организацию.
Учитывая эту новую «частицу» информации, компания произвела одно маленькое, но важное изменение. Всякий раз, когда аналитическое приложение сообщало о том, что клиент проводит много времени в своем онлайн аккаунте, изучая балансы, историю и т.д., консультант делал короткий «звонок вежливости» этому клиенту, чтобы узнать, может ли компания как-то помочь, ответить на вопросы или предоставить какую-либо информацию. Количество переходов клиентов к конкурентам снизилось почти до нуля с момента обнаружения данной зависимости и появления нововведения, которое было основано на достаточно простом анализе и оказалось «легкой добычей».
Конец эры демографии
Как сказано выше, в разделе о переобучении, почти все данные (или, может быть, все) имеют некоторую естественную дисперсию. Анализ дисперсии и последующее использование этого разнообразия в конкретных наборах данных дает большую силу нашим «аналитическим рукам». Например, мы можем использовать разнообразие поведения клиентов, их интересов или желаний для того, чтобы выделить сегменты в коллекции больших данных.
Все люди разные, и чем больше мы знаем о разнообразии интересов и поведении отдельного клиента, тем больший результат мы получим от наших описательных и прогнозных моделей. Некоторые говорят, что наступление эры больших данных ознаменовало собой «конец эры демографии». Я согласен с этим! Наступила эпоха персонализации. Мы теряем силу персональной прогнозной аналитики, когда стремимся создать одну модель, которая объясняет все. Неудивительно, что (в области статистики и машинного обучения) недообучение обычно называется предвзятостью (bias) при создании модели – т.е., создавая модель, мы опираемся на очень ограниченный (недостаточный) набор свойств и характеристик, что по сути, и есть сама предвзятость!
Машинное забывание
Таким образом, при создании моделей машинного обучения для проектов по анализу больших данных, полезно обратить внимание на небольшое машинное «забывание». Позвольте вашим моделям быть чуть менее совершенными, чем требует ваша интуиция, а также позвольте им иметь естественный уровень ошибок, который согласуется с естественной дисперсией в наборе данных. Таким образом вы отдадите дань уважения старой доброй статистической ROC-кривой (Receiver Operating Characteristic – рабочая характеристика приемника). При создании, тестировании и проверке набора моделей, оптимальная модель (т.е. оптимальная точка ROC-кривой) – это область, в которой общая точность существенно не изменяется при незначительной корректировке в выборе модели.
То есть при переходе от одной модели к другой изменение точности (специфичности) модели полностью компенсируется изменением полноты (чувствительности). Следовательно, допуская некоторое несовершенство, при котором уровни ложноположительных и ложноотрицательных результатов сбалансированы (так, что ни один из этих показателей не оказывает слишком значительное влияние на общую точность и эффективность модели), вы создаете действительно хороший продукт для работы с большими данными.
Двигаясь в эру интернета вещей (Internet of Things, IoT) и интернета всего (Internet of Everything, IoE), где у нас будут широкие возможности разрабатывать и применять аналитические модели для обработки потоковых данных, поступающих от всех типов устройств, машин и датчиков, приятно осознавать, что мы можем получить значительные преимущества от быстрого, простого и немного несовершенного машинного обучения.
Автор: доктор Кирк Борн
Перевод Станислава Петренко
По материалам: Mapr.com