6 уроков для data scientist’а: Чему нас научила победа Трампа?

Теги: Дональд Трамп предвыборная аналитика

Когда стали известны результаты выборов в США 2016 года, предвыборная аналитика, основанная на больших данных, потерпела серьезную неудачу, поскольку почти все предварительные исследования мнений избирателей предсказали ложный результат.

Полный провал прогнозов ошеломил всю страну, которая ожидала избрания Хиллари Клинтон, но получила вместо нее Дональда Трампа. В итоге data scientist’ы серьезно задумались о том, почему множеством опытных специалистов была допущена такая серьезная ошибка, и что нужно сделать, чтобы не повторить подобные ошибки в будущем.

Если вы думаете, что этот провал не имеет отношения к большим данным, задумайтесь еще раз. «Анализ политических предпочтений непосредственно основан на больших данных, – говорит Билл Шмарзо (Bill Schmarzo), технический директор по большим данным в корпорации EMC. – Чтобы предсказать результаты выборов, обрабатываются огромные объемы данных, собранных в каждом округе».

Во вторник Шмарзо следил за ходом голосования вместе со своим коллегой data scientist’ом в одном из баров Торонто. «Я был просто поражен, – говорит он. – Я стараюсь быть вне политики, но эта ситуация сильно озадачила меня, как data scientist’а. Я никак не мог понять, как же мы допустили такую ошибку?»

Как это обычно бывает, в данном случае не было какой-либо одной причины неудачи, скорее это был целый каскад ошибок, в результате которых миллиарды людей во всем мире были крайне удивлены. Далее мы рассмотрим шесть уроков, которые data scientist’ы должны извлечь из этой ситуации.

Помните о том, что модели имеют «период полураспада»

Формула для расчета периода полураспада.

Data scientist’ы тратят большую часть своего времени на создание и настройку моделей, которые, как они надеются, будут точно описывать реальный мир. Модели могут отлично работать непосредственно после своего создания, но они естественным образом теряют эффективность с течением времени. «Мы знаем, что со временем прогнозные качества модели ухудшаются, и причиной этому служит постоянное изменение окружающего мира», – отмечает Шмарзо, автор университетских курсов, прозванный «деканом» больших данных.

«Давайте задумаемся о том, что произошло с момента последних выборов, – говорит он. – Мы наблюдаем возрастающее неравенство доходов, увеличение долгового бремени по студенческим кредитам, распространение неполной занятости. Кроме того, за последнее время мы стали свидетелями нескольких крупных скандалов, связанных с должностными преступлениями. Все эти явления существенно влияют на политические настроения, и если мы не будем постоянно совершенствовать модель и стремиться учесть все факторы, в результате мы получим то, что мы получили в этот вторник, то есть большую ошибку».

Этот вывод особенно важен в том случае, когда мы стараемся спрогнозировать поведение людей, поскольку они склонны постоянно менять свои взгляды. «Преимущество, обеспечиваемое аналитикой, мимолетно. Другие могут повторить наши результаты или даже превзойти их. Таким образом, если мы не будем все время двигаться вперед и совершенствоваться, в нашем активе будут только малоэффективные устаревшие модели».

Не поддавайтесь лени

В 2016 году почти все исследователи ошибочно спрогнозировали результаты выборов. Эта ошибка бросил тень на репутацию многих именитых data scientist’ов. В их числе следует назвать и Нейта Сильвера (Nate Silver), основателя FiveThirtyEight, который почти идеально прогнозировал результаты президентских выборов с 2008 года. В этот раз он правильно предсказал итог голосования для 41 штата, но ошибся в отношении 9 штатов, которые и склонили чашу весов в пользу Трампа.

«Мы стали слишком самоуверенными и поддались лени, – констатирует Шмарзо. – Мы считали свои модели идеальными и не совершенствовали их. В итоге они перестали давать правильные прогнозы».

Data scientist’ы должны признать, что с течением времени их модели естественным образом теряют точность, а значит, необходимо постоянно прилагать усилия для их совершенствования. Точно так же, как баскетболист должен постоянно работать над своим трехочковым броском, data scientist обязан постоянно работать над своими моделями, чтобы, как минимум, поддерживать на уровне их прогнозный потенциал, не говоря уже о том, чтобы улучшать их.

«Мы все оказались слепы, потому что слишком полагались на свои прошлые достижения, – говорит Шмарзо. – Я считаю, что Нейт Сильвер – отличный аналитик. Он открыл для больших данных путь в мейнстрим и заслуживает большого уважения. Однако в данном случае он ошибся, поскольку перестал улучшать свои модели. Он не учел какие-то важные переменные, которые могли бы сделать его модели более точными».

«Урок, извлеченный из этих выборов, заключается в том, что мы никогда не должны быть слишком уверенными в своих моделях, поскольку мир постоянно изменяется, – резюмирует Шмарзо. – Мы должны постоянно следить за появлением новых источников данных. Для меня это урок номер один. Не доверяйте своим моделям. Постоянно бросайте им вызов. Старайтесь заставить их ошибиться. Таким образом вы сделаете их лучше».

Ищите дополнительные данные

Самоуверенность аналитиков и средств массовой информации привела к весьма существенным ошибкам в процессе оценки настроений избирателей. Коллега Шмарзо продемонстрировал это с помощью простого аналитического упражнения, выполненного прямо в баре.

Мой друг data scientist посмотрел на меня и сказал:

– Трамп выиграет во Флориде.

– Нет, он не сможет выиграть, – ответил я. – Нейт Сильвер сказал, что Флорида за Хиллари.

– Сильвер ошибся, – сказал мой друг.

Чтобы доказать свою точку зрения, он загрузил видео нескольких предвыборных митингов, проведенных кандидатами во Флориде. Затем с помощью видеоаналитических инструментов он подсчитал количество людей, присутствовавших на митингах. Результаты показали, что СМИ в своих репортажах очень неточно оценивали посещаемость митингов.

«СМИ сообщали о посещаемости в общих чертах, говоря, например, что на митинге присутствовало несколько сотен человек, – отмечает Шмарзо. – Однако если быть более точным, на некоторых митингах Трампа присутствовало 400-600 человек, в то время как у Клинтон – 150-200».

Хотя СМИ не делали особого акцента на разнице в посещаемости митингов двух кандидатов, как на индикаторе предпочтений избирателей, эта информация могла послужить характеристикой мотивированности избирателей. Это пример еще одной упущенной возможности, которой так и не воспользовались СМИ и аналитики, чтобы исправить свои ошибочные оценки настроений электората.

Избегайте стадного мышления

Одной из причин, почему итоговая ошибка прогнозов была настолько ошеломляющей, является то, что почти все аналитики сходились в одном, и притом неправильном, мнении. Тот факт, что почти все исследования общественного мнения прогнозировали победу Клинтон, свидетельствует о том, что имел место стадный эффект. Даже собственная команда Трампа в день выборов оценила его шансы на победу в 30%.

Единственным исследованием, предсказавшим победу Трампа, было исследование «Daybreak», проведенное Университетом Южной Калифорнии совместно с изданием «Лос-Анджелес таймс» (LA Times/USC Daybreak poll), результаты которого демократы в процессе предвыборной кампании называли «аномалией». (Краткое объяснение: в рамках этого исследования использовалась сложная модель, где придавался больший вес белым избирателям, сыгравшим решающую роль в штатах «Ржавого пояса» (Rust Belt), которые и принесли Трампу победу.)

Когда за неделю до голосования опросы показали, что рейтинг кандидатов выравнивается, Сильвер попытался учесть эту тенденцию в своей модели. Доктор Керк Борн (Dr. Kirk Borne), ведущий data scientist в компании Booz Allen Hamilton, считает, что подход Сильвера был правильным.

«Я убежден, что в прошлые выходные Нейт Сильвер (FiveThirtyEight) предпринял обоснованные и адекватные действия, стремясь учесть в своей модели положительную тенденцию в пользу Трампа», – говорит Борн.

«Однако за эти действия в его адрес последовало много критики. Я не соглашался с критиками и поддерживал Нейта. Если в данных обнаружена тенденция, ее необходимо учесть – это правильный подход. Нейт использовал такой подход ранее и получал отличные результаты. В этот раз его модель также была на правильном пути (как мы теперь знаем). Говорить постфактум легко, но я задолго до дня выборов высказывал свое мнение о том, что стремление Нейта учесть последние тенденции является правильным».

Учитывайте возрастающую сложность явлений

Модели, применяемые большинством организаций, анализирующих общественное мнение, основаны на демографии. В рамках подобных моделей электорат разбивается на группы на основании различных демографических факторов, таких как раса, пол, возраст, доход, социально-экономический статус. Вес различных демографических групп задается в соответствии с тем, как данные группы вели себя на предыдущих выборах.

До настоящего момента этот подход, основанный на группировке избирателей и исторической информации, работал достаточно хорошо. Аналитики могли полагаться на методы статистической выборки, которые обеспечивали прогноз с погрешностью 3-4%. «Что же касается предвыборной гонки 2016 года, в которой разрыв между кандидатами оказался намного меньшим, чем кто-либо мог представить, недостаточная точность старых методов моделирования, основанных на демографии, сыграла решающую роль», – говорит Мишель Чемберс (Michele Chambers), директор по маркетингу и исполнительный вице-президент компании Continuum Analytics.

«Полученный урок заключается в том, что мы должны усовершенствовать методы моделирования выборов, – говорит Чемберс. – В сфере бизнеса мы работаем над этим уже достаточно длительное время. Ранее мы создавали модели на основе малых выборок и работали с агрегированными данными. Большие данные спровоцировали озарение и позволили нам осознать тот факт, что мы можем создавать модели на основе наименьших транзакций, учитывая, таким образом, мельчайшие детали. Такой подход обеспечивает намного более высокую точность и позволяет быстрее обнаруживать закономерности в больших объемах данных».

Не стоит удивляться, если в будущем многие исследовательские центры будут использовать сложные модели, подобные той, которая была применена в исследовании «Daybreak».

Учитывайте иррациональное поведение

Опросы общественного мнения основаны на допущении о том, что люди будут сообщать свои реальные намерения. Но дело в том, что люди часто делают не то, что они говорили. Иногда они могут поступать абсолютно наоборот.

Этот фактор, вероятно, также внес свой вклад в итоговую ошибку прогнозов, поскольку многие сторонники Трампа либо лгали о своих предпочтениях, либо чаще отказывались от телефонных опросов, чем сторонники Клинтон (что было зафиксировано в рамках исследования «Daybreak»).

«Слова людей часто противоречат их поступкам, поэтому необходимо учитывать разницу между демографической группой и психографическим поведением», – отмечает Чемберс.

«Если бы исследователи применяли дополнительные методы сбора данных, например, аналитику лица и речи, они смогли бы выявлять недобросовестные ответы респондентов и получили бы более точное представление о мнении избирателей, – говорит Чемберс. – Когда мы имеем большой разрыв между кандидатами, погрешность не имеет значения. Однако в том случае, когда кандидаты идут почти вровень, а избиратели не всегда честно высказывают свои предпочтения, более сложная модель, учитывающая реалии нашего непростого мира, обеспечит намного более точные прогнозы».

Источник

6 уроков для data scientist’а: Чему нас научила победа Трампа?

Добавить комментарий Отменить ответ

Поделиться

Вход

Регистрация