Сигнал и шум. Прогнозирование — основа информационной эры

the-signal-and-the-noiseЦифры сами по себе не умеют говорить. Именно мы говорим за них.

Многие считают прогнозирование сложной системой научных исследований, даже не подозревая, что все мы делаем прогнозы. Это неотъемлемая часть нашей жизни. Каждый раз, когда мы выбираем маршрут движения, размышляем, стоит ли встречаться с тем или иным человеком, мы прогнозируем то, как будут развиваться события в будущем.

Предсказания, основанные на данных, способны привести нас к успеху. Или к неудаче… Все зависит от того, какую роль мы готовы играть в процессе для достижения конечного результата. Цифры сами по себе не умеют говорить. Именно мы говорим за них.

Эту идею в своей книге «Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет» постарался донести до читателей Нейт Силвер – американский аналитик, ставший известным в 2000-х годах благодаря удачным предсказаниям  результатов бейсбольных матчей, а потом и политических выборов.

Лейтмотив книги вытекает из ее названия: главное – уметь различить сигнал в информационном шуме.

Цена ошибки

Кризис 2008 года стал наиболее болезненным для США за последние десятилетия. Фондовый рынок обвалился со свистом за считанные часы. Можно долго рассуждать о причинах, обусловивших крах банковской системы. Однако, очевидно, что все это – последствия катастрофической ошибки в предсказаниях.

Мы игнорируем риски, которые сложнее всего измерить, даже когда они представляют собой величайшие угрозы нашему благосостоянию.

Но можно копнуть глубже. Фактически ошибка была допущена рейтинговыми агентствами, в числе которых известное всем Moody’s.  Аналитики делали ставку на стандартную модель, которая не учитывает корреляции между рисками. Прогнозисты придерживались мнения, что, скажем, 5 закладных с большой долей вероятности не имеют между собой ничего общего.

На протяжении некоторого времени Moody’s производило «косметические корректировки» своей модели, в частности повысило вероятность дефолта ценных бумаг с рейтингом AAA до 50 %. Это могло показаться вполне разумным – неужели буфера в 50 % недостаточно для того, чтобы сгладить все шероховатости?…

По сути, 50-процентная корректировка, сделанная Moody’s, напоминала ситуацию, при которой вы используете солнцезащитный крем и утверждаете, что он способен защитить вас от поражения при ядерном взрыве.

Как видим, ошибка, допущенная рейтинговыми агентствами (хотя, разумеется, нельзя возлагать вину исключительно на их плечи) стоила стране слишком дорого.

Ежи и лисы

Греческий поэт Архилог написал: «Лис знает много секретов, а еж – один, но самый главный». Следуя его логике, прогнозистов можно разделить на две категории (догадайтесь, какие 🙂 )  — ежи и лисы.

Ежи. Эти люди верят в Большие Идеи. Они не распыляются на мелочи, предпочитают не уделять внимания деталям, мыслят глобально. Пример? Их масса: Карл Маркс с идеей классового равенства, Зигмунд Фрейд с теорией бессознательного и т.д.

Лисы, напротив, преследуют много мелких идей, предпочитают искать различные подходы к решению одной и той же проблемы.

Как показывает практика, лисы строят более успешные прогнозы. Они более самокритичны и лучше адаптируются к разным (зачастую, непредвиденным) ситуациям.

…«Лисы» могут делать более качественные предсказания. Они быстрее других понимают, насколько данные могут быть искажены шумом, и они в меньшей степени склонны гоняться за фальшивыми сигналами. Они больше знают о том, что они не знают.

Теорема Байеса. Математика или нечто большее?

Байес – английский математик и священник, который не побоялся выйти за общепринятые рамки. Он – один из первых людей, предположивших, что существует некая тонкая связь между вероятностью, предсказанием и научным прогрессом.

В то время как философия Байеса поистине глубока, математика – потрясающе проста. Формула Байеса вытекает из определения условной вероятности. Иными словами, она позволяет рассчитать вероятность какой-либо теории или гипотезы, если произойдет какое-либо событие.

Представьте, что, вернувшись из командировки, вы обнаруживаете у себя пару чужого нижнего белья. Это, конечно же, натолкнет вас на мысль, что супруг (-а) вам изменяет. Однако так ли это на самом деле? Невероятно, но ответить на этот вопрос поможет все та же теорема Байеса. Дилемма решается в три этапа:

  1. Вам нужно оценить вероятность появления белья как условие правильности гипотезы – то есть при условии того, что вам изменяют. Предположим, эта вероятность составляет 50%.
  2. Затем необходимо оценить вероятность появления белья при условии, что гипотеза неверна. Допустим, этот показатель равен 5%.
  3. На последнем (самом важном!) этапе следует оценить так называемую априорную вероятность: как вы оценивали вероятность измены до появления белья? По статистике случайно выбранного года, 4% людей изменяют своим супругам. Возьмем за основу именно эту цифру.

Если применить ко всем трем показателям теорему Байеса, окажется, что вероятность измены достаточно мала – всего 29%.

Резюме

В качестве примеров автор книги сознательно приводит «бытовые», несложные и знакомые нам случаи: это помогает любому читателю понять сложные концепции, применимые для прогнозирования в бизнесе, экономике, госсекторе и т.д.

Философии и математике Байеса Силвер отводит особую роль, ведь именно этот человек сделал революцию в области прогнозирования.

Мнение редакции DataReview

Минусы. Приступая к книге, русскоязычного читателя могут оттолкнуть несколько моментов:

  • повествование слишком «заточено» под американскую историю, экономику, политику;
  • поначалу кажется, что автор «помешан» на бейсболе (скажем честно, не самая популярная игра у нас)
  • не хватило «бизнесовой» составляющей – большинство примеров слишком глобализированы: теракты, крах экономики, клиническая практика…

Плюсы. Несмотря на это, «Сигнал и шум» достоин внимания. Книга объясняет сложные концепции простым языком и будет в равной степени интересна как специалистам, так и бизнесменам, экономистам, аналитикам… Как и собственно и тем, кто просто хочет расширить свой кругозор: понять суть статистики, прогнозирования, ценность информации в мире, где объемы данных приумножаются с невиданной скоростью (подумайте только, ежедневно мы создаем 2,5 квинтильона байтов данных, а 90 % информации, имеющейся в нашем распоряжении, было получено за последние два года!).

«Сигнал и шум» — инструкция, как научиться различать сигнал в бесконечном информационном шуме. Экскурс в историю информационных технологий. Повествование о самых больших проколах и ошибках в области прогнозирования.  Рассказ о «подводных камнях», поджидающих аналитиков.

Наша оценка – 7 из 10

А ваша?

 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =