Недавно мне напомнили о частичном пересечении сфер бизнес-аналитики и прогнозной аналитики. Я живу в мире интеллектуального анализа данных (ИАД, data mining) и прогнозной аналитики (ПА, predictive analytics), а не в мире бизнес-аналитики (БА, business intelligence). Обычно я не даю комментарии по вопросам БА, потому что не специализируюсь в этой области. Тем не менее я считаю БА родственной дисциплиной по отношению к ПА, потому что и в той, и в другой используется очень много общего: те же данные, часто аналогичные показатели, а иногда даже одинаковые инструменты.
Я дал интервью Виктории Гармент (Victoria Garment) из компании Software Advice на тему проверки точности прогнозных моделей в январе 2014 года (я думаю, первый раз по поводу интервью со мной связались в декабре 2013). Я не знал, что Джон Элдер (John Elder) и Карл Рексер (Karl Rexer), два хороших друга и коллеги в данной области, также высказались на этот счет. В результате статья под названием «3 способа проверить точность ваших прогнозных моделей» («3 Ways to Test the Accuracy of Your Predictive Models»), опубликованная в блоге Plotting Success, наделала немало «шума» в Twitter.
До интервью я не знал про Software Advice и после того, как почитал их блог, понял почему: эта компания занимается исключительно бизнес-аналитикой. Однако после прочтения десятка постов, мне стало ясно, что мы «родственники». Мы используем общие концепции и подходы в отношении больших данных, data science, кадровых вопросов и поиска талантов. Я с удовольствием регулярно читаю этот блог.
Я старался сделать особый акцент на сходствах бизнес-аналитики и прогнозной аналитики в своих докладах на саммите eMetrics и на конференциях по управлению эффективностью (performance management). После адаптации терминологии, две эти области могут хорошо понимать друг друга. Два примера различий в терминологии рассмотрены ниже.
Первый пример. На конференциях по прогнозной аналитике редко можно услышать термин «ключевые показатели эффективности» (КПЭ, key performance indicators, KPI), а на конференциях по бизнес-аналитике – наоборот, часто. Если мы используем Google, как индикатор популярности термина KPI, то получим следующее:
— поисковый запрос «“predictive analytics” KPI» дает всего лишь 103 000 результатов;
— поисковый запрос «“business intelligence” KPI» дает 1 510 000 результатов.
В сфере прогнозной аналитики КПЭ называются метриками (metrics), признаками (features) или производными переменными (derived variables), которые могут быть использованы в качестве входных данных для моделей.
Второй пример. На конференциях по бизнес-аналитике, чтобы объяснить причину для реализации определенных КПЭ или исследований, часто используется термин «сценарий использования» (use case). Этот термин редко можно услышать на конференциях по прогнозной аналитике. В сфере ПА мы говорим «анализ ситуаций» (case study). Снова обратившись к Google, получим следующие данные для поисковых запросов:
- «“business intelligence” “use case”» – 306 000 результатов;
- «“predictive analytics” ”use case”» – 58 800 результатов;
- «“predictive analytics” “case study”» – 217 000 результатов.
Примечательно, что первые две ссылки из результатов поиска по запросу «“predictive analytics” ”use case”» не соответствовали непосредственно искомому термину. Вторая ссылка в действительности представляла материал, где было описано, что прогнозная аналитика является областью применения (use case) облачных вычислений.
Сообществу БА, однако, кажется, что их область знаний включает в себя ПА (как мне кажется, к большому огорчению сообщества ПА). Диаграмма из статьи Википедии «Бизнес-аналитика» иллюстрирует, какие элементы включены в ее состав:
Интересно, что интеллектуальный анализ данных, прогнозная аналитика и даже предписывающая аналитика (prescriptive analytics) считаются составными частями БА. Должен признаться, что ни на одной из конференций по ИАД и ПА, на которых присутствовал, я ни разу не слышал, чтобы участники называли себя бизнес-аналитиками. Я наблюдал большее пересечение БА и ПА на других конференциях, где затрагивались более специфичные для БА темы, например, на конференциях по управлению эффективностью и по веб-аналитике.
Сравните это со статьей Википедии «Прогнозная аналитика». Такая систематизация элементов, относящихся к ПА, является типичной. Лично я еще бы добавил с помощью пунктирных линий интеллектуальный анализ текстов (text mining) и, наверное, даже анализ связей (link analysis) или социальные сети (social networks), потому что эти области связаны с ПА, хотя и не входят в ее состав напрямую. Следует отметить, что на этой диаграмме статистика включена в состав ПА, и я уверен, что это огорчает статистиков! Я думаю, на конференциях по статистике участники не стали бы называть себя специалистами по прогнозному моделированию (predictive modelers). Но, возможно, они предпочли бы считать себя data scientists! Увы, это уже совсем другая тема. Выше представлены характерные примеры систематизации дисциплин. Подобные структуры трудно довести до совершенства, и они обычно вызывают дискуссии о том, где проходят границы областей знаний.
Тенденция включать другие области знаний в «свою собственную» – ловушка, в которую попадают многие из нас: мы близоруки при взгляде на другие дисциплины. Это напоминает мне карту, висевшую, когда я был маленьким, в нашем доме в городе Натик (Natick) (штат Массачусетс, США) и называвшуюся: «США глазами бостонца» («A Bostonian’s Idea of The United States of America»). Безусловно, Кейп-Код (Cape Cod) намного важнее Флориды или даже Калифорнии!
Как бы то ни было, мой вывод заключается в том, что бизнес-аналитика и прогнозная аналитика – это важные, но взаимодополняющие дисциплины. БА – значительно более обширная область, что вполне понятно. ПА имеет более глубокую специализацию, но эта специализация приобретает популярность и признание, как важный набор навыков, который должен присутствовать в любой организации. Надеюсь на дальнейшее сотрудничество!
Автор: Дин Эббот
Перевод Станислава Петренко
По материалам: Abbotanalytics Blog