Три признака настоящей даталогии

Для венчурных инвесторов, которые ищут компании, специализирующиеся на анализе данных, сложно, но крайне важно отличить настоящую даталогию (data science) от поддельной. Инвестиции не окупятся в долгосрочном периоде, если компания применяет «шарлатанские методы» вместо data science.

Настоящая даталогия предполагает использование сложных алгоритмов для сбора больших объемов данных, их анализа и преобразования в реальные ответы. Сейчас большое количество приложений, основанных на фальшивой data science, распространяется различными производителями ПО, которые утверждают, что могут превратить данные в золото. Эти «алхимики» бросаются модными терминами «большие данные» и «машинное обучение», но на самом деле не имеют никакого отношения к data science. Они просто запрашивают из базы некоторые наборы данных и предоставляют ограниченные результаты.

Так что же такое настоящая даталогия, и как вам найти разработчика ПО, который действительно использует ее, чтобы предоставить эффективные бизнес-идеи? Существуют три основных способа.

Ищите алгоритмы, а не запросы

Первым отличием настоящей даталогии от поддельной является разница между алгоритмом и запросом. Data science использует алгоритмы для сбора и анализа тысяч, миллионов или миллиардов записей, автоматически обнаруживая в данных новые взаимосвязи. Затем эти алгоритмы обучаются и адаптируются, со временем приобретая способность все более и более точно определять текущие и будущие тенденции. Этот процесс называется машинным обучением.

Использование прогнозной аналитики на основе настоящей data science позволяет обнаружить, например, основные причины, в результате которых сократились объемы продаж. Приложение для бизнес-аналитики может получать информацию, которую генерирует алгоритм, и создавать графический отчет или набор прикладных рекомендаций. Алгоритмы постоянно адаптируются и изменяются, обрабатывая новые данные и получая новые знания.

С другой стороны, запросы – это просто разовые «вопросы» к базе данных, которые не могут учиться у самих себя. Даже сложный запрос к базе данных — еще не data science. Результатом запроса является определенная информация, например, «суммарные объемы продаж на данной территории», в которой не содержится никаких полезных прикладных идей.

Ищите модель на основе насыщенных данных

Второй критерий для определения настоящей даталогии — понятие «насыщенность модели», которое используется для создания и понимания прогнозных моделей. Чтобы понять этот критерий, давайте рассмотрим, что такое «прогнозная модель».

Чтобы предсказать, например, будет ли торговая сделка заключена или нет, прогнозная модель нуждается в данных, на основе которых можно построить сложную модель и сделать прогноз. Эти данные могут быть получены из CRM-приложений, таких как Salesforce или Microsoft Dynamics, разработанных для фиксации динамичной и сложной структуры процессов продаж.

Представьте себе трудный путь, который необходимо пройти, чтобы продать произведенный в Америке самолет зарубежной авиакомпании. Это тяжело, сложно и требует много времени. В этом и есть подвох. Приложение Salesforce, например, не хранит информацию о сделке больше, чем 90 дней. Поэтому, чтобы понять все, что касается данной сделки, вы должны использовать data science для сбора разнообразной информации из множества источников, которая позволит создать «насыщенную модель».

Рассмотрим дальнейшее развитие сценария для случая продаж. Псевдоспециалисты по data science не имеют в своем распоряжении насыщенных данных, поэтому они могут произвести только поверхностный анализ сделки – в общем случае, была сделка заключена или нет. В противоположность этому, настоящая даталогия будет использовать насыщенную модель, основанную на обширном, содержательном наборе данных, чтобы предоставить точные, эффективные и ценные выводы. Data science использует «временную» технологию для анализа всех аспектов процесса продаж, и таким образом может выделить характерные признаки успешного и проигрышного вариантов.

Насыщенные наборы данных трудно создать. Лишь немногие аналитические компании имеют доступ к достаточно большим наборам данных, анализ которых позволяет специалистам давать не только ответы, но и точные прогнозы относительно возможных будущих результатов.

Не поддавайтесь на уловку с завышением количества параметров

Многие производители ПО пытаются обойтись без насыщенных наборов данных, утверждая, что используют больше параметров, чем кто-либо другой. Параметром называется одна запись, например, в правительственной базе данных по сфере образования. Некоторые компании «накручивают» количество параметров, считая отдельным параметром каждый столбец источников данных, которые они потенциально могли бы использовать (хотя обычно не используют), чтобы увеличить их общее количество. Чтобы отличить «тяжеловесов» от «легковесов», вам необходим специалист по обработке данных, анализирующий матрицы неточностей и показатели F1 (F1 – гармоническое среднее точности и полноты (harmonic mean of precision and recall)).

Более простой способ определить, что компания завышает количество параметров, – задать один вопрос: «Назовите десять важнейших характеристик, которые учитывает ваш алгоритм?» Легковесы не могут обычно назвать и 3-х, не говоря уже о 4-х тысячах. Вывод: не позволяйте количеством замаскировать отсутствие качества, необходимого для создания точных и насыщенных моделей. В большинстве случаев параметры, на которые ссылаются компании, даже не используются.

Отличить настоящую даталогию от поддельной нелегко. Но если вы планируете инвестировать средства в софтверную компанию, утверждающую, что использует настоящую data science, просто задайте им три ключевых вопроса. Псевдонаука, как и алхимия, может, на первый взгляд, казаться привлекательной, но копните немного глубже, и станет ясно, что ее фальшивые обещания, слишком красивы, чтобы быть правдой. Не связывайтесь со свинцом и алхимией, ведь единственное, что может обеспечить долгосрочный финансовый рост, – это настоящая даталогия.

Автор: Майкл Говард

Перевод Станислава Петренко

По материалам: Tech Crunch 

1 комментарий

  1. 19.02.2015

    […] Три признака настоящей даталогии […]

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =