Непрофессиональное применение методов data science: риски и последствия

Представленное сегодня на рынке разнообразие инструментов для анализа и обработки данных побуждает предпринимателей и руководителей компаний прибегать к самостоятельному, зачастую непрофессиональному, применению методов даталогии (англ. data science). Чем могут быть чреваты такие действия?

Подмена понятий

Попробуем понять суть проблемы, проведя несколько аналогий.

Итак, когда человек применяет технологию, о которой практически ничего не знает, происходит подмена понятий “решение проблемы” и “использование инструмента”. Ярким примером может служить медицина. Многие из нас принимают лекарства без назначения врача, диагностики и анализов, самостоятельно делая умозаключения о причинно-следственных связях. В результате остро встает вопрос: в какой степени человек должен быть экспертом в той или иной области, чтобы пользоваться инструментарием или решать проблемы, относящиеся к ней? К примеру, может ли нестроитель построить сарай? В принципе, да. А многоэтажный дом? Гарантировано, нет. И краеугольный камень здесь — мера и степень ответственности.

Ответственность

Так, в случае с сараем ответственность минимальна: последствием могут стать поломанные инструменты или обвал конструкции. Если же непрофессионал построит мост, цена вопроса уже — человеческие жизни.

Мы не зря проводили все эти аналогии — применяя методы data science, руководитель должен помнить о мере и степени ответственности. Если все это делается в качестве эксперимента (просегминтировал клиентов, оценил результаты), то и проблем никаких не возникнет. Если же то, что вы делаете имеет большое значение для бизнеса, то и риски неизмеримо больше.

Неправильная установка

Часто люди, решившие самостоятельно применить методы даталогии, заранее намечают себе определенный результат. Негативную роль здесь играет некачественная периодика, после прочтения которой у предпринимателей и руководителей компаний создается неправильное впечатление о том, что может даталогия, а что — нет.

Так, большой популярностью сегодня пользуются нейронные сети. Многие издания представляют их как некие системы, имитирующие деятельность человеческого мозга. При этом некоторые люди исходят из простой установки: то, что дает нам природа, заведомо хорошо. Естественно, к даталогии такие законы применимы далеко не всегда. В конечном итоге, человек разочаровывается в data science, так и не узнав, в чем была истинная причина неудачи.

Применение методов data science

Кроме того, нужно помнить: нельзя построить модель, которая будет одинаково хороша для всех данных.

Понимание проблемы

Для того, чтобы решать проблему, необходимо ее правильно понимать. Иногда в случае с непрофессиональным применением методов data science, человек, уверенный в своем знании, допускает огромную ошибку. Есть на этот счет один старый анекдот:

Необитаемый остров. Мужчина трясет пальму в надежде, что с нее упадут кокосы.

Второй подходит к нему и говорит:

— Давай может подумаем, как по-другому можно это сделать?

— Да какое подумаем, — отвечает мужчина. — Некогда мне, пальму трусить надо.

Пример, на самом деле, классический: часто человек, знакомый с предметной областью, уверен в правоте своих действий. Однако в случае с даталогией на проблему нужно всегда смотреть с разных сторон и оценивать ее объективно. А это могут делать лишь специалисты.

Выделение факторов

Аналогичным образом ситуация обстоит и с выбором ключевых факторов. Для того, чтобы корректно применять методы даталогии, необходимо иметь навыки из статистики, формулирования и подтверждения гипотез. В противном случае, прогноз не будет иметь никакого отношения к реальному результату.

Ярким примером может служить избирательная кампания 1936 года в США. Аналитики проводили телефонный опрос граждан, причем техника была описана правильно. Не учли только одного факта: телефоны были лишь у состоятельных людей. Таким образом выборка оказалась нерепрезентативной.

Резюме

Все описанные выше проблемы хорошо знакомы специалистам в области анализа данных, тогда как непрофессионал, вероятнее всего, столкнется с ними впервые. Не зная вероятных последствий и рисков, руководитель возьмет удобный современный продукт, загрузит туда неверные данные, получит неправильный результат, примет ошибочное бизнес-решение и придет к выводу, что все это не работает. На самом же деле проблема не в метрике, а в том, как ее применять — не в топоре, а том рубить им дрова или бабушку (как у Достоевского).

Широкое распространение доступных инструментов стало в голове у людей подменять корректную постановку задачи и корректный выбор параметров — то, что профессионал сделать может, а любитель — нет.

Так что будьте осторожны, применяя методы data science, и лучше обратитесь за помощью к профессионалам!

Подробнее о том, ка не ошибиться при выборе поставщика услуг интеллектуального анализа данных читайте здесь:

10 вопросов поставщику услуг интеллектуального анализа данных

5 типичных ошибок при заказе услуг интеллектуального анализа данных

Автор: Лариса Шурига

В качестве экспертов выступили: Евгений Дворцын, Михаил Минин

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =