«Да» и «Нет» в работе с большими данными

Понятие «большие данные» появилось не так давно, тем не менее, вокруг него мгновенно возникло множество мифов. В этой статье мы попробуем разобраться, что стоит делать, работая с большими данными, а что нет; каким утверждениям о big data верить можно, а какие сбивают нас с правильного пути.

Да

Нет

Программы, которые анализируют большие данные, позволяют при помощи статистических корреляций получить более чем точный ответ, так что можно не перегружать алгоритм работы поисками причинно-следственной связи.

Поиск причинно-следственной связи в работе с big data помогает определить явления, которые влияют на точность результатов и могут направить программу «по ложному следу».

Этот урок отлично усвоила компания Google, которая пыталась проследить распространение гриппа, связывая его с поисковыми запросами пользователей. Нужно сказать, что несколько раз такие манипуляции компании были удачными, но однажды схема рухнула из-за обычных новостей, ведь даже здоровые пользователи, увидев выпуски об эпидемии гриппа, начинали искать в поисковике информацию на характерные темы. К сожалению, компания не сразу обнаружила причины ошибочных выводов программы, ведь исследовала только корреляции, игнорируя причинно-следственную связь.

При достаточном количестве данных числа говорят сами за себя, поэтому можно спокойно отбросить разные научные предписания и правила и просто собрать больше информации.

Количество собранных данных – не главное. Имея дело с опросами общественного мнения, важно помнить о возможных проблемах: ошибка выборки или ее смещение.

Эта проблема хорошо знакома журналу The Literary Digest, который проводил в 1936 году опрос с целью предсказать результаты выборов (Альфред Лэндон против Франклина Делано Рузвельта). Журнал разослал множество писем с вопросами по почте, взяв адреса из телефонных и автомобильных справочников. Стоит отметить, что в таких справочниках были адреса далеко не бедных семей, которые, как оказалось потом, в большинстве своем голосовали за республиканцев. Размах опроса The Literary Digest был просто невероятным, но результаты оказались ошибочными, в отличие от других менее масштабных. Таким образом, руководство журнала уяснило: чем больше количество данных – тем больше риск смещения или ошибки в результате.

Любая технология анализа или обработки больших данных способна оптимизировать и сделать более эффективным ваш бизнес.

Работая с большими данными, важно, прежде всего, точно определить свою цель, особенности, потребности и только потом выбирать, какая схема работы, технология, программа или какой специалист вам подойдет. Именно от удачного выбора зависит, извлечете ли вы ожидаемую пользу после внедрения технологий big data.

Из-за невероятных объемов больших данных ошибки или неточности в них нивелируются, поэтому небольшие неточности в результате не стоят потраченного на очистку данных времени.

Контроль качества исходных данных является одной из самых важных частей работы с данными. Согласно принципу «Garbage ingarbage out» любая, даже самая незначительная неточность в исходных данных, может лишить результат исследования любой ценности. Здесь срабатывает эффект бабочки: чем сложнее процесс обработки данных, чем больше операций исполняет программа, тем более значительным станет отклонение результата от истины.

На первый взгляд, тезисы из первой колонки (под названием «Нет») очень даже убедительны. Кроме того, часто в их правдивости нас убеждают разные публикации или просто случайные собеседники. Но практика доказывает:

  1. Поиск причин закономерностей позволяет нам избежать ошибок в алгоритме анализа данных.

  2. Количество информации и риск получить ошибочный результат растут прямо пропорционально.

  3. Технология работы с большими данным должна соответствовать вашим целям и потребностям.

  4. Качество исходных данных предопределяет результат.

Автор: Анна Коваленко 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =