Дайджест публикаций: Антибум больших данных

Согласно циклу зрелости технологий (Hype Cycle) компании Gartner, большие данные достигли «пика чрезмерных ожиданий» (Peak of Inflated Expectation) и уже на полной скорости катятся вниз – в пропасть «избавления от иллюзий» (Trough of Disillusionment). Другими словами, некоторые специалисты начинают более критично относиться к маркетинговой шумихе вокруг Big Data и обращают все больше внимания на ограничения систем, основанных на них.

Надежды, связанные с большими данными, предполагали, что чем больше информации вы собираете, тем больше идей можете получить для вашей организации. Инженеры компании Google назвали эту концепцию «необоснованной эффективностью данных».

В последнем выпуске журнала Science News рассматриваются ограничения при использовании больших данных, описанные в серии статей, самая последняя из которых вышла под названием «Исследования, связанные с большими данными, сталкиваются с проблемами воспроизводимости» («Big data studies come with replication challenges»).

Согласно Science News, ключевым вопросом является достоверность. При наличии такого большого количества данных и разнообразных аналитических инструментов, как можно быть уверенным, что результаты верны?

«Каждый раз, когда ученый выбирает одну компьютерную программу вместо другой, или решает анализировать данную переменную, а не другую, это решение может привести к принципиально разным выводам», – написала Тина Хесман Сэй (Tina Hesman Saey).

С проблемой достоверности сталкиваются не только энтузиасты больших данных, но и научное сообщество в целом. В одной из предыдущих статей, сотрудники Science News рассматривал проблему, заключающуюся в неспособности ученых воспроизводить результаты ранее опубликованных исследований.

Один из базовых принципов науки заключается в том, что результаты исследований могут быть воспроизведены кем угодно, при одинаковых начальных условиях. Но все больше исследователей обнаруживают, что даже наиболее тщательно разработанные исследования не всегда возможно повторить с одинаковыми результатами.

«Воспроизводимость – это краеугольный камень науки, но слишком многие исследования не проходят это испытание», – написала Сэй. – Сомнительные результаты могут быть следствием множества причин (например, давления на ученых в отношении сроков публикации), но, как минимум, часть вины можно возложить на неправильное использование статистического анализа, который достаточно сложно реализовать правильно».

Другие наблюдатели также выразили сомнения по поводу маркетинговых обещаний таких компаний, как IBM и Hewlett-Packard относительно больших данных.

«В области маркетинга Data Science существует мнение, что анализ больших данных может быть реализован в сжатые сроки, поддерживая инновационную и быстро изменяющуюся компанию, – недавно написал в своем блоге Джон Форман (John Foreman), data scientist компании MailChimp. – Но согласно моему опыту и опыту многих моих знакомых аналитиков, эта маркетинговая идея имеет мало общего с реальностью».

Форман отмечает, что хорошее статистическое моделирование требует стабильных входных данных: как минимум, несколько циклов статистических данных и расчетный диапазон результатов. Требуется выполнить очень трудоемкую работу, чтобы собрать все эти элементы вместе. Это ставит под сомнение утверждение многих маркетинговых кампаний о том, что системы на основе больших данных могут быстро давать «свежие» результаты.

Достоверность больших данных определенно будет темой конференции O’Reilly Strata + Hadoop World, которая начала работу вчера в Сан-Хосе (Калифорния). В рамках одного из докладов, Саймон Гарланд (Simon Garland), директор по стратегии компании Kx Systems будет говорить о «зашумленности» и противоречивости, в связи с чем ими невозможно эффективно управлять с помощью традиционных аналитических систем для баз данных.

Тем не менее, аналитики компании Gartner, похоже, сохраняют оптимистичный взгляд на долгосрочные перспективы систем на основе больших данных. В своем блоге на Forbes, Даг Лэйни (Doug Laney), вице-президент по исследованиям компании Gartner, предсказал, что к 2020 году большинство бизнес-процессов будет переосмыслено под влиянием анализа больших данных.

По мнению Лэйни, большая часть данных, на которые полагаются компании, будет поступать из внешних источников. Как погодные условия повлияют на продажи в течение следующей недели? Как мнения о продуктах компании, выраженные в социальных сетях, будут стимулировать продажи? «Такие данные, поступающие из различных источников и в различных форматах, действительно будут «шумными», – написал Лэйни. – Но, в то же время, они будут и ценными. Самая большая база данных вашей компании – это не база операций, не CRM-база (взаимоотношения с клиентами), не ERP-база (планирование ресурсов предприятия) и не какая-либо другая внутренняя база данных. Скорее, это сам Интернет и мир внешних данных, содержащихся в консолидированных открытых источниках».

По материалам: PC World

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =