Три шага к новому способу анализа данных

Мир стоит на пороге эпохи больших данных — они изменят многие аспекты жизни общества: от бизнеса до государственного управления, от естественных наук до системы здравоохранения. Мы уже во многом полагаемся на них: спам-фильтры самостоятельно отсеивают нежелательные для нас письма, сайты знакомств подбирают пары; Amazon может порекомендовать подходящую книгу, а Google — оценить релевантность сайта.

Термин «большие данные» применяется для обозначения неструктурированных данных огромного объема. Их источниками могут быть онлайн-дискуссии, видеоматериалы или ДНК пациентов.

По сути, большие данные представляют собой три шага к новому способу анализа информации — это своего рода революция в нашем представлении об обществе и его организации.

1. Отказ от метода выборки

Долгое время аналитика имела дело лишь с малыми данными — они были структурированными и относительно небольшими по объему. Сталкиваясь же с большими числами общество полагалось на метод выборки, изобретенный более трехсот лет назад. Его суть заключается в том, чтобы масштабировать часть данных в общую картинку.

С одной стороны, это значительно упростило многие задачи — государства больше не тратили месяцы или даже годы на перепись населения и сведение результатов, предприниматели использовали случайные выборки для обеспечения качества производства.

Однако у этого метода был и остается один большой недостаток — расчеты могут быть объективными только благодаря элементу случайности.

В мире же больших данных мы можем обработать огромное количество, а иногда и всю информацию, касающуюся того или иного явления, а не полагаться на случайные выборки. Это дает возможность увидеть нюансы, получить представление о деталях подкатегорий, что очень важно для современных компаний.

2. Отказ от точности

С каждым днем объемы данных растут, и, как следствие, претензии к их точности снижаются. До недавнего времени возможность измерения была ограничена — подсчитывалось так мало показателей, что стремление получить точное число было вполне оправдано. Сегодня многое изменилось — большие данные не упорядочены, разбросаны по разным серверам, поэтому строгой точности здесь быть не может, да и не должно. Так, небольшой магазин подбивает кассу вплоть до копейки, но государство никогда не станет делать это с внутренним валовым продуктом. Упуская детали на микроуровне, мы делаем открытия на макроуровне.

3. Отказ от поиска причинности

Первые два шага обуславливают третий — отказ от традиций поиска причинности. Мы часто задаемся вопросом: «Почему?» Но в мире больших данных давать на него ответ вовсе необязательно. Здесь точная причина менее важна, чем факт. К примеру, если анализ данных подтвердит, что аспирин в сочетании с апельсиновым соком помогает от простудных заболеваний, знать, почему именно так происходит не столь важно, главное — заболевание вылечено. В мире больших данных нам не всегда нужно знать причины, которые стоят за теми или иными явлениями. Лучше позволить данным говорить самим за себя.

По материалам книги Виктора Майер-Шенбергера, Кеннета Кукьера
«Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»

Автор: Лариса Шурига

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =