Мир стоит на пороге эпохи больших данных — они изменят многие аспекты жизни общества: от бизнеса до государственного управления, от естественных наук до системы здравоохранения. Мы уже во многом полагаемся на них: спам-фильтры самостоятельно отсеивают нежелательные для нас письма, сайты знакомств подбирают пары; Amazon может порекомендовать подходящую книгу, а Google — оценить релевантность сайта.
Термин «большие данные» применяется для обозначения неструктурированных данных огромного объема. Их источниками могут быть онлайн-дискуссии, видеоматериалы или ДНК пациентов.
По сути, большие данные представляют собой три шага к новому способу анализа информации — это своего рода революция в нашем представлении об обществе и его организации.
1. Отказ от метода выборки
Долгое время аналитика имела дело лишь с малыми данными — они были структурированными и относительно небольшими по объему. Сталкиваясь же с большими числами общество полагалось на метод выборки, изобретенный более трехсот лет назад. Его суть заключается в том, чтобы масштабировать часть данных в общую картинку.
С одной стороны, это значительно упростило многие задачи — государства больше не тратили месяцы или даже годы на перепись населения и сведение результатов, предприниматели использовали случайные выборки для обеспечения качества производства.
Однако у этого метода был и остается один большой недостаток — расчеты могут быть объективными только благодаря элементу случайности.
В мире же больших данных мы можем обработать огромное количество, а иногда и всю информацию, касающуюся того или иного явления, а не полагаться на случайные выборки. Это дает возможность увидеть нюансы, получить представление о деталях подкатегорий, что очень важно для современных компаний.
2. Отказ от точности
С каждым днем объемы данных растут, и, как следствие, претензии к их точности снижаются. До недавнего времени возможность измерения была ограничена — подсчитывалось так мало показателей, что стремление получить точное число было вполне оправдано. Сегодня многое изменилось — большие данные не упорядочены, разбросаны по разным серверам, поэтому строгой точности здесь быть не может, да и не должно. Так, небольшой магазин подбивает кассу вплоть до копейки, но государство никогда не станет делать это с внутренним валовым продуктом. Упуская детали на микроуровне, мы делаем открытия на макроуровне.
3. Отказ от поиска причинности
Первые два шага обуславливают третий — отказ от традиций поиска причинности. Мы часто задаемся вопросом: «Почему?» Но в мире больших данных давать на него ответ вовсе необязательно. Здесь точная причина менее важна, чем факт. К примеру, если анализ данных подтвердит, что аспирин в сочетании с апельсиновым соком помогает от простудных заболеваний, знать, почему именно так происходит не столь важно, главное — заболевание вылечено. В мире больших данных нам не всегда нужно знать причины, которые стоят за теми или иными явлениями. Лучше позволить данным говорить самим за себя.
По материалам книги Виктора Майер-Шенбергера, Кеннета Кукьера
«Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим»
Автор: Лариса Шурига
Свежие комментарии