Даталогия vs Статистика

С тех пор, как в 2008 году два титана анализа данных Ди Джей Патил и Джефф Хаммербахер объявили себя представителями новой профессии под названием data scientist, споры вокруг семантики (а также теории и практики применения сопутствующих методов) не утихают.

Что такое даталогия? Чем она принципиально отличается от статистики – и, главное, зачем «изобретать велосипед», если проверенные временем методы работали, работают и продолжают работать? Попробуем разобраться.

Немного теории

Статистика как наука зародилась несколько веков назад, тогда как термин data science, или даталогия, появился на свет в 1960-м (обратите внимание: получается, что «наука о данных» существует большую часть «компьютерного века»).

До появления пресловутых «больших данных» вопрос был лишь в семантике – сегодня же специалист по статистическому анализу из начала 1990-х вряд ли почувствовал бы себя уверенно, работая с огромными наборами данных 2010-х; старые методы явно «подтормаживают», не в силах угнаться за современными требованиями по скорости обработки.

Этот факт иллюстрирует некоторые соображения, по которым data science можно выделить в качестве отдельного направления, но не дает ответа на вопрос о том, чем конкретно она отличается от статистики (большие данные – лишь частный пример).

Согласно общему определению, даталогия систематически изучает методы извлечения знаний из данных. Постойте, но разве статистический анализ данных и его родственные методологии не предполагают того же самого? Получается, что даталогия – та же статистика, только «вид сбоку», слегка подогнанный под современные реалии?

Леонид Жуков, профессор Высшей школы экономики НИИ:

Классическая статистика — академическая наука, которая, хотя и рассматривает работу с данными, но не поднимает вопросы сходимости алгоритмов. Так, при создании алгоритмов статистики часто пишут: n стремится к бесконечности, и в бесконечных пределах все получается очень красиво. Проблема в том, что в реальной жизни бесконечных пределов нет, и data science как раз смотрит на практическую сторону вопроса, пытается все это дело “приземлить” и применить к реальной жизни.

Вот вам еще одно соображение: применяя методы статистики и анализа данных, мы прежде всего хотим понять, в чем суть информации, что за ней скрывается, что происходит в ходе процессов, которые она иллюстрирует. Статистика обладает отличным инструментарием для того, чтобы объяснить, в чем суть явления – но не позволяет сделать какие-то конкретные выводы, исходя из которых можно было бы принимать серьезные решения.

Даталогия же представляет собой своеобразный «ответ» на современные тенденции рынка, когда анализ больших объемов данных является непременным атрибутом успешного прогнозирования и принятия решений.

А что на практике?

Как мы видим, даже в теории существование data science на текущий момент более чем оправданно – а как дела с практикой?

Как мы уже вскользь упомянули, статистика имеет под собой строгую (и оттого несколько удаленную от реальной жизни) теоретическую базу. Проще говоря, красивая модель имеет ценность для теории, на практике же модель должна, прежде всего, работать – и работать быстро, с максимальной степенью надежности.

Леонид Жуков:

Статистику совершенно не интересует сложность алгоритмов (сколько операций нужно сделать, чтобы алгоритм сошелся?). И это уже к вопросу масштабируемости, — поясняет Леонид Жуков. — Есть, например, алгоритмы линейные: вы даете ему 100 слов, это занимает 100 секунд времени, даете 1000 слов — пропорционально занимает у него 1000 секунд времени. А есть — кубические: даете 100 слов, ему нужно 100 секунд, даете 1000 слов — нужно уже в разы больше времени. Статистиков это никогда не интересовало – а для практики это очень существенные вопросы.

Отсюда напрашивается еще один вывод: специалист по даталогии, тот самый data scientist, должен быть отлично подготовлен практически. Это предполагает экспертные знания и опыт в работе с различными структурами данных, алгоритмами, системами и скриптовыми языками.

Есть, правда, одно «но»: без статистики и классического анализа данных нет и даталогии, так что такому специалисту требуется иметь еще и серьезный математический «бэкграунд» с уклоном в статистическую науку. Следовательно, настоящий data science – пока что, «птица» редкая; зато компании, которой посчастливится заполучить в штат хотя бы одного такого сотрудника (и суметь его «приручить), можно рассчитывать на счастливое будущее в мире больших данных.

Резюмируя, отметим, что статистика и data science должны идти рука об руку – как отдельные, не в коем случае не взаимозаменяемые направления; в их тесном взаимодействии – ключ к правильной работе с данными и, в конечном итоге, к такому желанному преимуществу на современном рынке.

Автор: Елизавета Филиппова

 

1 комментарий

  1. 19.02.2015

    […] Даталогия vs Статистика […]

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =