Data Science for Business. Данные — Ваш актив

 

Data_Science_for_BusinessПрежде всего, data science – это набор фундаментальных принципов, позволяющих извлекать знания из данных. Успех современной предпринимательской деятельности зависит от способности понимать, как эти фундаментальные концепции применимы для решения конкретных бизнес-задач — одним словом, мыслить количественно-аналитически (перевод редакции DR).

Что такое data science? С какими проблемами может столкнуться компания, нанимающая на работу специалиста по обработке данных?
Авторы книги Data Science for Business Фостер Провост (профессор информационных систем Школы бизнеса Леонарда Н. Штерна при Нью-Йоркском университете, доктор философии в области компьютерных наук в Университете Питтсбурга) и Том Фоусетт (доктор наук в области машинного обучения) не просто дают ответы на эти и многие другие вопросы, они выводят фундаментальные решения, имеющие отношение не к конкретному методу или алгоритму анализа данных, но ко взгляду на проблему в целом, к применению такого анализа в реальном мире.

Данные как актив

Сегодня многие компании сталкиваются с острой необходимостью сбора и обработки информации. Тем не менее, некоторые из них допускают ошибку, рассматривая данные как некую абстрактную вещь, с которой можно начинать работать. Данные — это актив, требующий инвестиций: в их сбор, подготовку, обработку и анализ необходимо вложить определенные средства.

С другой стороны, если у вас имеется набор данных, его необходимо рассматривать как актив, уже имеющий стоимость — вы можете повысить ее, обработав данные и найдя в них какие-то важные факты.

Когда вы рассматриваете данные как актив, у вас формируется правильный подход к проблеме анализа в целом.

Ожидаемое значение

Большинство бизнес-проблем можно рассматривать через призму концепции ожидаемого значения (англ. expected value). Суть ее заключается в том, что есть набор событий и набор вероятностей, с которыми они могут произойти. Рассмотрим случай со спамом. К примеру, перед компаний стоит вопрос: имеет ли смысл делать почтовую рассылку? Чтобы дать ответ недостаточно просто спрогнозировать, сколько человек откликнется на нее. Нужно рассматривать клиентов, которые:

  • получат и откликнутся;
  • получат, но не откликнуться;
  • не получат, но откликнутся;
  • не получат и не откликнутся.

Учесть все варианты будет самым верным решением — именно оно поможет прийти к правильному выводу.

Помимо этого, нужно понимать, что событию «спам» соответствует определенная стоимость, как и событию «не-спам». Таким образом, абстрактная проблема анализа данных переходит во вполне коммерческую плоскость.

В двух словах идея звучит так: любую задачу анализа данных можно привести с помощью концепции ожидаемого значения к единой метрике финансов.

Задавайте правильные вопросы

Чтобы лучше понять, как будет проходить процесс сбора, обработки и анализа данных, вам необходимо задать специалисту, предлагающему свои услуги, несколько ключевых вопросов:

  1. Какую именно бизнес-проблему предстоит решить?
  2. К каким бизнес-особенностям это имеет отношение?
  3. На каких данных будет проходить обучение?

На последний вопрос (несмотря на то, что он может показаться сугубо техническим) бизнесмену необходимо обратить особое внимание. Проблема может заключаться в том, что модель будет подстраиваться под те данные, на которых она училась. Поэтому важно, чтобы обучение проходило на одних данных, а тестирование — на других.

Не бойтесь цифр — бойтесь быть обманутым

Книга, в том числе, содержит информацию, которая, на первый взгляд, может пригодиться лишь техническим специалистам. Да, бизнесмены действительно могут перелистывать подобные главы, однако есть несколько ключевых моментов, которые важно знать, чтобы не стать жертвой обмана.

Представим ситуацию: вы нанимаете на работу команду аналитиков, не зная алгоритма и моделей анализа данных. К примеру, перед вами стоит задача определить процент банковских мошенников. Допустим, что их число составляет 3% в то время, как остальные 97% клиентов чисты перед законом. Команда же аналитиков предлагает вам модель, работающую с точностью 85%. На первый взгляд может показаться, что это высокий процент. Однако даже та модель, которая будет всегда говорить, что человек честный, окажется более точной. Да, она будет ошибаться в 3% случаев, не назовет ни одного человека мошенником, но точность-то ее будет 97%, а не 85%. Поэтому необходимо понимать, с какими данными вы имеете дело, и что в них уже содержится.

Мнение редакции

Книга Data Science for Business — прекрасная отправная точка для дальнейшего изучения количественной аналитики.

Книга дает бизнесменам набор важных концепций для понимания анализа данных, учит задавать правильные вопросы. Прочитав книгу, бизнесмен сможет адекватно оценить выводы количественных аналитиков и принять взвешенное решение.

Техническим специалистам книга дает глубокое понимание базовых принципов, лежащих в основе анализа данных и закладывает основу для дальнейшего изучения предмета.

К сожалению, она до сих пор не переведена на русский, и мы все ждем этого с нетерпением.

Вывод — книга обязательна к прочтению бизнес-аналитикам и предпринимателям, которых «не пугают» цифры.

Оценка — 9 из 10.

1 комментарий

  1. Евгений Дворцын:

    Я хотел поставить 10 из 10, но Лариса Шурига (главный редактор) сказала, что такие оценки ставить не принято 🙂
    Книга, действительно, отличная! Всем приятного чтения!

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =