Тест-драйв: Watson Analytics от IBM

На прошлой неделе компания IBM открыла публичный доступ к бета-версии  Watson Analytics – платформы для прогнозной аналитики, обработки и визуализации данных. А незадолго до этого, летом текущего года,  Microsoft  презентовал сервис Azure Machine Learning, предоставляющий облачные решения для машинного обучения.

Что ж, давайте разберемся, как работает IBM Watson Analytics, и в чем его основные отличия от нового детища Microsoft. В этом нам поможет Machine Learning Engineer и директор направления Data Science в AltexSoft Александр Кондуфоров.

Начало работы с Watson Analytics

Хотелось бы начать с того, что регистрация на сайте продукта довольно простая и занимает от 3 до 5 минут. Однако не все оказалось так гладко – письмо с подтверждением аккаунта упорно не хотело приходить: бета-версия таки дает о себе знать.

После входа в систему, пользователь может посмотреть видеоролик с описанием услуги. Здесь следует выделить два ключевых момента:

  • данные должны быть загружены в форматах CSV или MS Excel (.xls)
  • их размер не должен превышать 12 МБ и может содержать не более 50 столбцов.

Все в том же видео IBM выделяет три ключевых функции своего продукта: explore (исследовать), predict (прогнозировать), assemble (собирать).

Explore. Функция позволяет делать запросы к данным. Для этого можно воспользоваться имеющимися шаблонами или ввести текст вручную. Это, казалось бы, довольно мощный инструмент, однако пока он позволяет лишь спросить «Как переменная x зависит от переменной y» (при этом переменная y должна быть строго категориальной).

Predict. Функция позволяет предсказывать одну и более переменную на основе других переменных. Для этого применяется метод классификации или регрессии в зависимости от того, переменная категориальная или непрерывная. К сожалению, на данном этапе инструмент срабатывает через раз.

Assemble. Функция позволяет создавать рабочие журналы. Они содержат презентационные материалы, визуализации данных и отчеты. По словам представителей компании, инструмент будет доступен уже в ближайшее время.

Watson Analytics: Кому и зачем?

Говоря в целом, Watson Analytics – инструмент не столько для Data Scientist’ов (хотя они тоже могут его использовать), сколько для руководителей отделов, маркетолов и аналитиков, не имеющих глубоких познаний в статистике.

Так что же он умеет на данный момент?

  1. По скормленному датасету сразу же строит массу стандартных анализов и показывает их в очень красивых интерактивных визуализациях. Можно легко и быстро делать exploratory analysis.
  2. Автоматически анализирует качество загруженных данных и отображает рейтинг. Может показать дополнительную информацию по проблемам, но пока не понятно, может ли позволить пользователю определить, что именно делать с этими проблемами.
  3. Автоматически строит зависимости target переменной(ых) от одной, двух или комбинации полей, определяет predictive power каждой комбинации. Для каждого из типов target-переменной и комбинации строит свой тип графика. Для количества переменных > 2 показывает понятный Decision Tree, предсказательную силу переменных и интересные комбинации правил, приводящие к самым мощным результатам.
  4. Понимает запросы к датасету на естественном языке и выдает результаты. Например, «Does higher education result in higher salary?». Умеет сам определить target-переменную, даже если поля с таким названием нет (подбирает по синонимам или смыслу).

Watson Analytics vs Azure ML

Хотя оба сервиса являются мощными инструментами для анализа и обработки данных, все же у них совершенно разные целевые аудитории – по крайней мере, пока. Watson Analytics ориентирован на неспециалистов, которые хотят увидеть инсайты в данных.

Azure ML, в свою очередь, в гораздо большей степени интегрирован с классическими техниками Data Science и предполагает знание статистики и базовых алгоритмов машинного обучения.

Можно сказать, что инструмент Microsoft намного слабее в плане автоматического анализа и представления результатов, однако на порядок мощнее в плане программирования своих алгоритмов на нем.

Подводим итоги

Безусловно, Watson Analytics – инструмент, заслуживающий внимания. Пока сервис работает в тестовом режиме, и пользователи могут столкнуться с некоторыми сложностями в ходе работы с ним. Конечно, это лишь временные трудности.

При все этом, пока не понятно, можно ли использовать сервис каким-то другим образом, кроме как находить инсайты в данных. Может быть в будущем у инструмента появятся новые возможности?.. Пока же это лишь хороший exploratory analytics tool, не более.

Александр Кондуфоров, Лариса Шурига для Data Review

 

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =