Тест-драйв: Watson Analytics от IBM

На прошлой неделе компания IBM открыла публичный доступ к бета-версии  Watson Analytics – платформы для прогнозной аналитики, обработки и визуализации данных. А незадолго до этого, летом текущего года,  Microsoft  презентовал сервис Azure Machine Learning, предоставляющий облачные решения для машинного обучения.

Что ж, давайте разберемся, как работает IBM Watson Analytics, и в чем его основные отличия от нового детища Microsoft. В этом нам поможет Machine Learning Engineer и директор направления Data Science в AltexSoft Александр Кондуфоров.

Начало работы с Watson Analytics

Хотелось бы начать с того, что регистрация на сайте продукта довольно простая и занимает от 3 до 5 минут. Однако не все оказалось так гладко – письмо с подтверждением аккаунта упорно не хотело приходить: бета-версия таки дает о себе знать.

После входа в систему, пользователь может посмотреть видеоролик с описанием услуги. Здесь следует выделить два ключевых момента:

  • данные должны быть загружены в форматах CSV или MS Excel (.xls)
  • их размер не должен превышать 12 МБ и может содержать не более 50 столбцов.

Все в том же видео IBM выделяет три ключевых функции своего продукта: explore (исследовать), predict (прогнозировать), assemble (собирать).

Watson Analytics

Explore. Функция позволяет делать запросы к данным. Для этого можно воспользоваться имеющимися шаблонами или ввести текст вручную. Это, казалось бы, довольно мощный инструмент, однако пока он позволяет лишь спросить «Как переменная x зависит от переменной y» (при этом переменная y должна быть строго категориальной).

Predict. Функция позволяет предсказывать одну и более переменную на основе других переменных. Для этого применяется метод классификации или регрессии в зависимости от того, переменная категориальная или непрерывная. К сожалению, на данном этапе инструмент срабатывает через раз.

Assemble. Функция позволяет создавать рабочие журналы. Они содержат презентационные материалы, визуализации данных и отчеты. По словам представителей компании, инструмент будет доступен уже в ближайшее время.

Watson Analytics: Кому и зачем?

Говоря в целом, Watson Analytics – инструмент не столько для Data Scientist’ов (хотя они тоже могут его использовать), сколько для руководителей отделов, маркетолов и аналитиков, не имеющих глубоких познаний в статистике.

Так что же он умеет на данный момент?

  1. По скормленному датасету сразу же строит массу стандартных анализов и показывает их в очень красивых интерактивных визуализациях. Можно легко и быстро делать exploratory analysis.
  2. Автоматически анализирует качество загруженных данных и отображает рейтинг. Может показать дополнительную информацию по проблемам, но пока не понятно, может ли позволить пользователю определить, что именно делать с этими проблемами.
  3. Автоматически строит зависимости target переменной(ых) от одной, двух или комбинации полей, определяет predictive power каждой комбинации. Для каждого из типов target-переменной и комбинации строит свой тип графика. Для количества переменных > 2 показывает понятный Decision Tree, предсказательную силу переменных и интересные комбинации правил, приводящие к самым мощным результатам.
  4. Понимает запросы к датасету на естественном языке и выдает результаты. Например, «Does higher education result in higher salary?». Умеет сам определить target-переменную, даже если поля с таким названием нет (подбирает по синонимам или смыслу).

Watson Analytics vs Azure ML

Хотя оба сервиса являются мощными инструментами для анализа и обработки данных, все же у них совершенно разные целевые аудитории – по крайней мере, пока. Watson Analytics ориентирован на неспециалистов, которые хотят увидеть инсайты в данных.

Azure ML, в свою очередь, в гораздо большей степени интегрирован с классическими техниками Data Science и предполагает знание статистики и базовых алгоритмов машинного обучения.

Можно сказать, что инструмент Microsoft намного слабее в плане автоматического анализа и представления результатов, однако на порядок мощнее в плане программирования своих алгоритмов на нем.

Подводим итоги

Безусловно, Watson Analytics – инструмент, заслуживающий внимания. Пока сервис работает в тестовом режиме, и пользователи могут столкнуться с некоторыми сложностями в ходе работы с ним. Конечно, это лишь временные трудности.

При все этом, пока не понятно, можно ли использовать сервис каким-то другим образом, кроме как находить инсайты в данных. Может быть в будущем у инструмента появятся новые возможности?.. Пока же это лишь хороший exploratory analytics tool, не более.

Александр Кондуфоров, Лариса Шурига для Data Review

 

1 комментарий

  1. Мария:

    Здравствуйте! Тестирую это приложение . У кого-нибудь сработала последняя функция в Predict’e — «Predictors were found for this target»….?
    Гипперссылка View не дает никакой реакции.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =