На прошлой неделе компания IBM открыла публичный доступ к бета-версии Watson Analytics – платформы для прогнозной аналитики, обработки и визуализации данных. А незадолго до этого, летом текущего года, Microsoft презентовал сервис Azure Machine Learning, предоставляющий облачные решения для машинного обучения.
Что ж, давайте разберемся, как работает IBM Watson Analytics, и в чем его основные отличия от нового детища Microsoft. В этом нам поможет Machine Learning Engineer и директор направления Data Science в AltexSoft Александр Кондуфоров.
Начало работы с Watson Analytics
Хотелось бы начать с того, что регистрация на сайте продукта довольно простая и занимает от 3 до 5 минут. Однако не все оказалось так гладко – письмо с подтверждением аккаунта упорно не хотело приходить: бета-версия таки дает о себе знать.
После входа в систему, пользователь может посмотреть видеоролик с описанием услуги. Здесь следует выделить два ключевых момента:
- данные должны быть загружены в форматах CSV или MS Excel (.xls)
- их размер не должен превышать 12 МБ и может содержать не более 50 столбцов.
Все в том же видео IBM выделяет три ключевых функции своего продукта: explore (исследовать), predict (прогнозировать), assemble (собирать).
Explore. Функция позволяет делать запросы к данным. Для этого можно воспользоваться имеющимися шаблонами или ввести текст вручную. Это, казалось бы, довольно мощный инструмент, однако пока он позволяет лишь спросить «Как переменная x зависит от переменной y» (при этом переменная y должна быть строго категориальной).
Predict. Функция позволяет предсказывать одну и более переменную на основе других переменных. Для этого применяется метод классификации или регрессии в зависимости от того, переменная категориальная или непрерывная. К сожалению, на данном этапе инструмент срабатывает через раз.
Assemble. Функция позволяет создавать рабочие журналы. Они содержат презентационные материалы, визуализации данных и отчеты. По словам представителей компании, инструмент будет доступен уже в ближайшее время.
Watson Analytics: Кому и зачем?
Говоря в целом, Watson Analytics – инструмент не столько для Data Scientist’ов (хотя они тоже могут его использовать), сколько для руководителей отделов, маркетолов и аналитиков, не имеющих глубоких познаний в статистике.
Так что же он умеет на данный момент?
- По скормленному датасету сразу же строит массу стандартных анализов и показывает их в очень красивых интерактивных визуализациях. Можно легко и быстро делать exploratory analysis.
- Автоматически анализирует качество загруженных данных и отображает рейтинг. Может показать дополнительную информацию по проблемам, но пока не понятно, может ли позволить пользователю определить, что именно делать с этими проблемами.
- Автоматически строит зависимости target переменной(ых) от одной, двух или комбинации полей, определяет predictive power каждой комбинации. Для каждого из типов target-переменной и комбинации строит свой тип графика. Для количества переменных > 2 показывает понятный Decision Tree, предсказательную силу переменных и интересные комбинации правил, приводящие к самым мощным результатам.
- Понимает запросы к датасету на естественном языке и выдает результаты. Например, «Does higher education result in higher salary?». Умеет сам определить target-переменную, даже если поля с таким названием нет (подбирает по синонимам или смыслу).
Watson Analytics vs Azure ML
Хотя оба сервиса являются мощными инструментами для анализа и обработки данных, все же у них совершенно разные целевые аудитории – по крайней мере, пока. Watson Analytics ориентирован на неспециалистов, которые хотят увидеть инсайты в данных.
Azure ML, в свою очередь, в гораздо большей степени интегрирован с классическими техниками Data Science и предполагает знание статистики и базовых алгоритмов машинного обучения.
Можно сказать, что инструмент Microsoft намного слабее в плане автоматического анализа и представления результатов, однако на порядок мощнее в плане программирования своих алгоритмов на нем.
Подводим итоги
Безусловно, Watson Analytics – инструмент, заслуживающий внимания. Пока сервис работает в тестовом режиме, и пользователи могут столкнуться с некоторыми сложностями в ходе работы с ним. Конечно, это лишь временные трудности.
При все этом, пока не понятно, можно ли использовать сервис каким-то другим образом, кроме как находить инсайты в данных. Может быть в будущем у инструмента появятся новые возможности?.. Пока же это лишь хороший exploratory analytics tool, не более.
Александр Кондуфоров, Лариса Шурига для Data Review