Методы интеллектуального анализа данных

Интеллектуальный анализ данных (многие знакомы с этим термином по его английскому названию data mining) – одна из самых актуальных тем в современном мире. И это не преувеличение: бизнес-анализ – только малая часть сферы применения этого мощнейшего инструмента.

За примерами далеко ходить не надо – чего только стоит хрестоматийная история о том, как команда Google помогла предсказать географию распространения печально известного гриппа AH1N1 – при помощи анализа десятков терабайтов данных, полученных от пользователей поисковика. Ясно, что и это – лишь вершина айсберга: прекрасно понимая перспективы исследований в этой сфере, над разработкой и усовершенствованием методов интеллектуального анализа данных сегодня работают целые институты по всему миру.

Об этих методах – точнее, о самых актуальных и распространенных из них – и расскажет наша статья.

Методы, или, по-другому, задачи интеллектуального анализа данных – едва ли не вторая тема после введения в предмет, которую изучают студенты курсов по data mining. Обойтись при этом без сложной математики может редкий учебник, но мы постараемся – благо тема скорее практическая, чем сугубо теоретическая.

Задачи классификации, кластеризации и прогнозирования – наиболее частые примеры использования интеллектуального анализа данных. Отличаются они не только концептуально, но и практически – и применяются в разных случаях для достижения разных результатов анализа больших данных. Рассмотрим каждый из них подробнее.

Классификация

Итак, задача классификации – определить, к какому классу относятся те или иные данные; при этом множество классов, к одному из которых впоследствии можно отнести исследуемый объект, заранее известно. Каждый класс обладает определенными свойствами, которые характеризуют его объекты. Наглядный пример – задача выяснения кредитоспособности клиента. Банковский служащий при этом оперирует двумя известными ему классами – «кредитоспособный» и «некредитоспособный».

Отнести клиента к той или иной группе помогает анализ его характеристик – возраста, места работы, уровня дохода, семейного положения. То есть фактически задача интеллектуального анализа данных сводится к тому, чтобы определить значение одного из параметров объекта анализа по значениям всех прочих его параметров.

В нашем примере перед специалистом по кредитам стоит задача определить, кредитоспособен ли клиент или нет, оперируя значениями нескольких известных характеристик. Говоря математическим языком, необходимо определить значение зависимой переменной «кредитоспособность» (которая может принимать значения«да» или «нет») при известных значениях независимых переменных «возраст», «место работы», «уровень дохода», «семейное положение».

Кластеризация

Кластеризация – задача, на первый взгляд, очень похожая на предыдущую. Этот метод, также называемый кластерным анализом, является логическим продолжением или, если хотите, обобщенным случаем задачи классификации, когда набор классов заранее не известен.

При этом каждый ребенок сталкивается с этим методом уже на раннем этапе своего развития – когда учится отличать круг от квадрата или кошку от собаки, оперируя лишь принципом «похожести – непохожести».

Более «взрослым» примером является широко известная задача сегментации рынка, основная предпосылка которой – предположение, что все клиенты разные, хотя их и можно разделить на неопределенное количество групп. Маркетолог разделяет клиентов на сегменты, или кластеры, по принципу условного сходства – похожему социальному и географическому положению, основным мотивам покупки.

Эту же задачу в свое время решил Дмитрий Менделеев, когда разделил химические элементы со схожими свойствами на кластеры – научное обоснование же «подоспело» много позже, с развитием квантовой физики.

Прогнозирование

Метод под названием прогнозирование хорошо знаком бизнесменам: анализируя данные прошлых периодов, можно построить прогноз на будущее – причем чем подробнее исторические данные и чем больше анализируемый отрезок времени, тем точнее получатся результаты.

Этот метод нередко применяется для оценки спроса на услуги и товары, прогнозирования структуры сбыта, характеризующегося сезонными колебаниями, или потребности в кадрах. Если, к примеру, директор ресторана быстрого питания хочет определить, сколько гамбургеров заказывать на ноябрь, он должен проанализировать цифры ноябрьских продаж в минувшие пять лет.

С прогнозированием ежедневно сталкиваются и трейдеры на Forex – и умение пользоваться этим методом оказывает едва ли не большее влияние на успех, чем улыбка Фортуны.

С каждым днем все больше и больше людей приближается к пониманию, что интеллектуальный анализ данных – не просто три красивых слова: актуальность этого тренда подтверждается все новыми случаями из жизни. Умение оперировать большими данными, применять к ним методы анализа, чтобы в конце концов получить результат – залог успеха любого бизнеса в современном обществе, вступившем в эру безраздельной власти информации.

Автор: Елизавета Филиппова

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =