Обнаружение аномалий в данных: современный подход

Технологии распределенного хранения и обработки больших массивов данных становятся все более популярными. Для получения результата необходимо использовать передовой опыт в аналитике. Одна из важных прикладных задач — обнаружение аномалий.

Этот метод используется для выявления необычных, редких явлений или тенденций. Примерами могут служить:

  • показания датчиков, ответственных за множество параметров;
  • подозрительная активность на защищенных сайтах;
  • неожиданные изменения интернет-трафика.

В некоторых случаях анализируемые структуры данных могут быть достаточно простыми и упорядоченными, благодаря чему их достаточно легко моделировать.

При обнаружении аномалий не следует забывать:

Аномалии определяют не их собственные характеристики, а сравнение с тем, что есть нормой.

А из этого следует, что…

Прежде чем выявить отклонение от нормы, сначала придется выяснить, что на самом деле является нормой.

Применение статистических методов

Казалось бы, вполне логично сперва определить норму, а потом искать аномалию, но не всегда понятно, как именно это сделать, особенно, в случаях со сложными поведенческими шаблонами. Самых лучших результатов можно достичь, используя статистические методы для создания адаптивной модели событий в системе, которую вы анализируете. Это будет первым шагом на пути к обнаружению аномального поведения.

Использование подобных статистических методов для моделирования нормального поведения — достаточно легкая задача для систем с простыми структурами данных, однако в отношении более сложных систем, это может представлять значительную проблему.

К счастью, появились новые эффективные методы, существенно упрощающие решение этой задачи. Например, представьте систему с повторяющимися (не периодическими) данными. Хороший пример — кривая электрокардиограммы. Как смоделировать форму нормальной ЭКГ, чтобы в последующем использовать ее, как образец для выявления нарушения сердечного ритма?

Задача упрощается, если разбить сложную ЭКГ на небольшие фрагменты, которые легче расшифровать. Этот метод называется «работа с окнами» или «кадрирование». Сигнал ЭКГ имеет сложную форму, но если рассмотреть его в большем масштабе в разных окнах, то можно увидеть, что простые комбинации повторяются.

Кадрирование и разреженное кодирование

Кадрирование (windowing) и разреженное кодирование (sparse coding), которое является упрощенной формой глубокого обучения (deep learning), предоставляют возможность работать со сложными повторяющимися структурами, когда вам необходимо создать модель для того, чтобы предугадывать их с большой степенью точности.

Используя разреженное кодирование, вы можете создать словарь форм, т.е. словарь всех фрагментов различной формы, которые встречаются в обучающем наборе данных. Это позволяет анализировать новые сигналы подобного типа. Метод моделирования, известный как кластеризация, может использоваться для подбора фрагментов из словаря, которые наилучшим образом соответствуют по форме каждому фрагменту исследуемого сигнала.

Словарь форм сигнала ЭКГ, который использовался в качестве обучающего набора данных. Диаграмма предоставлена Элен Фридман (Ellen Friedman) и Тедом Даннингом (Ted Dunning).

Словарь форм сигнала ЭКГ, который использовался в качестве обучающего набора данных. Диаграмма предоставлена Элен Фридман (Ellen Friedman) и Тедом Даннингом (Ted Dunning).

Вот как это реализуется при разработке детектора аномалий: после того, как вы использовали обучающий набор данных, чтобы создать словарь форм, применяется кадрирование и метод разреженного кодирования к новому целевому сигналу (назовем его исходным сигналом). Сравнив фрагменты исходного сигнала с фрагментами из словаря форм, используете словарные фрагменты наиболее подходящей формы, чтобы восстановить сигнал (назовем его восстановленным сигналом). После этого восстановленный сигнал сопоставляете с исходным сигналом, чтобы рассчитать ошибку восстановления. Там, где ошибка восстановления наиболее существенна, вы найдете вероятное отклонение, потому что именно эту часть исходного сигнала ваша модель не может описать с достаточной степенью точности. Иными словами, эта часть сигнала является аномальным значением.

Определение аномалий ЭКГ. Разница при сравнении протестированного исходного сигнала и воссозданного прототипа при помощи словаря образов является ошибкой восстановления, что объясняет неточности исходного сигнала. Бесплатное приложение Эллен Фридман и Тэда Даннинга.

Обнаружение аномалий в данных ЭКГ. Разница при сравнении исходного сигнала с сигналом, восстановленным из словаря форм, является ошибкой восстановления и ключом к обнаружению аномалий в исходном сигнале. Диаграмма предоставлена Элен Фридман (Ellen Friedman) и Тедом Даннингом (Ted Dunning).

На нижней кривой вы видите острый зубец, именно он показывает ошибку восстановления (время: 101). Этот зубец демонстрирует, что отклонение от нормы произошло в исходном сигнале (верхняя кривая) в это время.

По материалам: O’Rielly Radar 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =