Бизнес-кейс: Как Data Mining помогает финансистам бороться с мошенничеством?

В нашем сегодняшнем кейсе речь пойдет об одной из самых актуальных для мира больших данных бизнес-задач – определении случаев мошенничества – и о том, как элегантно ее решили финансисты Минобороны США.

Ситуация

Финансовая служба Министерства обороны США (Defense Finance and Accounting Service, DFAS) занимается распределением средств большинства фондов министерства. Желая повысить эффективность работы, руководители службы поставили своей целью сократить количество случаев мошенничества по отношению к финансовым активам Минобороны – и выбрали Data Mining в качестве одной из стратегий определения и в конечном счете предотвращения мошеннических действий. Используемые модели оценивали степень «подозрительности» каждого отдельного коммерческого счета и указывали на необходимость дополнительной ручной экспертной проверки, если этот показатель оказывался высоким. Попутно потенциально минимизировался риск возникновения «ложной тревоги» — чтобы экспертам не приходилось разбираться с каждым, даже очевидно безопасным, случаем.

Проблема

Структура данных представляла собой совокупность полей, выгруженных из миллионов коммерческих счетов и помещенных в базу данных. Аналитики снабдили каждое из полей меткой – таким образом, в зависимости от степени подозрительности, каждый счет либо помечался как «мошеннический», либо как «не мошеннический» (в этом случае он оставался без пометки). Пометка «мошеннический» ставилась только на тех счетах, принадлежность которых к этой категории была установлена экспертами и доказана в судебном порядке. Однако большинство счетов не проверялись никогда – по умолчанию они были отнесены в категорию «не мошеннических».

В теории все хорошо, но на практике аналитики столкнулись сразу с несколькими проблемами. Во-первых, малое число помеченных как «мошеннические» счетов не позволяло специалистам стандартным образом разделить данные на обучающие, тестирующие и контрольные выборки.

Во-вторых, счета, не отмеченные как «мошеннические», все равно нуждались в проверке – несмотря на то, что подавляющее большинство из них действительно таковыми не являлись, часть счетов все же явно могла попасть под это определение, а это значит, что случайно взятая большая выборка данных могла быть «загрязнена» некорректной информацией.

В-третьих, не все «мошеннические» счета иллюстрировали одну и ту же схему; имеющиеся данные подпадали под несколько типов мошеннических схем, и назначение им одной и той же метки («мошенничество») не дало бы алгоритму моделирования сработать корректно.

Решение

На подготовительном этапе анализа данных специалисты службы выделили несколько сделок с доказанными случаями мошенничества и использовали исходные документы, чтобы воссоздать все остальные сделки и поместить их в базу данных вместе с некоторым числом непомеченных сделок, которые в большинстве своем не являлись «мошенническими». При этом, если в выборке участвовало лишь несколько тысяч таких непомеченных сделок, вероятность пропустить «мошенническую» была относительно мала.

Таким образом, получался комбинированный набор данных, который разделялся на 11 поднаборов методом отбора перекрестной проверкой. Наконец, вместо всего двух категорий «мошенничество» и «не мошенничество», целевая переменная могла принимать пять значений – в соответствии с четырьмя возможными типами (классами) мошенничества (предварительно выделенными при участии экспертов) и одним типом, характеризующим «не мошеннические» сделки.

Результаты

Секрет успеха проекта, как считают аналитики, — в разнообразии наборов и алгоритмов: для построения моделей было использовано 11 случайных наборов данных, а всего над задачей работало шестеро независимых аналитиков, которым была предоставлена полная свобода в выборе алгоритма для каждой из назначенных им выборок. В таблице ниже представлены 11 лучших — наиболее точных с наименьшим количеством случаев «ложной тревоги» — моделей.

выявление мошенничества

На диаграмме ниже представлены относительные оценки продуктивности 11 основных и одной дополнительной, комплексной модели, которая объединяла прогнозы всех предыдущих и выдавала решение на их основе (в интересах конфиденциальности в качестве показателя продуктивности выступает взвешенная сумма показателей чувствительности и числа «ложных тревог», а не чистые их значения). Результат работы комплексной модели превзошел показатели отдельных алгоритмов – поэтому необходимость ручной «подгонки» модели путем многочисленных итераций процесса ее построения просто-напросто отпала.

выявление мошенничества

Окончательные результаты таковы: комплексная модель верно определила 97% известных случаев мошенничества (в контрольной выборке), и 1217 платежей были направлены экспертам для дальнейшей проверки.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =