Современный арсенал банковского аналитика основан на использовании инструментов предиктивного анализа (от английского слова prediction — прогноз, предсказание), принадлежащих к так называемым методам углубленного изучения данных (Data Мining). С их помощью можно построить модель, позволяющую спрогнозировать вероятность того, что та или иная операция окажется мошеннической. Традиционные методы выявления подозрительных операций остались далеко в прошлом: несмотря на их внешнюю надежность, работают они все же реактивно, т. е. по свершившемуся факту. Типичный пример тому -- наиболее часто используемый метод “красного флажка”, когда уже совершенная операция проверяется с помощью набора определенных правил (алгоритмов), и если обнаружено отклонение, флажок “срабатывает”. Но задача настоящего аналитика -- не только выявить мошеннические операции, но и предотвратить их, т. е. действовать проактивно. Именно этой теме и посвящена данная статья.
Методы Data Mining разительно отличаются от упомянутых выше традиционных подходов. Их аналитические средства выявляют подозрительные случаи на основе неких шаблонов, позволяющих сделать предположение о мошенничестве. На практике подобные сочетания данных принадлежат, как правило, к одному из следующих типов (см. также таблицу):
- необычные значения, каким-либо образом отличающиеся от нормы;
- подозрительная взаимозависимость между наблюдениями;
- заметные изменения в поведении сторон, участвующих в операции.
Примеров необычных значений можно привести великое множество -- это может быть очень крупная сумма банковского перевода, чересчур высокая зарплата, указанная заемщиком, и т. д. А вот аномальные взаимосвязи (например, двадцатилетний покупатель приобрел новую модель Porsche или по одной и той же кредитной карте утром произведена оплата в Москве, днем — в Питере, а вечером — во Владивостоке) встречаются значительно реже.
Записи, содержащие необычные значения, проще всего выявлять путем анализа выбросов. Количественные статистические инструменты, такие как определение среднего значения или стандартного отклонения, представление данных в виде различных графиков и диаграмм (см. рис. 1), весьма эффективны для обнаружения необычных значений непрерывно изменяющихся переменных (суммы кредита, зарплаты и т. п.). Для категориальных переменных (пол, образование, должность, цвет машины и пр.) хорошим индикатором могут стать частотные характеристики совокупности записей.
На необычные корреляции могут указывать несколько вроде бы независимых записей, имеющих совпадающие значения некоторых переменных (например, одно и то же место жительства или номер телефона). С другой стороны, необычными иногда можно считать случаи, когда в записях фигурируют, например, компании с разными именами, но одинаковыми адресами или сделки с различными земельными участками, но одними и теми же покупателями-продавцами...
Первый тип взаимосвязей наиболее прост для выявления. Здесь требуется, разумеется, чтобы сходство анализируемых полей было действительно нетипичным и существенным. Такие распространенные атрибуты, как пол или национальность, в этом случае использовать не имеет смысла. Хорошим примером необычной взаимосвязи записей может служить ситуация, когда несколько компаний, вовлеченных в операции по переводу денежных средств, имеют разные названия, но один и тот же юридический адрес. В подобном случае логично заподозрить “отмывание” денег.
Учитывая, что число операций может быть весьма велико и что описываются они сотнями переменных, упомянутые необычные сочетания вполне могут остаться незамеченными, если не проводить специального анализа. В принципе можно попытаться обнаружить их, определив частоту появления значений отдельных переменных. На практике, однако, осуществить это довольно трудно, поскольку объем данных очень велик, а переменные (например, номер банковского счета, адрес и т. д.) могут принимать множество значений Инструментальные средства оценки частоты появления значений для множества переменных и их сочетаний являются обязательным элементом решений Data Mining. Заметим, что присутствие необычных взаимосвязей между записями не обязательно указывает на мошенничество, но служит сигналом к тому, чтобы провести дальнейшее расследование.
Другой подход состоит в обнаружении так называемых “почти дублирующихся записей”, т. е. таких, переменные в которых — при незначительных различиях — в основном содержат идентичную информацию. В этом случае эффективен кластерный анализ, когда схожие записи формируют отдельный кластер (группу). Остается лишь более пристально исследовать каждый отдельно взятый кластер на наличие в нем подозрительно схожих элементов (см. рис. 2).
Использование кластерного анализа, тем не менее, не ограничивается только лишь внимательным изучением найденных групп. Известна схема мошенничества, когда в процессе опроса злоумышленник определенным образом “копирует” ответы из анкет, ранее признанных банком хорошими, путем внесения в них небольших изменений. Как правило, алгоритм принятия решений настроен на некий образ заемщика, клиента или партнера (в зависимости от области бизнеса банка), и если отклонения от этого образа незначительны, у злоумышленника появляется шанс ввести кредитную организацию в заблуждение.
Приведем в качестве примера потребительское кредитование. Если мошенник знает, какие заявки на получение займа одобряются чаще всего, он может скопировать одну из них, лишь немного изменив данные. Опознать подобную заявку нам и поможет кластерный анализ. Мы увидим кластер, состоящий из двух очень близких записей — “истинной” и “скопированной”. Если мы успешно распознаем “скопированную” анкету и мошенник будет обнаружен, то такая анкета в дальнейшем может служить нам “шаблоном” для выявления других мошенников. Каждая последующая заявка, похожая на этот шаблон, объявляется подозрительной и подлежит более детальной проверке.
Иногда оказываются действенными и более простые методы с механизмами, схожими с кластерным анализом. Обратимся снова к потребительскому кредитованию. Как известно, при оформлении договоров клиент должен предоставить о себе персональную информацию: паспортные данные, ФИО, дату рождения и т. д
Но достаточно при заполнении кредитной заявки, как бы случайно ошибившись, внести в нее вместо информации о Сенине Иване Ивановиче (дата рождения 12.05.1973, номер паспорта 4605877345) данные на Семина Ивана Ивановича (дата рождения 13.05.1973, номер паспорта 4605887345, и известный банку злостный неплательщик Сенин превратится в добропорядочного гражданина Семина, а кредитное учреждение получит новые проблемы...
С другой стороны, оператор мог просто допустить опечатку при вводе данных. Выявление подобных огрехов посредством рутинной дополнительной проверки привело бы к резкому увеличению трудозатрат. Где же здесь найти золотую середину?
Решением будет создание функции, помогающей обнаруживать подобных клиентов, или, говоря математическим языком, метрики в клиентском пространстве. Паре клиентов функция ставит в соответствие число, которое определяет, насколько эти клиенты отличаются друг от друга. Высокие значения говорят о том, что данные сильно разнятся, низкие — что клиенты “похожи”. Имея такую функцию, обнаружить факт мошенничества становится простым делом. Например, маленькие значения функции свидетельствуют об опечатках, т. е. такие записи нужно проверить и уточнить. А очень большие — о том, что люди действительно разные. Потенциальные мошенники обосновались где-то посередине.
Стоит отметить, что создание и настройка подобной функции — сложный процесс, индивидуальный для каждого банка.
Более сложен для анализа случай, когда связь между записями проявляется в цепочке записей промежуточных. Выявление такого набора требует отслеживания цепочки от первого звена до последнего, и если на определенном промежутке времени эти звенья (первое и последнее) совпадут, мы говорим о цикличности операций. Существуют алгоритмы, выявляющие цикличность, и один из них известен как анализ ссылок (см. рис. 3).
Подобный метод с успехом был применен одним из банков для выявления мошеннических операций с недвижимостью, заключавшихся в перепродаже отдельными гражданами домов по цепочке с целью неадекватного завышения их стоимости. В результате недвижимость оставалась у ее первоначального хозяина, который получал возможность брать у банка более крупные займы под залог. В анализируемых записях присутствовали поля “Продавец” и “Покупатель”, а целью исследования стал поиск групп записей, образующих замкнутый цикл, когда поле “Продавец” в первой записи группы совпадает с полем “Покупатель” в последней. Задача решалась с помощью продукта SAS Enterprise Miner.
Нередко одни аналитические методы применяются для обнаружения новых случаев мошенничества, а другие -- для построения на их основе прогностических моделей. Конечной целью является выработка набора индикаторов (Alert System), которые не только указывают на факт мошенничества, но и предупреждают о потенциальном преступлении до его совершения.
Идентифицировав конкретные однотипные случаи уже совершенного мошенничества, для заблаговременного выявления и предотвращения злонамеренных операций можно использовать характеристики, свойственные целому их ряду. Функция прогноза в состоянии обнаружить в режиме реального времени мошенническую операцию в момент ее проведения. Очень часто это помогает предугадать преступные намерения и предпринять необходимые меры для их пресечения. Достоинство такого подхода состоит в том, что его надежность можно оценить статистическими методами. При высокой надежности анализ будет, как правило, указывать на действительные случаи мошенничества, а не просто представлять набор подозрительных операций.
В таблице мы попытались классифицировать характеристики данных, используемые для выявления мошенничества, а также применяемые методы анализа.
С авторами — директором международной консалтинговой группы Business & Decision по маркетингу в России и странах СНГ Наталией Катиловой и руководителем Управления по борьбе с мошенничеством банка Home Credit & Finance Владиславом Гужелевым -- можно связаться по адресу: natalia.katilova@businessdecision.com.
Искомая характеристика набора данных | Цель исследования | Примерный сценарий мошеннической операции | Метод исследования данных |
---|---|---|---|
Необычные данные | Выявить отдельные необычные, но в целом приемлемые значения
Выявить необычные сочетания значений, каждое из которых по отдельности не выходит за рамки нормы |
Цена приобретаемой недвижимости слишком высока по сравнению с ценами на аналогичные квартиры в данном районе города
Некое лицо подает необычно большое число требований на возмещение ущерба в случае ДТП |
Анализ выбросов
Частотный анализ Кластерный анализ Различные алгоритмы |
Необычные взаимоотношения | Выявить связи между независимыми записями
Выявить практически идентичные записи Выявить прямые связи между записями Выявить связи между записями, проявляющиеся через цепочки промежуточных записей |
Операции, в которых участвуют многочисленные компании, с переводом средств через различные банки
В нескольких сделках с объектом недвижимости участвуют одни и те же лица в качестве продавцов и покупателей |
Частотный анализ
Кластерный анализ Анализ ссылок Анализ выбросов |
Изменения поведенческих характеристик | Выявить единичный случай необычного поведения
Выявить многочисленные случаи необычного поведения |
С кредитной карты частного лица снимаются крупные суммы за оплату покупок | Анализ выбросов
Частотный анализ |