Предприятия широко используют специализированные приложения (например, для обработки претензий или выявления мошенничества), которые беспрерывно анализируют большие и постоянно растущие наборы данных. Что же получит бизнес в результате происходящего в последнее время совершенствования аналитических инструментов для работы с использованием обширных данных? А получит он встроенную аналитику.

Встроенная аналитика позволяет вам включать в имеющиеся приложения те же аналитические возможности, которые гиганты рынка ПО предлагают в своих самостоятельных аналитических пакетах. Например, если система вашей компании в настоящее время обрабатывает выплаты по полисам страхования жизни, вы можете усовершенствовать механизм выявления мошенничества, используя модели, построенные на основании исторических данных, чтобы обнаруживать подозрительные требования.

К счастью, в области включения аналитики в ПО накоплен передовой опыт. Имеются мощные инструменты, которые делают это сравнительно просто и эффективно как при проектировании, так и в использовании. Я проиллюстрирую сказанное на примере, чтобы выделить в самом общем виде шаги, необходимые для усиления имеющихся приложений за счет ценных аналитических инструментов.

Телекоммуникации

Рассмотрим в качестве примера среднюю телекоммуникационную компанию. Группа контроля текущих операций постоянно получает файлы журналов, куда записываются действия коммутаторов, установленных в сети компании. Журналы содержат подробные сведения о каждом звонке (call detail records, CDR), который обслужил коммутатор. На самом деле звонок может оставлять несколько записей. Группа контроля текущих операций получает также журналы по каждому из множества своих серверов. В итоге из-за большого объема, быстрого поступления и разнообразия данных их анализ может оказаться непосильным для и без того перегруженных сотрудников.

Группа контроля текущих операций проделала большую работу по сбору необходимых данных из CDR по осуществляемым компанией операциям, таким как биллинг. Однако у её сотрудников возникли подозрения, что компания теряет деньги из-за мошенничества. Они уже запустили процесс просмотра журналов в соответствии со своими потребностями, но хотели бы дополнить его средствами выявления мошенничества.

Ниже приводятся пять шагов, позволяющих реализовать проект по выявлению мошенничества, начав с концепции и закончив производственной системой.

1. Разберитесь с данными

Даже если группа контроля текущих операций изучала содержащиеся в CDR данные на протяжении многих лет, это будет для нее первой попыткой более глубокого анализа. Для начала следует более внимательно присмотреться к данным и определить, какие атрибуты могут быть полезны. Допустим, есть подозрение, что мошенничество осуществлялось с использованием определенных номеров телефонов в различных регионах. Поэтому начать следует с этого.

Что является весьма полезным на первом этапе, так это инструмент профилирования данных. Хороший инструмент позволяет выявлять в данных тенденции. До сих пор использование полей CDR было ограничено. Необходимо обеспечить качество значений полей в рамках проекта по выявлению мошенничества.

Наряду с хорошим инструментом профилирования данных потребуется также средство анализа. Помимо профилирования данных для выявления мошенничества, вероятно, возникнет желание поэкспериментировать с различными способами их агрегации. Например, агрегирование по регионам и телефонным номерам может показать, что определенные номера используются гораздо чаще, чем остальные. Само по себе это не означает, что их задействуют мошенники, но может стать подтверждением имеющихся подозрений.

2. Очистите данные

Теперь, когда группа контроля текущих операций хорошо представляет, какими данными она располагает и каково их состояние, ей необходимо провести очистку данных для подготовки к моделированию. Еще на этапе выявления было обнаружено, что для значительной доли звонков отсутствуют значения в некоторых важных полях. Поскольку эти данные необходимы, разрабатывается план их вычисления. И опять же нужен инструмент, позволяющий преобразовывать записи о звонках и восстанавливать отсутствующие значения.

Группа контроля текущих операций отмечает также, что некоторые записи не являются необходимыми для расчетов. С помощью инструмента очистки данных эти записи отсеиваются, чтобы исключить вероятность проблем. Отсеиваются, в частности, записи о звонках хорошо известных и активных клиентов.

3. Создайте рабочую модель посредством ряда итераций

Теперь группа контроля текущих операций готова применять приемы добычи данных. Она решает кластеризировать данные, используя набор атрибутов, которые сочла важными на этапе выявления. Здесь весьма пригодится визуальный инструмент, ориентированный на поток работ, поскольку этот этап проекта реализуется посредством итераций. Потребуется также средство, позволяющее легко обрабатывать большие объемы данных. Ввиду того, что речь идет о выявлении мошенничества, выборочный метод исследования не подойдет.

В группе используется инструмент моделирования, позволяющий построить модель кластеризации на основе очищенных данных. Такая модель применяется для работы с тестовым набором данных и визуализации результатов. Кластеры выглядят интересно, но не позволяют выявить четкие закономерности. Группа уточняет алгоритм и экспериментирует с различными атрибутами данных, используя нормализацию, где это уместно. После нескольких итераций появляется работоспособная модель. Визуализация демонстрирует аномалии, которые после дальнейшего изучения оказываются мошенничеством.

4. Встройте модель в производственное приложение

Теперь, когда имеется работоспособная модель, ее можно интегрировать в производственное ПО. Тот же инструмент, который применялся для очистки данных и моделирования функций приложения, группа контроля текущих операций использует в едином потоке работ, встроенном в новое приложение. Он позволяет обрабатывать большие объемы данных, быстро и эффективно использовать созданную модель.

5. Обновляйте и освежайте

Со временем группа, занимающаяся биллингом, выскажет свои замечания. Скажем, хотелось бы иметь список расставленных в порядке приоритетности случаев, которые согласно системе оценки нуждаются в расследовании. Кроме того, желательно получить больше исторической информации для определения давности появления мошенников. Группа текущих операций вновь использует свой мощный набор инструментов, позволяющий пройти все этапы от обнаружения данных до развертывания производственной системы.

Выводы

Отрасль быстро осознает необходимость встроенной аналитики. Упрощение бизнес-процессов, ускорение принятия операционных решений после получения важной информации и постоянное наращивание эффективности бизнеса — вот основные поводы к тому, чтобы использовать встроенную аналитику. С помощью имеющихся сегодня инструментов реализовать ее легче, чем когда-либо раньше.

Если применить практический, основанный на передовом опыте подход к изучению данных и их очистке, итеративному созданию рабочей модели, встраиванию модели в производственное приложение, представлению обновленной и освеженной информации в группу текущих операций, то это поможет воспользоваться преимуществами аналитики для достижения успеха.