Прошедший в начале июля традиционный информационный день компании Informatica был посвящен, как и в прошлые годы, вопросам эффективной интеграции корпоративных данных и управления их качеством. Однако довольно неожиданно в фокусе внимания аудитории оказалась не только хорошо известная в нашей стране интеграционная платформа Informatica PowerCenter, но и совершенно новый продукт этой компании — Identity Resolution.
Его появление в линейке Informatica связано с покупкой ею в начале нынешнего года Identity Systems — небольшой дочерней фирмы корпорации Nokia. Как объяснил директор по продажам Identity Systems Тьерри Буа, созданное их разработчиками ПО призвано решать довольно узкую, но чрезвычайно актуальную для некоторых областей применения задачу — выявлять соответствие имен и адресов, получаемых из разнородных источников, элементам того или иного перечня (data matching). Такие задачи возникают, например, при пограничных проверках, когда необходимо очень быстро убедиться, что въезжающий в страну человек не занесен в список разыскиваемых террористов или наркоторговцев. Важно то, что Identity Resolution умеет решать подобные задачи не только быстро, но и с учетом интернационального контекста: в проверяемых документах идентификационные данные могут отображаться с помощью национальных алфавитов (наряду с латиницей поддерживаются арабский, китайский, греческий, японский и др.), при этом возможны опечатки и неверная транслитерация как в документе, так и в контрольном списке (зафиксировано 73 способа написания одной только фамилии Бен Ладен).
Совершенно очевидно, что сходные проблемы есть и в финансовой отрасли (борьба с отмыванием денег, кредитные истории), телекоме (противодействие мошенничеству), страховании и т. д. Не удивительно, что среди 500 клиентов Identity Systems есть такие организации, как ФБР, Department of Homeland Security, US Postal Inspection Service, VISA и Citigroup. Кроме того, подобная функциональность может с успехом применяться в инструментах для повышения качества данных. По словам Тьерри Буа, пока что клиентам, в том числе и российским, будет доступна только автономная версия Identity Resolution, однако впоследствии механизмы этого продукта будут встроены и в средства для повышения качества данных, выпускаемых компанией Informatica. Докладчик не стал разъяснять, каковы эти механизмы, подчеркнув лишь, что в продукте используются фонетические, лингвистические, вероятностные, эмпирические и эвристические алгоритмы.
Участники конференции получили полезную информацию о российских проектах, базирующихся и на традиционных инструментах корпорации Informatica. Один из таких проектов, в “Русфинанс Банке”, близок к завершению. Как пояснил CIO этого банка Олег Подкопаев, при построении хранилища данных на основе 15 источников на роль инструментария ETL (Extract, Transform, Load) здесь была выбрана платформа Informatica PowerCenter, и объясняется это не только ее объективными достоинствами, но и тем, что она является корпоративным стандартом для группы Societe Generale, в которую входит “Русфинанс Банк”.
Потребность в информационном хранилище, а вместе с ним и в мощной платформе для интеграции разнородных данных встала во весь рост после приобретения “Русфинанс Банком” двух кредитных организаций: самарского “Промэк Банка” (в 2005 г.) и московского “Банка СКТ” (в 2006 г.). Оба они специализировались на потребительском кредитовании населения, в частности, автокредитовании. Для развития этого направления, а в его рамках сегодня обслуживается 2 млн. клиентов в 68 регионах России, необходима единая масштабируемая аналитическая система, в которой оперативно консолидировались бы данные из самых разных транзакционных приложений. Проект, реализованный в течение одного года, позволил на 50% ускорить загрузку данных в хранилище, унифицировать процессы выгрузки информации из OLTP-систем, упростить процедуры контроля и мониторинга.
Реально в банке функционирует несколько хранилищ, функции которых практически не пересекаются. Два из них — операционное и для генерации обязательной отчетности — были построены в сверхплановом порядке. Сегодня каждое из пяти хранилищ обслуживается отдельным ETL-инструментом компании Informatica, но как пояснил Олег Подкопаев, в дальнейшем ETL-функции будут сконцентрированы в одном решении, поддерживающем все хранилища “Русфинанс Банка”.
Второй проект реализован в компании “Лоялти Партнерс Восток”, которая является оператором общей программы лояльности клиентов для целой группы розничных сетей, известной в нашей стране под брендом “Малина”. Аналогичные программы проводятся британской компанией CM4P, в которую входит “Лоялти Партнерс Восток”, в 17 странах мира. Обладатели карт “Малина” набирают баллы и получают всевозможные скидки в каждой из партнерских розничных сетей (в их числе супермаркеты “Рамстор”, аптеки 36,6, рестораны “Росинтер”, сотовый оператор “Билайн” и др.). В своей деятельности “Лоялти Партнерс Восток” активно взаимодействует как с партнерами, так и с обладателями карт “Малина”. Совместно с первыми она проводит всевозможные маркетинговые кампании и оценивает их эффективность, а для вторых ведет учет накопленных баллов, проводит мероприятия по повышению их лояльности и т. д.
Хранилище данных раз в день пополняется информацией о транзакциях, накопленной в ИС партнеров. На его основе строятся две аналитические подсистемы: OLAP для партнеров, которые могут оперативно отслеживать эффективность работы “Лоялти Партнерс Восток”, и Data Mining для сегментации и кластеризации клиентской базы, построения прогнозных моделей, выявления особенностей поведения тех или иных групп клиентов. В настоящее время проект пребывает на пилотной стадии. Тестирование ETL-платформы Informatica, проведенное на реальных наборах данных, показало, что с ее помощью достигается существенное увеличение производительности операций загрузки данных (примерно в 2 раза) по сравнению с применяемой прежде методикой, базирующейся на скриптах PL/SQL. Как сообщил CIO компании “Лоялти Партнерс Восток” Иван Гаврюшин, построение хранилища данных планируется завершить до конца нынешнего года.