Анонсируя для российской общественности вторую редакцию Microsoft SQL Server 2008 R2, директор по маркетингу платформы приложений Microsoft в Восточной и Центральной Европе Тара Сеппа заявила, что 80% появившихся в ней новшеств имеют самое непосредственное отношение к бизнес-аналитике. Хотелось бы обратить внимание еще и на то, что, хотя мы в своих публикациях по-прежнему называем этот продукт системой управления базами данных (СУБД), сама корпорация позиционирует его гораздо шире — как платформу управления данными, призванную помочь заказчикам извлекать из них ценную информацию, независимо от того, где эти данные находятся — на ПК, в дата-центре или “на облаке”.
Сегодня в составе указанной платформы наряду с собственно реляционной СУБД присутствует целый ряд служб: для генерации отчетов (Reporting Services), бизнес-анализа (Analysis Services), интеграции информации из разнородных источников (Integration Services), управления мастер-данными (Master Data Services). По сути, это полноценная платформа Business Intelligence, предлагаемая многими вендорами в виде самостоятельного продукта. К этой же сфере следует отнести включенную в SQL Server R2 технологию Power Pivot для быстрого анализа больших массивов данных (сотни миллионов записей) непосредственно в оперативной памяти настольного ПК (надстройка над Microsoft Office Excel). Думается, довольно косвенное отношение к реляционной СУБД имеет модуль StreamInsight — средство анализа данных в потоке, обычно относящееся к категории CEP (Complex Event Processing).
В отличие от классических BI-систем, в которых данные из множества источников сначала загружаются в хранилище и только после этого становятся доступны для исследования, технология StreamInsight дает возможность начать обработку данных уже в момент их поступления из того или иного источника: входящие данные пропускаются через систему логических фильтров, позволяющих выделить только значимую для конкретного бизнес-процесса информацию. В зависимости от поставленной задачи эта значимая информация может быть дополнительно обработана или сохранена, но более важно то, что избыточные данные, присутствующие в потоке, просто отбрасываются, а это сулит существенную экономию ресурсов системы хранения.
Любопытно, что первые попытки реального использования технологии StreamInsight в российских компаниях были сделаны еще до официального выхода на рынок Microsoft SQL Server 2008 R2 (запланирован на май). Об одной из них рассказал руководитель службы технического анализа “ВымпелКома” Валентин Кошкин. До сих пор из-за высокой стоимости оборудования и лицензий автоматизированная система гарантирования доходов эксплуатировалась только в крупных компаниях группы “ВымпелКом”, в остальных же такие задачи по-прежнему решаются либо со значительной задержкой, либо с большими трудозатратами. Поскольку с появлением StreamInsight стоимость разработки и сопровождения подобных решений заметно снижается, в “ВымпелКоме” решили автоматизировать соответствующие процессы во всех дочерних компаниях, в том числе и в небольших региональных.
В рамках пилотного проекта, длившегося около месяца, удалось построить систему, контролирующую поступление выручки оператора связи от услуг SMS. На ее вход поступает два потока данных — об отправленных SMS-сообщениях и о прохождении их оплаты через биллинговый контур. Эти потоки анализируются в реальном времени с помощью StreamInsight, и если по какой-то причине оба трафика не согласуются между собой, менеджеры получают предупреждающее сообщение и ищут причины ненадлежащего функционирования той или иной подсистемы. По словам Валентина Кошкина, проект признан успешным: потери выручки снижены на 30%, анализ собираемых данных выполняется на 3—4 ч быстрее, а экономия дискового пространства составляет от 30 Гб в день для трафика SMS и до 200 Гб — для голосового трафика.
Похожая задача решалась и разработчиками питерской компании Baltic Soft, которые решили создать дополнительный модуль для своей биллинговой системы paytracker, позволяющий избегать непредусмотренных потерь в процессе учета лимитируемого интернет-трафика. Раньше для этого применялась система, в которой данные о трафике того или иного клиента один раз в минуту выгружались из маршрутизатора в БД, после чего проверялось наличие средств на счету клиента, и если их там не оставалось, обслуживание прекращалось. С помощью StreamInsight удалось анализировать поток данных поступающих с маршрутизатора в реальном времени. В результате не только производительность биллинга увеличилась со 100 тыс. транзакций в минуту до 1 млн., но также заметно снизились требования к аппаратным ресурсам: если раньше задачу выполняли 50 двухпроцессорных серверов, то теперь достаточно двух четырехпроцессорных машин.
Возвращаясь к реляционному серверу БД, отметим повышение его производительности и масштабируемости. Версия Datacenter поддерживает до 256 логических процессоров и позволяет управлять 25 экземплярами СУБД, в том числе и в виртуализированной среде. Новое программно-аппаратное решение для хранилищ данных Power Data Warehouse, которое будет выпускаться в партнерстве с Bull, Dell, EMC, HP и IBM, позволяет создавать хранилища с параллельным доступом к массивам объемом в сотни терабайтов. Усовершенствованы механизмы сжатия данных. Благодаря реализации процессов управления группами серверов на основе политик заметно упрощается работа администратора БД.