Разразившийся мировой экономический кризис лишний раз продемонстрировал, что, несмотря на колоссальные технологические достижения, настоящей разумности человечеству по-прежнему недостает. Такие довольно грустные мысли навевает и активно проводимая в последние годы IBM кампания Smarter Planet. Стремление сделать нашу планету более разумной возникло у руководства корпорации, имеющей дело с заказчиками из самых разных отраслей и стран, не на пустом месте. В своем выступлении на конференции IBM Information on Demand 2009, состоявшейся в Лас-Вегасе, старший вице-президент IBM Software Group Стив Миллс констатировал, что в результате неэффективного использования электроэнергии потери ее в разных странах составляют от 40 до 70%, а только в США ущерб от мошенничества в здравоохранении превышает 100 млрд. долл. Не лучше обстоят дела и в отрасли ИТ: в среднем 85% вычислительных мощностей простаивают, а из каждого доллара ИТ-бюджетов 70 центов уходит на поддержку существующих активов и лишь 30 на внедрение инновационных решений.
Столь же нерационально используется сегодня и такой важный ресурс, как информация. Объемы ее растут экспоненциально (увеличиваясь ежедневно в мире на 15 Пб), накапливается она в самых разных приложениях и устройствах, но польза из этих запасов извлекается далеко не всегда. Исследование, проведенное корпорацией, показало, что 52% сотрудников предприятий не доверяет предоставляемой им информации, а 42% менеджеров хотя бы раз в неделю пользуется недостоверными данными. Существенно изменилась за последние годы и структура корпоративных информационных ресурсов: около 80% — это неструктурированные данные (тексты, изображения, географические карты, видеоролики, 3D-модели). И если транзакционные массивы данных худо-бедно анализируются, то неструктурированные в лучшем случае архивируются в системах, поддерживающих те или иные механизмы поиска. Еще одна важная особенность современного информационного ландшафта связана с широким распространением всевозможных микродатчиков, генерирующих огромные потоки информации, которые нередко необходимо мониторить и анализировать в реальном масштабе времени (полагают, что в 2010 г. в мире будет обращаться 30 млрд. одних только RFID-меток).
В свете сказанного большой интерес вызвала презентация семейства программных продуктов Content Analytics, нацеленных на одновременный анализ структурированных данных и неструктурированного контента. Его появление стало результатом многолетней работы исследовательского департамента IBM и купленной в 2006 г. компании FileNet. Анализу здесь подвергаются и внутренние транзакционные данные и информация, собираемая из таких внешних источников, как сообщения электронной почты, блоги, отчеты о рыночных трендах и т. д. Выпущенный недавно продукт IBM Cognos Content Analytics, решающий подобные задачи, в дальнейшем планируется пополнить отраслевыми решениями. Одно из них, предназначенное для анализа ожиданий потребителей, было анонсировано на конференции.
Средства анализа контента применяются и для другой цели: выявления активов, которые нуждаются в повышенном внимании и требуют строгой дисциплины архивирования. Такова функция системы IBM InfoSphere Content Assessment, способной находить не только ценные записи, но и информационный мусор, от которого со временем необходимо избавляться (либо переносить его в низкоприоритетные архивы). В корпорации убеждены, что стратегия IBM Smart Archive, лежащая в основе таких продуктов, позволит повысить надежность ИС и снизить затраты на поддержание корпоративных архивов.
Еще одно направление конвергенции структурированной и неструктурированной информации связано с управлением мастер-данными. Дело в том, что нередко для повышения степени доверия к таким данным желательно дополнять их всевозможными электронными копиями важных юридически значимых документов: свидетельств о рождении, водительских удостоверений, отчетов о кредитной истории и т. д. В противном случае в процессе принятия решения указанные документы приходится долго искать, причем иногда они находятся в разных источниках и не согласованы между собой. Для решения таких задач предлагается расширение InfoSphere Master Content для InfoSphere Master Data Management Server.
Упомянутое выше все более широкое распространение микродатчиков поставило в повестку дня задачу мониторинга и анализа их показаний в реальном масштабе времени. Для ее решения IBM предлагает систему InfoSphere Streams, которая анализирует информацию в потоке еще до ее загрузки в хранилище данных. При этом в аналитические процедуры может быть вовлечена и историческая информация, находящаяся в БД. Подобная поточная обработка распространяется не только на структурированные данные, но и на изображения, аудио- и видео-трансляции, переговоры по каналам VoIP, поступления электронной почты, Web-трафик, сигналы сенсоров (включая RFID) и модулей GPS. Теперь с появлением инструментария InfoSphere Streams Mining Toolkit, поддерживающего открытый XML-стнадарт PMML (Predictive Model Markup Language), существенно упрощается перенос PMML-моделей между приложениями и проведение углубленного анализа (data mining) в потоке.
О первых примерах практического применения данной технологии рассказал вице-президент департамента Center for Business Optimization отделения IBM Business Consulting Services Уильям Пулиблэнк. По его словам, в таких решениях обеспечивается сбор данных с сотен и тысяч сенсоров, а также их непрерывный анализ с микросекундным временным разрешением. Одно из подобных решений используется при выхаживании недоношенных детей и служит для раннего выявления характерных патологий и заболеваний. Другое, реализованное в проекте Watson, помогает врачам скорой помощи проводить экспресс-диагностику. Для этого показания диагностической аппаратуры направляются в ЦОД, где они сопоставляются со случаями, описанными в медицинской литературе, после чего врачу сообщаются пять наиболее вероятных диагнозов поступившего больного.
Не осталась без внимания и традиционная бизнес-аналитика. Что, впрочем, неудивительно. Это один из немногих сегментов софтверного рынка, не испытавший заметного спада во время кризиса: по данным Gartner, в 2008 г. он вырос на 22% и достиг 8,8 млрд. долл. На конференции были представлены предварительно сконфигурированные горизонтальные решения для трех функциональных подразделений. С помощью IBM Cognos Customer Performance Sales Analytics специалисты отделов продаж смогут оценивать эффективность тех или иных каналов продвижения продукции. Кадровым службам предназначен пакет IBM Cognos Workforce Performance Talent Analytics: он поможет понять, насколько эффективно действуют службы рекрутинга и профессионального обучения. И наконец, благодаря IBM Cognos Supply Chain Performance Procurement Analytics отделы снабжения смогут ранжировать по качеству работы своих поставщиков и учитывать это при заключении очередных контрактов.
Разговор о достоинствах предварительно сконфигурированных решений возникал на данном форуме не раз. Так, генеральный директор департамента Information Management отделения IBM Software Group Арвинд Кришна недвусмысленно заявил, что время универсальных продуктов, пригодных для любых применений, прошло. По его мнению, будущее за полностью интегрированными комплексами аппаратных и программных средств, а также сопутствующих сервисов, оптимизированных под определенный тип рабочей нагрузки и требования заказчика. Один из подобных комплексов — IBM Smart Analytics System, оптимизированный для задач бизнес-анализа, представил генеральный директор департамента IBM POWER Systems Росс Маури. По его словам, развертывание такого комплекса занимает не полгода, как это бывает при использовании универсальных продуктов, а всего лишь 12 дней.
Пристальное внимание к специализированным программно-аппаратным комплексам проявляют и все главные конкуренты IBM. Следует признать, что наряду с упомянутыми достоинствами у подобных комплексов есть и существенный недостаток: в случае резких колебаний графика нагрузки, их мощности в определенные периоды будут простаивать. Избежать этого можно перейдя на облачную модель предоставления ИТ-ресурсов, поскольку в крупном дата-центре провайдеру гораздо проще оптимизировать использование всего пула имеющихся у него ИТ-активов. Заметным шагом вперед в этом направлении стало создание новой технологии кластеризации БД IBM DB2 pureScale, хорошо масштабируемой при наращивании числа узлов. Тем не менее, как убежден генеральный директор департамента IBM Analytics & Performance Management Роб Эш, для широкого распространения модели SaaS необходимо, чтобы все эксплуатируемые на облаке продукты обладали рядом важных качеств. В их числе способность к самообслуживанию, широкий сетевой доступ, возможность формирования пула ресурсов независимо от их географического расположения, высокая оперативность изменения конфигурации прикладных систем и готовность к переходу на модель оплаты только реально используемых ИТ-ресурсов. По-видимому, в этих направлениях и следует ожидать очередных инноваций Голубого гиганта.