Все алармистские заявления об экспоненциальном росте объемов собираемых и хранимых данных мало связаны с ростом объемов традиционных БД, хотя и этот фактор играет здесь свою роль. В основном же накапливаются огромные массивы неструктурированной информации: текстов, аудио- и видеозаписей, фотографий, результатов медицинской диагностики и т. д. Анализ неструктурированной информации, в частности текстовой, реализован в целом ряде продуктов. Один из них — IBM Content Analytics был представлен руководителем направления ECM московского офиса IBM Дмитрием Лактионовым.
Продукт этот появился на рынке в ноябре 2010 г., а с марта нынешнего года стал доступен в России. Он объединяет функции известной системы Cognos Content Analytics, средства корпоративного поиска информации в разнородных источниках IBM OmniFind и построен на базе архитектуры UIMA (Unstructured Information Management Architecture). Поддерживается широкий спектр типов сырых данных, включая реляционные БД разных вендоров, системы управления контентом, порталы, форумы, блоги, системы обмена сообщениями, корреспонденцию e-mail и т. д. Анализ текстов позволяет выделить в них определенные сущности, выявить взаимосвязи между ними, произвести классификацию и на этой основе оценивать успешность маркетинговых кампаний, узнавать эмоциональный характер откликов на те или иные инициативы компании либо государственного органа. Руководитель IBM по направлению ECM в Центральной и Восточной Европе Мартин Свик даже привел пример анализа эффективности работы call-центра, для проведения которого записи речевого обмена были автоматически преобразованы в текст и затем обработаны инструментами Content Analytics. Впрочем, как пояснил г-н Свик, подобное преобразование не является стандартной функциональностью продукта IBM, а выполняется с помощью дополнительного модуля, созданного независимым разработчиком.
Аналогичные модули потребуются и для анализа, учитывающего особенности предметной области или отраслевую специфику исследуемого контента. Еще одна задача, которая может быть решена подобным образом, — это извлечение метаданных (автор, название, продолжительность, ключевые слова) из мультимедийных файлов с целью их вовлечения в аналитическую обработку. По словам Дмитрия Лактионова, требования Content Analytics к аппаратным ресурсам нельзя назвать экстраординарными: как правило, используются 2–4-процессорные серверы стандартной архитектуры с 8 Гб оперативной памяти. Стоимость готовой системы во многом будет определяться сложностью ее настройки на конкретную область применения, которую обычно осуществляют либо сами специалисты заказчика, либо квалифицированные партнеры IBM. Продукт локализован для русского языка на базовом лексическом уровне. С учетом новизны продукта неудивительно, что внедрений систем на его основе в нашей стране пока нет.