Понимание того, что для выполнения аналитической обработки данных нужно использовать иные методы организации хранения информации, чем для решения задач поддержки текущей деятельности организаций (в частности, для транзакционных операций), появилось еще на заре становления СУБД. И по мере увеличения объемов и сложности структуры информации это положение все больше находило отражение в практике применения ИТ. По-видимому, качественный перелом в этом историческом процессе произошел в начале
Отметим сразу, что в этой сфере довольно четко прослеживается конкуренция двух технологических подходов от различных вендоров: первый делает ставку на использование специализированных средств, изначально ориентированных на решение задач формирования таких хранилищ, второй предполагает применение СУБД общего назначения. Современное состояние дел в этом важном ИТ-сегменте рассматривается в выпущенном недавно отчете Gartner «Магический квадрант для хранилищ данных и средств управления данными для аналитики» (Magic Quadrant for Data Warehouse and Data Management Solutions for Analytics — DMSA).
Авторы исследования определяют средства данного рынка как системы, предназначенные для аналитической обработки (с целью получения новых сведений для принятия решений) данных различного типа, в том числе текстовых, XML, геостатистических, а также документов и файлов разного формата. Такие инструменты должны поддерживать возможность работы с помощью независимых пользовательских (front-end) приложений, управления рабочими нагрузками и контроля за параметрами доступа потребителей в пределах управляемых экземпляров данных. Сами хранилища могут включать в себе DMSA или быть частью более значительной системы, в том числе с использованием независимых DMSA-средств, возможно от разных поставщиков.
При этом эксперты подчеркивают, что DMSA не представляют собой какой-то специальных класс технологий, а могут включать комбинацию разных технологических решений. При этом сегодня практически обязательным требованием для каждого вендора является наличие открытого доступа к данным со стороны средств других разработчиков. Физически информационное пространство может включать самые различные устройства хранения (в том числе оперативную память) и быть реализовано в разных моделях распространения (локальные СУБД, публичные и частные облачные решения, программно-аппаратные комплексы или специализированные сертифицированные конфигурации).
Формально Gartner понимает под хранилищем совокупность данных, в которой два или более различных источника данных могут использоваться совместно в рамках некоторой интегрированной, изменяемой во времени стратегии управления информацией. Логическое проектирование такого хранилища подразумевает возможность гибкого подключения дополнительных источников данных без существенной модификации уже работающей системы. Хранилище данных может быть намного больше, чем объем информации, хранимой в отдельной СУДБ, особенно в случае управления распределенными данными. С точки зрения использования таких информационных ресурсов Gartner выделяет четыре класса хранилищ:
• традиционные хранилища управляют историческими данными, поступающими из разнообразных структурированных источников. Обычно загрузка информации выполняется партиями больших объемов. От таких систем требуются доступность, простота администрирования и управления;
• операционные хранилища управляют структурированными данными, которые загружаются в систему постоянно с целью поддержки встроенных аналитических функций приложений и других систем, работающих в реальном масштабе времени. Обычно такие режимы работы нужны для обеспечения текущего функционирования предприятия;
• логические хранилища предназначены для управления данными разных типов, обычно как структурированных, так и неструктурированных (машинные данные, текстовые документы, изображения, видео и пр.). Как правило, при этом используют внешние по отношению к основному физическому хранилищу источники данных;
• контекстно-независимые хранилища имеют возможность управлять схемами чтения, что позволяет получать новые информационные срезы, извлекая дополнительные важные сведения. Это достигается за счет управления взаимосвязями, использования средств поиска, механизмов графов и других расширенных возможностей для раскрытия новых информационных моделей. Обычно такие системы нужны продвинутым пользователям (исследователям данных), решающим нестандартные аналитические задачи.
Говоря об эволюции данного рынка за последние годы, эксперты в качестве основной тенденции отмечают повышение использования заказчиками разного рода внешних данных в совокупности с их традиционными внутренними информационными ресурсами. В 2015 г. этот тренд получит развитие за счет расширения сферы Интернета вещей, что будет способствовать росту требований со стороны предприятий и поставит поставщиков перед новыми вызовами: на рынке будут нужны средства управления данными для аналитики с существенно более развитыми функциональными и технологическими возможностями работы с разнообразными типами данных, методами обработки информации и архитектурой хранилищ.
В стане поставщиков будут идти два параллельных процесса: с одной стороны, нарастать их специализация, с другой — идти интеграция технологий. В компаниях-заказчиках при решении аналитических задач повысится роль СIO, которым нужно будет более плотно работать с архитекторами решений и бизнес-потребителями. В целом клиентам надо готовиться в появлению гибридных технологических платформ, а также к применению на практике концепции логических хранилищ данных, которая позволяет применять разные стратегии работы с информацией, более широкий спектр вариантов, чем может предложить конкретный вендор. В то же время компаниям, выстраивая свою долгосрочную работу, нужно понимать логику развития средств поставщиков, их сильные и слабые стороны, перспективы их развития.
Что касается рыночной ситуации, то, как это ни парадоксально, но этот уже давно сформировавшийся сегмент ИТ-рынка сейчас находится в движении. Сравнивая квадранты
Бои за передел рынка средств управления данными для аналитики начались еще в конце 2013 г. и продолжаются сейчас. Авторы отчета считают, что их конечный результат будет хорошо виден к концу
Аналитики Gartner уверены, что за нынешним периодом разделения вендоров последует новый этап отсева неудачников и консолидации, когда лидеры будут стараться усиливать свои позиции за счет ослабевших конкурентов и новых перспективных игроков. Начало новой волны слияний и приобретений можно ожидать уже в конце текущего года или в первые месяцы следующего. В результате этого на рынке появятся качественно новые предложения, включающие такие новшества, как программируемые языковые интерфейсы, семантическое управление данными, аппаратная виртуализация и инструменты управления распределенными нагрузками. Эти средства будут обладать повышенными возможностями в плане доступности, безопасности и отказоустойчивости. По мнению Gartner, на рынке хранилищ данных могут появиться качественно новые вендоры из числа ведущих сетевых провайдеров (таких, как Cisco), которые смогут предложить заказчикам возможности управления географически распределенными информационными ресурсами.
Как уже говорилось, общей тенденцией развития данного рынка является все более значительное использование внешних источников данных и расширение спектра типов данных. Это, в свою очередь, требует коррекции стратегии заказчиков по использованию этих средств для решения актуальных аналитических задач. Компании должны исходить из того, что традиционные хранилища данных хотя и продолжают оставаться критически важными для бизнеса, но все же сегодня лишь часть большого DMSA-рынка.
При этом для выработки собственной стратегии действий в этой области, Gartner предлагает учитывать следующие ключевые тренды данного рынка.
• Расширение самого понятия «хранилище данных». Этот термин сегодня уже не означает «реляционный интегрированный репозиторий», нужно также иметь в виду, что новые SLA (соглашения об уровнях обслуживания) могут подразумевать, что данные могут использоваться как в интегрированном, так и в разобщенном вариантах. Рынок сегодня требует более широкий спектр решений для управления данными в целях аналитики. При этом компании могут использовать два основных подхода к созданию хранилищ. Первый, Enterprise data warehouse (EDW), представляет собой традиционный вариант интегрированной, предметно-ориентированной и физически централизованной системы управления данными, построенной на базе аппаратных средств, оптимизированных для выполнения сложных запросов. Второй, Logical data warehouse (LDW), основан на оптимальной комбинации ПО и технических средств, которая позволяет гибко управлять структурой хранилища с помощью инфраструктуры централизованного управления данными. В этой случае применяются репозитории, технологии виртуализации и распределенная обработка. Именно LDW сегодня является главным направлением развития данного рынка в целом.
• Повышение роли больших данных. Эта концепция в существенной мере является катализатором изменений на рынке хранилищ данных. Успешный опыт организаций говорит о необходимости использования различных средств, опираясь на подход «лучшие в своем классе» (best-of-breed, BOB), поскольку сегодня нет единого продукта, представляющего собой полноценное решение в этой сфере. Но процесс создания многофункциональных интегрированных решений идет достаточно быстро.
• Появление лучших инженерных решений. Подход BOB подразумевает использование комбинации разных программных приложений (в том числе сочетание проприетарных и открытых лицензий), систем управления файлами, коммуникационных средств, семантического ПО и аппаратных компонентов. Сегодня он является, наверное, оптимальным, но все же эксперты Gartner уверены, что на смену BOB придет концепция, названная ими best-fit engineering, в которой будет пусть даже в минимальном, базовом составе представлены разные технологии работы с данными (в том числе с традиционными и с логическими хранилищами), а также будет возможность расширения их функций за счет подключения дополнительных средств.