Одна из объективных реальностей цифровой эпохи заключается в том, что объем, скорость движения и разнообразие данных, идущих потоком на предприятия и по предприятиям, близки к верхнему пределу. По данным консалтинговой и сервисной фирмы Wipro, каждую секунду отсылается более 2,9 млн. электронных писем, каждую минуту загружается 20 ч видео и каждый день создается свыше 50 млн. сообщений в Tweeter. Действительно, по оценке Wipro, за период между
Все эти виды активности требуют выработки стратегии более быстрого и гибкого хранения данных. «Окружение стремительно меняется, — утверждает руководитель компании Enterprise Applications Consulting Джошуа Гринбаум. — Руководители ИТ-подразделений должны понимать, что необходима система хранения, рассчитанная не только на рост объема данных, но и на различные типы данных. В дополнение к транзакционным есть данные сенсоров, временные ряды, сведения из журналов, данные из социальных сетей, аудио, видео и многое другое. Всё это хранится в миллиардах записей. Некоторые из них чрезвычайно малы и постепенно прибавляют в объеме, другие наборы данных огромны. Такова картина».
Новые требования
Разумеется, большие данные предъявляют совершенно иные требования к предприятиям и их ИТ-подразделениям. Более того, оптимизация транзакционных систем, которые пересылают данные монолитными блоками, дает обычно небольшой выигрыш или вообще никакого. «Они не предназначены для удовлетворения нужд организаций, использующих большие данные», — сказал управляющий директор компании Accenture Шон Питерсон. По его словам, руководителям ИТ-подразделений следует сконцентрироваться не на этом, а на поддерживающей большие данные платформе хранения, которая должна быть модульной и иметь объем в несколько петабайт. В то же время необходимо учитывать все более широкое распространение гибридных архитектур, в которых сочетаются старые и новые СУБД.
По мере того как большие данные обретают конкретные очертания, а организации накапливают их всё больше, многие руководители ИТ-подразделений пересматривают стратегии и технологии хранения таких данных.
Имея такую среду данных, важно понять, как ИТ-инфраструктура влияет на производительность систем и какого типа системы требуются для улучшения бизнес-результатов, а равно для надежного резервного копирования данных, восстановления систем после катастроф и обеспечения непрерывности бизнеса. Некоторые организации выигрывают от использования стандартного оборудования и инфраструктуры без разделяемого доступа, говорит Питерсон. Например, по его словам, «применение стандартной платформы в сочетании с системой хранения с разделяемым доступом может быть правильным при небольших нагрузках, когда вероятность превращения системы хранения в узкое место, снижающее общую производительность систем, минимальна».
С другой стороны, может быть уместно использовать готовые и специально спроектированные системы, особенно если необходимо быстро их развернуть. «В случае выбора таких решений начальные вложения в оборудование для хранения данных могут быть выше, чем при децентрализованном хранении, — отмечает Питерсон. — Но поскольку они объединяют технологии и ПО, имеется возможность быстрее запустить их в работу и избежать сложностей (и дополнительных затрат), связанных с развертыванием Hadoop и объединением оборудования и систем».
Гринбаум полагает, что руководителям ИТ-подразделений следует прежде всего сосредоточиться на эластичном хранении, поскольку «типы и количество данных могут меняться в зависимости от времени суток или дня недели либо на протяжении различных сессий». Более того, важно понять, как происходит принятие решений и когда предприятию требуется более быстрый доступ к данным, чем тот, что обеспечивают традиционные дисковые системы хранения. В рамках этой новой модели растущую роль играют твердотельные диски и решения, предполагающие размещение всех данных в оперативной памяти.
Виртуализация и облака, по словам Питерсона, могут нести в себе и преимущества, и препятствия: «Во многих случаях правильно выбранная платформа больших данных будет состоять из кластера малых массовых серверов вместо платформ корпоративного класса. Это означает, что хранение будет производиться локально на уровне отдельных серверов, а не централизованно с разделяемым доступом». Однако всё это не означает, будто большие данные требуют замены имеющейся инфраструктуры или устраняют необходимость в виртуализации. Это не выбор «или — или». Вопрос, скорее, в том, как использовать различные технологии, чтобы они дополняли друг друга, и разработать архитектуры данных, охватывающие и то и другое.
Определите ваши цели
В конечном итоге успех вращается на низкой орбите вокруг действительного понимания всей экосистемы данных и ее окружения — внутри предприятия, с охватом бизнес-партнеров и Интернета, говорит Гринбаум. Он считает, что любая стратегия хранения больших данных начинается с ответа на практический вопрос: чего именно мы хотим добиться?
«Когда вы поняли, чем вызвано появление той или иной задачи, вы можете приступать к проектированию систем, архитектуры и интерфейсов, которые дадут прекрасные результаты, — заключает Гринбаум. — Приложения — это заключительный этап. Если предприятие определило свои нужды и требования, всё остальное становится на свои места».