В своем недавнем исследовании “The Digital Universe Decade — Are You Ready?” эксперты IDC сделали прогноз, согласно которому через десять лет объем цифровой информации, создаваемой и тиражируемой на нашей планете, увеличится по сравнению с 2009 г. в 44 раза и достигнет астрономической отметки 35 зетабайтов (35 трлн гигабайтов). Даже за прошлый год, несмотря на экономический спад, суммарный объем обработанной информации вырос на 65%. В последующие годы в дополнение к нынешним факторам роста свою лепту внесут интеллектуальные сети электроснабжения, оснащенные всевозможными сенсорами, логистические операции с применением радиочастотных меток и т. д. При этом, поскольку размер обрабатываемых файлов заметно уменьшается, темпы роста числа сохраняемых объектов будут даже выше, чем у объемов в гигабайтах (в 67 раз к 2020 г.). Несмотря на то что 70% цифрового контента генерируется частными лицами, ответственность за его безопасность, сохранность и соответствие нормативным актам в 85% случаев ложится на организации самого разного рода (как коммерческие, так и правительственные). Это ставит перед ними сложные задачи в отношении хранения данных и их защиты. Сложность эта усугубляется еще и тем обстоятельством, что численность ИТ-персонала на нашей планете вырастет к 2020 г. всего лишь в 1,4 раза.
Казалось бы, упомянутый рост объемов данных не скажется заметно на предприятиях, деятельность которых не связана с обработкой мультимедийного контента. Тем не менее и для них применение современных технологий хранения станет одним из важнейших приоритетов. Как отмечается в исследовании IDC, нас ожидает дальнейшее увеличение числа всевозможных государственных и отраслевых нормативных актов, регламентирующих дисциплину долговременного хранения документов, протоколирования деталей финансовых транзакций и защиты персональных данных. Если среднегодовой темп роста объема всей “цифровой вселенной” составит 50%, то та его часть, что требует специальных мер защиты, будет увеличиваться вдвое быстрее. Кроме того, продолжится размывание информационных границ предприятия: все больше сотрудников переходит на режим дистанционной или мобильной работы, а по мере глобализации экономики расширяются границы взаимодействия компаний с их клиентами и партнерами, что в свою очередь существенно увеличивает сферу охвата цепочек поставок.
Затраты компаний на технологии хранения данных могут заметно вырасти в ближайшие годы. Дело в том, что еще в 2007 г. была пройдена та точка, когда объем генерируемой во всем мире цифровой информации превысил суммарную емкость устройств для ее хранения. Если бы сегодня потребовалось хранить всю эту информацию, то указанный дефицит составил бы 35%. К счастью, пока еще проблема не столь остра, поскольку далеко не все нужно сохранять (потоки цифрового ТВ, бракованные фотографии и видеоролики, спам). Но уже через несколько лет нехватка емкостей систем хранения составит 60% и дальнейшее отставание будет иметь экспоненциальный характер. Это, в частности, означает, что к моменту завершения проекта внедрения инфраструктуры хранения, который может длиться более года, потребности предприятия станут существенно иными.
В данном обзоре мы попытаемся с помощью наших экспертов — специалистов известных ИТ-компаний обсудить, каким образом отечественные предприятия могут справиться с нынешними и грядущими проблемами, как им оптимизировать свои системы хранения и по производительности, и в плане затрат. Кроме того, мы провели опрос наших читателей, работающих в ИТ-департаментах отечественных предприятий самого разного масштаба: 52% — компании среднего бизнеса с числом автоматизированных рабочих мест (АРМ) от 25 до 500, 19% — крупные (более 500 АРМ) и 16% — малый бизнес. Остальные — сотрудники ИТ-компаний.
Что имеем
Судя по реакции участников читательского опроса, нехватка емкостей систем хранения сегодня далеко не главная проблема их предприятий: лишь 14% испытывают постоянный дефицит подобного рода ресурсов, 65% регулярно наращивают их по мере необходимости, а 19% даже имеют большой резерв.
“В настоящее время активно развивается розничный рынок (продажи товаров и услуг, онлайновые сервисы банков и страховых компаний и т. д.). В связи с этим растут объемы информации, которые необходимо эффективно обрабатывать и анализировать, — констатирует Алексей Ходаков. — Все наиболее перспективные направления розницы требуют автоматизации процессов. Компании, имеющие распределенную инфраструктуру, большое число филиалов и подразделений, также не могут функционировать без оперативного и точного предоставления нужной информации одними подразделениями другим, а это в свою очередь требует от организации достаточно хорошего оснащения средствами хранения и управления данными. Несмотря на то что объемы данных постоянно растут, оснащенность большинства компаний ресурсами хранения достаточно хорошая”.
С определенными оговорками эту точку зрения разделяют и другие эксперты. “Оснащенность системами хранения многих отечественных предприятий неплохая, но эффективность их работы не всегда адекватна современному уровню развития технологий, — сетует Владимир Слизов. — Как всегда, мы на шаг отстаем от Запада, но так как мы идем по его следам, нам удается избегать некоторых ошибок”.
“Оснащенность российских предприятий устройствами хранения данных с блочным доступом (с использованием протоколов Fibre Channel и iSCSI) в настоящее время практически находится на мировом уровне, причем это верно для всех сегментов — от массивов младшего уровня до действительно больших систем масштаба предприятия, — убежден Иван Ерехинский. — Более того, темпы внедрения новых технологий, таких как FCoE, практически не уступают мировым. Несколько хуже обстоит дело с сетевыми устройствами NAS (Network Attached Storage) и CAS (Content Addressable Storage) — степень их проникновения в России в разы ниже, чем в Европе и тем более в США. Но и здесь мы видим значительный рост. Я уверен, что в ближайшие несколько лет разница в структуре рынка систем хранения между Россией и остальным миром станет минимальной”.
О том, что ситуация на предприятиях разного масштаба складывается по-разному напомнил Ярослав Кузьмицкий: “Трудно предоставить точные цифры, но если исходить из опыта общения с представителями ряда компаний, то рисуется очень неоднородная картина. На крупных предприятиях четко прописаны регламенты и по серверам приложений, и по подсистемам хранения. Там очень высокая и хорошо структурированная оснащенность, причем оборудование, как правило, дорогое и монобрендовое: крупный бизнес не может себе позволить потерю как оперативных, так и архивных данных.
Как только мы спускаемся на ступеньку ниже, ситуация заметно ухудшается. В среднем бизнесе (компании до 500 человек) мы видим много вольностей и “полета фантазии” конкретных системных администраторов, а ограничения по бюджету на ИТ, характерные для среднего бизнеса, сказываются на качестве и количестве используемого оборудования. Причем очень часто предметом экономии становятся именно средства дополнительного резервирования. В зависимости от отношения к ИТ в конкретной компании система хранения может быть просто на уровне сегодняшних требований или явно недостаточном. Ведь ее следует рассматривать как комплексное решение, состоящее из оборудования и регулярных мер по сохранению данных. И вот тут-то выявляются прорехи.
Если взять малый бизнес, то там ситуация с системами хранения данных (СХД) подчас просто провальная. Роль сервера приложений и сервера хранения выполняет одна и та же машина. Причем, как правило, используются далеко не новые ПК-серверы, оснащенные нелицензионным ПО, что не лучшим образом сказывается на надежности всей цепочки. Системные администраторы бывают аутсорсинговые или свои, но весьма средней квалификации, а отношение к ИТ вообще и к СХД в особенности носит характер затыкания дыр. Для таких компаний характерна частая смена ИТ-персонала, неопределенность зон ответственности за данные и потеря параметров доступа, отсутствие схем ИТ-инфраструктуры компании и т. п. Практика регулярного резервирования данных может вообще отсутствовать, а если она и есть, то backup осуществляется на примитивные средства, такие как внешние накопители, включая флэшки и USB/eSATA HDD”.
На региональной неоднородности общей картины акцентирует внимание Павел Гуровский: “Общая оснащенность предприятий находится на среднем уровне, но это, что называется “средняя температура по больнице”. Ближе к центру дела обстоят лучше, дальше к регионам несколько тяжелее. У многих предприятий парк оборудования старый и нет планов по его модернизации. Даже в компаниях, для которых потеря данных приравнивается к потере бизнеса и где поэтому практикуются более серьезные подходы к хранению информации, СХД все еще не соответствуют современным требованиям”.
А что касается основных тенденций на рынке СХД, то, по мнению Екатерины Волковой, роль систем хранения в центрах обработки данных заметно изменится: “Современные СХД наделяются все более интеллектуальным функционалом, упрощающим ИТ-персоналу процесс управления информационными ресурсами. Сегодня никого больше не нужно убеждать в пользе виртуализации, большинство компаний уже виртуализировало часть своих ИТ-систем и начинают аналогичную работу в своих центрах обработки данных, тем самым постепенно готовя почву для перехода к облачным инфраструктурам. Этот факт подтверждают и статистические данные — приоритеты CIO в 2010 г. распределились следующим образом — виртуализация с 3-го места в 2009 г. переместилась на 1-е, а облачные вычисления — с 14-го на 2-е”. Отметим, что и IDC дает оптимистический прогноз относительно облачных технологий. Ее эксперты предсказывают, что к 2020 г. 15% информации “цифровой вселенной” будет создаваться, храниться и обрабатываться на облаке.
Что беспокоит
С какими наиболее сложными проблемами в области хранения данных сегодня сталкиваются российские предприятия? Чем они вызваны? Если судить по результатам опроса наших читателей, то большинство из них (58% респондентов) озабочено усложнением поиска нужных данных и увеличением времени их извлечения. Вслед за ними идут проблемы увеличения времени выполнения резервного копирования при росте объемов данных (48%), слишком длительных сроков восстановления систем и данных в случае сбоев и других инцидентов (46%) и недостаточной производительности СХД.
По мнению Екатерины Волковой, корень проблем в том, что большинство информационных систем предприятий чрезвычайно сложны в управлении, дороги, не гибки с точки зрения оперативности адаптации их под нужды бизнеса и неэффективны. Статистика говорит о том, что около 70% ИТ-бюджета компаний расходуется на поддержание ИТ-инфраструктуры в рабочем состоянии и только 30% приходится на развитие. Это серьезная проблема, мешающая бизнесу двигаться вперед.
Павел Гуровский утверждает, что основная сложность — это наличие на некоторых предприятиях “островных хранилищ”, которое затрудняет управление ресурсами и их перераспределение, мешает гибко реагировать на изменения. Источником ряда проблем является также устаревший парк СХД различных производителей. Общий недостаток мощностей для хранения усугубляется низким коэффициентом их использования.
“Недостаточно быстрый поиск нужной информации в больших массивах, управление хранением данных и минимизация стоимости хранения, соответствие законодательству (речь о персональных данных и данных, имеющих различные грифы секретности), а также модернизация подсистем хранения, связанная с переходом на новую платформу, — это основные проблемы, стоящие сегодня перед заказчиками”, — убежден Алексей Ходаков.
Первые пять шагов для решения проблем хранения данных, считает Ярослав Кузьмицкий, должны быть следующими:
- организация недорогого и при этом надежного массива хранения с кросс-платформенным доступом и возможностью масштабируемости по мере роста потребностей бизнеса в СХД;
- налаживание эффективного резервирования;
- обеспечение территориальной распределенности массива хранения и его копий: как во избежание доступа нежелательных лиц, так и для исключения потери данных при пожарах и прочих непредвиденных физических воздействиях;
- организация глобального, защищенного доступа к СХД для мобильных сотрудников;
- синхронизация баз данных, размещенных в удаленных отделениях и филиалах.
“Решение всех этих задач при использовании традиционной серверной техники требует одновременно и высокой квалификации обслуживающих кадров, и недюжинных затрат, которые не всем по карману, — отметил Ярослав Кузьмицкий. — Поэтому и возникают компромиссные “наколенные” решения, которые вроде бы и выполняют свои задачи, но об их надежности в долговременной перспективе говорить не приходится”.
По мнению Владимира Слизова, основная проблема предприятий — недостаточность бюджетов, выделяемых на СХД. Кроме того, отмечается их консервативный подход к созданию среды хранения, что связано c отсутствием стратегии развития ИТ-инфраструктуры и инфраструктуры хранения данных как ее составляющей.
“Проблемы, стоящие перед российскими предприятиями, обусловлены не только стремительным ростом объемов данных, но и всё увеличивающейся сложностью внедряемых ИТ-решений, — подчеркнул Иван Ерехинский. — Повсеместное развертывание технологий виртуализации, потребность в хранении значительного количества неструктурированных данных, растущие взаимосвязи между платформами и экспоненциальный рост сроков обязательного хранения документов в сочетании с размерами ущерба, сопровождающего потерю данных, — это, пожалуй, основные факторы, влияющие на выбор СХД”.
“Трудности наших организаций довольно типичны для всех компаний в мире — неуклонный рост объемов данных при тех же бюджетах, — соглашается Роман Ройфман. — Даже в крупных компаниях годовой прирост данных может достигать 80%. Однако простое увеличение емкости систем хранения уже не работает: необходимо менять подход — оптимизировать хранение данных. И это общая для индустрии стратегия, поддержанная, в частности, ассоциацией SNIA”.
Что делать
То, что путем экстенсивного наращивания ресурсов проблему экспоненциального роста объемов не решить, ясно сегодня большинству экспертов. Вся надежда на оптимизацию. Неиспользованных резервов для этого немало. К примеру, по оценкам IDC, лишь около четверти “цифровой вселенной” приходится на оригиналы (исходные фотоснимки, почтовые сообщения, телефонные разговоры), а остальные три четверти — это переадресованная электронная почта, резервные копии ИС и БД, растиражированные фильмы на DVD и т. д. Совершенно очевидно, что наряду со снижением уровня избыточности при хранении подобных дубликатов требуется выстраивать и оптимальную политику архивирования информации, учитывающую ее значимость, востребованность, желаемую скорость извлечения и пр.
Судя по ответам наших читателей, практика отечественных компаний в этом отношении далека от желаемого идеала. Как они решают проблему хранения постоянно растущих объемов информации? Подавляющее большинство респондентов (71%) наращивает емкость имеющихся СХД, еще 31% закупает новые более мощные системы (на один вопрос разрешалось давать несколько ответов). Лишь 35% применяют технологии, повышающие эффективность использования систем хранения, и 5% компенсируют недостающие емкости за счет использования облачных сервисов.
Так какие же технологии позволяют максимально оптимизировать хранение данных с точки зрения снижения стоимости и повышений эффективности использования имеющихся емкостей? “В первую очередь технологии, связанные с оптимизацией управления, оптимизацией использования дискового пространства, оптимизацией процессов резервного копирования и восстановления, — убежден Павел Гуровский. — На предприятиях, и эту ситуацию, возможно, несколько усугубил кризис, до сих пор существуют ресурсы хранения, никак не связанные между собой, и все их желательно было бы использовать. Плюс к этому существующие ресурсы эксплуатируются неэффективно: некоторые простаивают, некоторые перегружены. Есть ли общий принцип выхода из подобного рода ситуаций? HP считает, что он реализован в “Конвергентной инфраструктуре ИТ”. Ее основу составляют компоненты, каждый из которых может быть использован в разных ипостасях, и при этом все они, взаимодействуя между собой, могут быть оптимизированы, виртуализованы, масштабируемы”.
“Портфель новых технологий, позволяющий оптимизировать хранение данных достаточно широк: это и решение FAST (Fully Automated Storage Tiering) для полной автоматизации распределения данных по уровням хранения в зависимости от их типа, и флэш-диски, и технологии динамического выделения ресурсов по требованию (thin provisioning), и решения для резервного копирования данных с применением дедупликации (на целевом устройстве или на источнике), и виртуализация хранения, и, конечно, технологии для облачных вычислений”, — дополняет Екатерина Волкова. Наряду c использованием многоуровневых систем хранения, Алексей Ходаков предлагает попробовать перейти на аутсорсинг СХД или воспользоваться облачными сервисами.
По мнению Ярослава Кузьмицкого, явным фаворитом рынка в ближайшее время будут технологии сетевого хранения NAS, которые сильно шагнули вперед и сегодня, к примеру, сетевые накопители способны обеспечить при вложениях менее 40 тыс. руб. отказоустойчивый массив хранения емкостью до 16 Тб. Если сравнивать с такими же решениями на базе ПК-серверов, то все будет как минимум вдвое дороже, даже если просто сложить стоимость софта, “железа” и услуг специалиста. Что касается повышения эффективности использования имеющихся емкостей, то тут ответ также очевиден: вполне приемлемый результат обеспечивает комбинация регулярного резервирования со сжатием и удаление из рабочего поля массива «палеонтологических отложений»”.
“Сейчас в развитии СХД переломный момент: происходит отказ от кэш-центричных систем хранения данных и переход к grid-архитектуре, виртуализированным массивам, — полагает Владимир Слизов. — Кроме того, весьма перспективна виртуализация, которая позволяет легко выстроить концепцию обслуживания различных уровней инфраструктуры. Например, используя концепцию IaaS, мы можем выбрать пять уровней обслуживания в соответствии с ценностью данных и потребностью в производительности и через виртуализационный слой легко распределить ресурсы в соответствии с необходимым уровнем сервиса”.
“Список технологий оптимизации хранения довольно широк — от дедупликации и компрессии in-line до создания согласованных с приложениями копий наборов данных с минимальным потреблением дискового пространства”, — отметил Роман Ройфман. По мнению Ивана Ерехинского, большое значение также имеют различные технологии, позволяющие сократить расходы на хранение множества копий данных, такие как дедупликация и single-instancing. И конечно, важнейшую роль играет техническая реализация систем: энергопотребление, занимаемое физическое пространство, тепловыделение. Именно системы, объединяющие всё перечисленное в едином решении, позволяют достичь максимальной отдачи от вложенных в хранение средств.
Среди участников нашего опроса 49% для оптимизации применяют технологии многоуровневого хранения, по 35% — виртуализацию и твердотельные SSD-диски. Гораздо меньше предприятий используют инструменты дедупликации (17%) и вообще никто не упомянул о thin provisioning.
Что получим
Какие же новые преимущества обеспечивают современные технологии оптимизации хранения данных? “Преимущества очевидны, — уверена Екатерина Волкова. — Это сокращение капитальных и операционных расходов, энергопотребления, площадей, повышение эффективности работы систем, упрощение управления ими, возможность оперативно адаптировать ИТ к динамично меняющимся требованиям бизнеса и т. д.”.
“Из практических достоинств можно отметить следующие, — дополнил ее Павел Гуровский. — Это сужение “окна” резервного копирования, возможность хранить больше данных на тех же носителях. Для решений по непрерывности доступа к данным — это возможность работы системы хранения в режиме “высокой доступности” по вполне приемлемой цене. Для решений по файловому доступу — это возможность использовать не только внутренние диски хранилища, но и диски внешних СХД”.
О том, что ограниченность финансирования — один из главных факторов, влияющих на ИТ-стратегию отечественных заказчиков, свидетельствуют и результаты нашего опроса: 70% респондентов отметили, что применение наиболее эффективных технологий хранения сдерживается на их предприятиях ограниченным ИТ-бюджетом. Немалое число (22%) жалуется на трудность выбора наиболее эффективного решения из множества предложений. И у 19% сдерживающим фактором является недостаточная квалификация ИТ-персонала.
Предъявляют ли современные СХД-решения какие-то специфические требования к инфраструктуре предприятия? “Требование к инфраструктуре одно и самое простое — она должна быть”, — уверен Павел Гуровский. У Алексея Ходакова имеется важное дополнение: она должна строиться на базе стандартизированных решений, что позволит впоследствии расширять и модернизировать систему без значительных потрясений. Кроме того, при построении инфраструктуры предприятию очень желательно иметь четкий план ее развития на ближайшие 3–5 лет. “ИТ-инфраструктура начинается с личной дисциплины кадров, — напомнил Ярослав Кузьмицкий. — На предприятии должна быть привита культура системного резервирования данных”. А Иван Ерехинский, отмечая значительное разнообразие используемых на предприятиях ИТ-инфраструктур, полагает, что это, напротив, требует от самих современных систем хранения гибкости и возможности адаптироваться для выполнения любых задач.
Каковы рекомендации экспертов по выбору стратегии оптимизации хранения данных? “В любом случае, все должно сводиться к минимизации стоимости решения, эффективно решающего бизнес-задачу, — убежден Алексей Ходаков. — Я имею в виду совокупную стоимость владения, а не первоначальная цену покупки”.
“Должны быть четко определены основные файлообменные массивы, архивные массивы и массивы баз данных. Не стоит класть все яйца в одну корзину, — советует Ярослав Кузьмицкий. — Чрезвычайно полезно иметь резервные массивы, которые не только выведены на внешнее устройство хранения, но и территориально удалены, допустим, располагаются на другом этаже или даже лучше в другом здании. Для малого и среднего бизнеса очень актуальна распределенная модель хранения, противоположная гиперцентрализованной, используемой на крупных предприятиях. Распределенная модель предлагает задействовать ряд устройств NAS, которые обслуживают нужды конкретных отделов и по расписанию резервируются на выделенный сервер. Даже в случае “выпадения” одного из NAS-устройств будет временно прервана работа всего лишь одного отдела, а введение в эксплуатацию нового NAS займет не более нескольких часов”.
“Решаясь на оптимизацию, нужно начинать с классификации данных и того, что мы имеем: какие данные критичны, какие нет, какие требуют длительного хранения, какие нет, какие из них можно просто удалить, — напомнил Владимир Слизов. — После этого следует выстроить модель уровней обслуживания данных согласно проведенной классификации. Затем принимается решение, определяющее тот набор данных, который мы можем позволить потерять в случае отказа, и то время, которое в таких случаях необходимо на восстановление”.
По мнению Романа Ройфмана, стратегия оптимизации хранения данных должна быть принята еще на первых этапах выбора и создания конфигурации СХД. Сами по себе отдельные технологии, даже такие модные, как дедупликация, не дадут максимального эффекта.
И наконец, трудно не согласиться с Иваном Ерехинским: “Планируя развитие инфраструктуры хранения, исходите в первую очередь из стоящих перед предприятием бизнес-целей, и лишь потом выбирайте те технологии, которые позволят достичь этих целей наиболее эффективным образом”.
Наши эксперты
Екатерина Волкова, директор по маркетингу, представительство ЕМС в России и СНГ
Павел Гуровский, менеджер по корпоративным системам хранения данных, представительство HP в России
Иван Ерехинский, руководитель отдела системных консультантов, HDS
Ярослав Кузьмицкий, директор по развитию бизнеса, InPrice Group
Роман Ройфман, ведущий архитектор решений, NetApp
Владимир Слизов, руководитель группы продвижения систем хранения данных, представительство IBM в России и СНГ
Алексей Ходаков, менеджер по продажам систем хранения данных, Oracle Hardware