В свое время в одном из материалов, посвященных системам хранения, мы, ссылаясь на компанию IBM, приводили весьма показательные данные. Согласно им за последние 10 лет производительность CPU возросла в
По этим причинам системы флэш-памяти, ориентированные на корпоративный сектор, в настоящее время приковывают к себе огромное внимание. Сама технология появилась на рынке не вчера, и в этом смысле ее уже вряд ли можно назвать новейшей. Но в попытке компенсировать накопившийся за длительное время дисбаланс в производительности разных компонентов ИТ-систем ее совершенствование активно идет по сей день. И происходит это путем создания специализированных систем хранения, а также на уровне адаптации данного вида памяти к ИТ-архитектуре в целом и выработки определенных best practice ее использования.
На фоне ландшафта корпоративной автоматизации
Прежде чем говорить об указанных путях совершенствования, необходимо начать с базовых технических параметров, определяющих флэш-память (пока безотносительно к основанным на ней системам хранения информации) как наиболее перспективную. Можно выделить сразу несколько характеристик:
- производительность операций ввода/вывода в секунду (In/Out operations per second — IOPS). Для устройств на основе флэш-памяти этот параметр обычно составляет десятки или сотни микросекунд, в то время как для HDD это единицы или десятки миллисекунд;
- параметр времени задержки считывания/записи информации (latency), также определяемый в милли- и микросекундах;
- интенсивность потока последовательного считывания блоков данных (throughput). Обычно он измеряется в МБ/с или ГБ/с;
- заметно более высокая по сравнению с HDD энергоэффективность и возможность за счет применения флэш-памяти обеспечить более экономичное использование пространства в серверной стойке и ЦОДе в целом.
Имея в виду тот факт, что флэш-память в обозримой перспективе может стать весьма популярной или даже доминирующей на рынке устройств хранения, рассмотрим эти характеристики более подробно в контексте более общих архитектурных решений и лучших практик автоматизации, вырабатываемых для корпоративного рынка.
HDD, как правило, способен выполнить сотни операций ввода/вывода в секунду, в то время как с помощью SSD можно достигать тысяч и десятков тысяч IOPS. Некоторые пакетные задания, для исполнения которых корпоративными регламентами, как правило, предусматриваются специальные технологические «окна», могут требовать десятков миллионов подобных операций, и если даже в HDD-массивах, состоящих из нескольких десятков дисков, организовывать параллельный ввод/вывод по каждому диску, окна, отводимые под пакетные задания, должны будут составлять не менее нескольких часов.
Некоторое время назад такие временные периоды даже в очень зависимых от ИТ отраслях могли считаться вполне приемлемыми. Однако сейчас положение меняется. Так, в банковской индустрии существенно усиливается роль регуляторных требований, некоторые из которых прямо относятся к резервированию и обновлению различной информации, а следовательно, к интенсивности операций I/O. Определенные действия со счетами клиентов банкам теперь необходимо производить строго в определенные периоды времени (а не в произвольно выбираемые ими «окна») по нескольку раз в день. Кроме того, количество часов в сутки, в течение которых банк активно производит «полезные» операции, будь то обслуживание клиентов или торговля ценными бумагами, тоже имеет тенденцию к увеличению, и соответственно сокращаются временные резервы для технологических окон. Выход из этой ситуации найти, конечно, можно, формально сократив число операций ввода/вывода при неизменном количестве сохраняемой информации, или же за счет большей интенсивности параллельных вычислений. Однако эти методы в любом случае потребуют создания нового прикладного ПО, а кроме того, параллелизм всегда будет ограничен аппаратными возможностями. Всего этого можно избежать, применяя хранилища на основе SSD.
Время задержки считывания/записи устройств флэш-памяти по сути является ключевым параметром, определяющим преимущество флэш-памяти в сравнении с ее ближайшим конкурентом HDD. Оно определяет фактическую задержку в передаче информации перед началом процедуры ввода/вывода. С практической точки зрения данный параметр невозможно рассматривать вне контекста аналогичных характеристик остальных компонентов инфраструктуры. В реальной ситуации доставки корпоративных данных все соответствующие характеристики арифметически суммируются, а за некую базовую вычислительную конфигурацию, как правило, принимается использование ЦОДов, где присутствуют все данные компоненты. Задержки, связанные с использованием сетей (в среднем от нескольких до нескольких десятков микроскекунд, сегодня явно не являются узким местом для обеспечения необходимых характеристик производительности, и фокус соответственно смещается на инфраструктуру самого дата-центра. При этом мощность CPU, а следовательно, и задержки выполнения самих вычислений в подавляющем количестве практических сценариев также не могут рассматриваться в качестве «бутылочного горлышка». Таким образом, остаются системы хранения, которые в масштабах ЦОДов часто объединяются в специализированные сети хранилищ (storage area network — SAN). Сеть SAN по сути тоже представляет собой отдельный компонент со своим независимым параметром latency. На сегодня своего рода стандартом для связи отдельных устройств в масштабах SAN можно считать спецификацию Fibre Channel (FC), для которой рассматриваемый нами параметр очень невелик и составляет всего несколько микросекунд.
На фоне этой картины становится ясно, что запоминающие устройства на основе флэш отличаются от HDD как количественно, так и качественно. Обладая параметром latency, в среднем меньшим на два порядка, они все равно по уровню задержки срабатывания не обгоняют иные компоненты ИТ-инфраструткуры, а скорее хорошо вписываются в структуру их совместной эксплуатации.
Что касается прикладного программного обеспечения, то одним из наиболее чувствительных к задержке чтения/записи принято считать системы реального времени и аналитические приложения. О том, что Business Intelligence сам по себе является очень большим классом ИТ-систем со своей внутренней классификацией и что его роль в современном бизнесе возрастает буквально с каждым днем, говорить просто не имеет смысла. Но даже для не менее популярных в бизнесе транзакционных систем нередко встречаются практические ситуации, требующие предельно малых времен задержки. Так, в случае электронной торговли некоторыми видами обязательств в банковском бизнесе «окно» благоприятных возможностей для совершения сделки может возникнуть неожиданно и при этом, что называется, на одно мгновение. За это время надо не только принять решение о целесообразности ее совершения с помощью средств бизнес-аналитики, но и осуществить ее посредством транзакционного ПО. Показательны также данные лидера электронной коммерции Amazon.com, согласно которым увеличение параметра задержки на 100 мс означает падение продаж на 1 процент.
Важность интенсивности потока последовательного считывания определяется прежде всего тем, что в современных задачах автоматизации бизнеса все большую долю занимают приложения, не связанные с выполнением классических транзакций. Одним из ярких примеров типичного профиля нагрузки в сегодняшней бизнес-среде являются некоторые операции с программным хранилищем данных (warehouse) или работа с видеоконтентом.
Оценку стоимости флэш-устройств также не принято проводить изолированно и с явным учетом их размещения в дата-центре как и в случае с оценкой параметра latency. Если цена самого устройства может быть и выше его аналога, построенного на традиционной технологии HDD, учет OPEX-составляющей в виде более низкого энергопотребления, затрат на охлаждение, значительно более высокого потенциала по плотности размещения данного типа устройств (не следует забывать о немалой стоимости квадратного метра ЦОДов), а также более низких расходов на обслуживающий персонал может радикально изменить стоимостные расчеты в пользу флэш.
Калейдоскоп устройств
Та или иная технология всегда проникает на рынок в виде конкретных устройств различного формата, и флэш-память в этом смысле не является исключением. Все начиналось с обычных SSD-дисков, обменивающихся данными с вычислительной средой по стандартам SATA, SAS или iSCSI, доставшимся им «в наследство» от HDD. В каких-то сценариях автоматизации они продолжают успешно использоваться подобным образом и сейчас, хотя в последнее время появилась и новая спецификация NVM (Nonvolatile Memory Express), специально разработанная для твердотельных дисков. Все более широкое применение сейчас находят флэш-накопители, рассчитанные на работу с шиной PCI Express.
С ростом разнообразия форматов устройств постепенно возникают и новые ниши для флэш-памяти в корпоративном сегменте. Только что упомянутые устройства хранения на базе PCI Express во многих ситуациях используются в качестве кэширующих, особенно в тех случаях, когда доступ к первичным системам хранения (тоже не в последнюю очередь строящимся на базе флэш-технологии) разделяется многими серверами прикладных систем, каждая из которых обладает высокими требованиями к скорости обмена информацией. Рядом архитекторов корпоративных информационных систем флэш-память сейчас видится в том числе и как альтернатива классическим платам оперативной памяти стандарта DRAM. Конечно, флэш-устройства в этом случае будут работать медленнее, но при этом они могут обладать большей емкостью в расчете на одну
Некоторые специалисты вполне серьезно обсуждают эффективность применения флэш-накопителей в качестве вторичной памяти (secondary memory), то есть в той нише, которую еще не так давно занимали даже не HDD, а магнитные ленты. Сегодня ведущие вендоры могут обеспечить заказчика едва ли не петабайтами хранимых на флэш-устройствах данных, используя при этом стоечный формат от 2U до 3U. Ну и, конечно, далеко не последнюю роль в выборе устройств secondary memory играла и продолжает играть стоимость.
Наконец, говоря о новых форматах систем хранения, необходимо сказать о массивах сториджей (storage arrays), целиком ориентированных на корпоративных рынок, на использование в дата-центрах и инфраструктуру вычислений с большим количеством данных. Поначалу все начиналось с аналогичных устройств, заполненных HDD-дисками, в которые начали добавлять SDD-накопители, и тогда они зачатую создавались самими заказчиками по принципу «сделай сам» (Do It Yourself — DIY). Контроллеры данных устройств во многом оставалась рассчитанными на использование жестких дисков, и получить преимущества от подобного апгрейда в полной мере не удавалось.
При этом массивы смешанного формата создавались и ИТ-вендорами. Комбинируя в них диски HDD- и SSD-типов (в том числе на базе PCI Express) и перераспределяя нагрузку внутри массива, производителям удалось накопить немалый опыт оптимизации использования флэш-устройств в корпоративных вычислениях. Были созданы даже некоторые подобные массивы, ориентированные строго под специализированные вычисления. В настоящий же момент наиболее мощным и перспективным решением на базе флэш-памяти для корпоративного рынка являются массивы, ориентированные исключительно на данную технологию хранения (all-flash array). Их характеристики связаны не только с вышеназванными физическими параметрами флэш-памяти, но в значительной мере определяются архитектурой самих устройств, которая, в свою очередь, диктуется потребностями бизнеса.
Семейство FlashSystem от IBM
В качестве характерного примера значимости всех перечисленных выше тезисов можно привести системы хранения семейства FlashSystem компании IBM, полностью построенные на флэш-памяти, но не являющиеся при этом классическим массивом, состоящим из наборов SSD-дисков.
В отношении ключевого параметра задержки ввода/вывода системы семейства FlashSystem являются лидирующими на рынке. Построенные на уникальной концепции IBM MicroLatency, они позволяют обеспечить параметр задержки ввода/вывода в диапазоне от нескольких десятков до пары сотен микросекунд. Даже при наличии задержек, дополнительно вносимых в процесс вычислений современными серверами и сетевым оборудованием, величина суммарной задержки не должна превышать одной миллисекунды, что обеспечивает производительность прикладных систем на уровне 20 тыс. транзакций в секунду и более.
Устройства IBM FlashSystem также обладают одним из самых лучших параметров по плотности размещения, обеспечивая возможность «упаковки» десятков терабайт всего лишь в несколько юнитов стандартной ЦОДовской стойки. Предоставляя возможность производить больше миллиона IOPS в секунду, они потребляют не более 600 ватт электроэнергии, что делает их использование крайне эффективным.
Наконец, возможность горячей замены всех компонентов устройства (флэш-модулей, вентиляторов, батарей и пр.) существенно снижает стоимость их обслуживания и соответственно OPEX-затраты, связанные с их эксплуатацией.
Кирилл Гудков, IBM Systems Hardware Storage Technical Leader, RCIS:
«Компания IBM с момента приобретения компании TMS ведет постоянное совершенствование СХД, использующих Flash технологии, в соответствии с требованиями заказчиков и индустрии, делая эти технологии более производительными, надежными и доступными. Компания IBM предлагает следующий модельный ряд Flash СХД: IBM F900 - устройство, которое может использоваться как отдельный элемент хранения или как ускоритель для существующей у клиента среды хранения данных; IBM V9000 - полноценная СХД, использующая функционал IBM SVC; IBM A9000 - полноценная СХД, наследующая технологии, используемые в IBM XIV. Модельный ряд СХД IBM постоянно модернизируется для удовлетворения самых требовательных задач наших клиентов».
Еще раз подчеркнем, что флэш-массивы являются «рукотворными» объектами, свойства которых в значительной степени определяются их конструкторами, что позволяет оснастить их рядом важных характеристик, не присущих непосредственно флэш-памяти. Возвращаясь к IBM FlashSystem, среди таковых можно отметить следующие.
- Возможность осуществлять очень важные связанные с обработкой больших массивов корпоративной информации функции — дедупликацию и сжатие данных. Если посмотреть на эти функцйии не с технической стороны, речь идет о том же сокращении OPEX-составляющей их эксплуатации.
- Системы FlashSystem прекрасно приспособлены к масштабированию, причем по обоим популярным в современной корпоративной автоматизации правилам — scale-up и scale-out. В условиях, когда облачные вычисления в обозримой перспективе могут стать доминирующей моделью, эту характеристику просто невозможно переоценить.
- За счет тесной интеграции с ПО управления данными и файлами IBM Spectrum Scale и системой объектного хранения информации OpenStack Swift устройства FlashSystem становятся эффективным инструментом для хранения не только этих бизнес-транзакций, но и неструктурированной информации. То, что роль такого типа данных в современном бизнесе становится куда более весомой, чем ранее, сегодня является общеизвестным фактом.