С внедрением твердотельных NVMe-накопителей (SSD) мы обнаружили, что работаем без адекватной защиты данных, и нам приходится идти на слишком много компромиссов, чтобы решить эту проблему. Во времена жестких дисков (HDD) необходимую защиту обеспечивали технологии RAID. Но они просто не были рассчитаны на современные сверхбыстрые SSD, пишет на портале Datanami Баладжи Рамануджа, директор по управлению продуктами компании Pliops.
Учитывая это, неудивительно, что неисправности SSD в серверах, на которых размещаются требовательные к данным приложения, часто становятся причиной значительных простоев или проблем с качеством обслуживания (QoS) в дата-центрах. Это делает поддержание высокопроизводительных и надежных систем хранения данных на базе SSD критически важной задачей. Даже при наличии RAID-массивов и схем репликации сбои SSD приводят к накладным расходам на восстановление и ремонт. Фактически, все традиционные варианты RAID-массивов связаны с большими компромиссами в плане защиты, производительности или стоимости. И ситуация только ухудшается с внедрением SSD большой емкости.
Системы могут быть защищены от простоев, связанных с SSD, без этих компромиссов с помощью нового подхода, который заимствует уроки, полученные при использовании графических процессоров (GPU) для преодоления неэффективности центральных процессоров (CPU) и повышения производительности.
Защита сводится к производительности
Интенсивные рабочие нагрузки, поддерживающие базы данных и аналитические приложения, требуют все больше вычислительных ресурсов и ресурсов хранения NVMe SSD. Хотя производительность CPU растет, это происходит недостаточно быстро, особенно там, где это критически важно. Добавление дополнительной инфраструктуры часто оказывается нерентабельным и сложным в управлении. В результате организации обращаются к решениям, которые освобождают CPU от задач хранения данных, требующих больших вычислительных затрат.
Для решения проблем производительности и эффективности управления хранением данных, которые раньше решались путем добавления дополнительных CPU, в архитектурах дата-центров появился новый класс процессоров — процессоров данных (DP). Эти процессоры позволяют преодолеть ограничения, связанные с использованием технологий RAID при развертывании SSD, что положило начало возрождению RAID. DP могут оптимизировать и формировать данные для защиты в стиле RAID 5, предоставляя архитекторам инфраструктуры и баз данных решение, обеспечивающее значительную пропускную способность, быстрое восстановление, повышенную долговечность SSD и возможности расширения емкости.
Современные дата-центры одновременно поддерживают онпремис и в публичных облаках множество разнообразных рабочих нагрузок, включая базы данных, аналитику и другие приложения, которым необходим быстрый и непрерывный доступ к данным. Именно поэтому системные архитекторы должны разрабатывать и масштабировать решения, которые отвечают целям уровня обслуживания (SLO) и позволяют избежать перерывов в обслуживании, которые могут затронуть многих пользователей. Растущие требования дата-центров делают решения на базе DP спасательным кругом для удовлетворения этих ожиданий.
Проблемы использования RAID с SSD
Ежегодно дата-центры развертывают SSD суммарной емкостью в сотни экзабайт. Сложно поддерживать работоспособность баз данных, приложений и сервисов, когда каждый накопитель создает риск простоя. И хотя устранение их неисправностей и отказов крайне важно, хранилище должно обеспечивать одновременно высокий уровень производительности, надежности и емкости. Проблемы, присущие программным RAID 0 (SWR0), программным RAID 10 (SWR10) и аппаратным RAID 5 (HWR5), кажутся неразрешимыми при использовании SSD (см. табл. 1).
Таблица 1. Сравнение программных и аппаратных RAID-массивов
Архитектурные потребности |
Программный RAID 0 |
Программный RAID 10 |
Аппаратный RAID 5 |
---|---|---|---|
Пропускная способность |
Выше за счет чередования данных |
Ниже из-за зеркалирования данных |
Ниже из-за RMW для четности |
Быстрое восстановление |
Не применимо (нет защиты данных) |
Более длительное время, восстанавливается весь диск |
Более длительное время, восстанавливается весь диск |
Долговечность SSD |
Определяется сроком службы SSD |
Определяется сроком службы SSD |
Определяется сроком службы SSD |
Расширение емкости |
Используется CPU для сжатия |
Используется CPU для сжатия |
Используется CPU для сжатия |
Существует ли оптимальное решение для SSD RAID?
Такое решение для SSD RAID может быть заимствовано из опыта добавления в серверы GPU для преодоления ограничений CPU. Эта простая модернизация позволяет реализовывать такие современные инновации, как искусственный интеллект, и новые приложения, такие как самоуправляемые автомобили, роботизированное производство, распознавание лиц, кибербезопасность и выявление мошенничества. Ни одно из этих достижений не было бы реализовано без GPU, поскольку использование только CPU экономически нецелесообразно.
Новые процессоры данных оптимизируют функции, связанные с хранением данных, для современной энергонезависимой памяти (например, высокопроизводительной SCM-памяти и высокоемкой флэш-памяти 3D NAND). Продолжение перехода архитектуры вычислительных систем от CPU для всех рабочих нагрузок к GPU, CPU и DP для различных рабочих нагрузок дает замечательные результаты. Это включает устранение узких мест в производительности, связанных с хранением данных, чтобы получить максимальную отдачу от инвестиций в SSD.
Заменив набор SSD, использующий традиционный программный или аппаратный RAID, на меньшее количество SSD с помощью RAID 5 на базе процессора данных (DPR5), организации могут получить более высокую производительность, ускоренное восстановление, повышенную долговечность SSD и более высокий уровень использования емкости (см. табл. 2). Эти преимущества приводят к ощутимым экономическим выгодам для сред с приложениями, интенсивно использующими данные.
Таблица 2. Преимущества RAID 5 на базе процессора данных
Потребности приложений |
RAID 5 на базе процессора данных |
---|---|
Пропускная способность |
Выше из-за передачи данных небольшими блоками |
Быстрое восстановление |
Короче благодаря восстановлению только пользовательских данных |
Повышенная долговечность SSD |
Перевод всей случайной записи в последовательную |
Расширение емкости |
Встроенное сжатие, формирование данных и более высокая заполняемость диска |
RAID на базе процессора данных: как это работает
Пропускная способность. Алгоритмы RAID 5 снижают производительность записи, особенно при небольших случайных записях. При изменении небольших объемов данных обновление четности требует операции RMW («чтение-модификация-запись»), которая может сильно повлиять на производительность записи. Преобразуя все случайные записи в последовательные, DPR5 устраняет эту проблему, увеличивая производительность до 12 раз по сравнению с HWR5.
Быстрое восстановление. Если в традиционном массиве HWR5 выходит из строя диск, данные восстанавливаются из данных четности на оставшихся дисках. Во время восстановления существует компромисс между активностью ввода-вывода хоста и скоростью восстановления. Производительность ввода-вывода хоста значительно снижается, когда массив восстанавливается, что влияет на QoS. При использовании решения DPR5 с аппаратным ускорением производительность восстановления может быть увеличена в 23 раза, а продолжительность совращена в 5 раз. Это дает возможность использовать SSD большой емкости, чтобы поспевать за ростом данных и не беспокоиться о темпах этого роста.
Повышенная долговечность SSD. Твердотельные накопители имеют ограниченный срок службы, который измеряется объемом данных, которые можно записать и стереть до того, как устройство износится. По мере того как отрасль переходит от SSD с трехуровневыми ячейками (TLC) к SSD с четырехуровневыми ячейками (QLC) и далее, уровень долговечности снижается. Решения DPR5 позволяют формировать данные для оптимального размещения на SSD, устраняя избыточные процедуры записи и чтения и продлевая срок службы SSD до 7 раз.
Расширение емкости. Решения DPR5 обеспечивают чистое увеличение емкости хранения, в то время как традиционные программные и аппаратные RAID-массивы ее уменьшают. Встроенная функция сжатия данных, более высокая эффективность RAID и практически полное использование накопителей позволяют увеличить полезную емкость до 6 раз.
Куда двигаться дальше?
Нет сомнений, что современные рабочие нагрузки будут оптимизированы с помощью сочетания CPU, GPU и DP. Использование DP для хранения данных помогает организациям преодолеть присущие RAID ограничения и способствует повышению эффективности и масштабированию для будущего роста рабочих нагрузок.
Высокое качество обслуживания жизненно важно для рабочих нагрузок дата-центров, независимо от того, где они выполняются — онпремис или в облаке. Обеспечить его позволяет уникальная способность решений на базе DP поддерживать стабильную производительность при нормальной работе, отказе накопителя и его восстановлении. Эта возможность значительно упрощает проектирование дата-центров для архитекторов, которые должны ориентироваться на оптимальный доход и прибыльность бизнеса, балансируя капитальные затраты (CAPEX), операционные затраты (OPEX) и соглашения об уровне обслуживания (SLA).
Проблемы с использованием традиционных RAID для SSD будут усугубляться, особенно по мере увеличения емкости и производительности SSD, поэтому сейчас самое подходящее время попробовать DP для оптимизации хранения. Добавить плату DP в сервер очень просто (достаточно подключить карту PCI Express). При этом не потребуется вносить изменения в гипервизоры, операционные системы, базы данных и приложения. Как только вы это сделаете, вы в полной мере ощутите производительность, емкость и экономические преимущества, которые обещают SDD.