Искусственный интеллект — пожалуй, самая требовательная к данным технология из всех существующих — стремительно входит в мейнстрим. Объем данных, которые ИИ приходится обрабатывать, чтобы создавать контент или отвечать на запросы, просто огромен, он сродни океану, пишет на портале Datanami Джей Би Бейкер, вице-президент по маркетингу компании ScaleFlux.
Когда руководители систем ввода-вывода борются за оптимизацию и управление объемом данных, которые необходимо обрабатывать, особое внимание уделяется тому, как сделать хранение данных более эффективным. Чтобы сбалансировать компромиссы между ресурсами инфраструктуры хранения и вычислительной и сетевой инфраструктур, потребуются все инструменты и трюки, которые есть в рукаве у науки о данных, включая старый знакомый фаворит... сжатие данных.
Сжатие данных обычно является одним из первых инструментов управления данными, о котором почти все узнают вскоре после того, как заканчивается емкость диска их первого компьютера (привет, WinZip, старый друг!). Однако такое раннее знакомство со сжатием данных не гарантирует, что его ценность для предприятия не ставится под сомнение и оценивается по достоинству. В конце концов, при сжатии производительность обменивается на эффективность... все это знают. Но справедливо ли это представление сегодня?
По мере того как мы работаем над созданием более устойчивых ИТ, нам необходимо пересмотреть некоторые из наших представлений, включая сжатие данных. Реальность такова, что путь каждой организации индивидуален. Внедрение сжатия данных — это не путь из точки А в точку Б. Он больше похож на описанный в книгах «Выбери свое собственное приключение». В них читатель является главным героем. Каждые несколько страниц вам предлагают сделать выбор и перейти на другую страницу, основываясь на вашем выборе, чтобы прочитать следующую часть истории. И у вас есть несколько путей. Итак, давайте немного проясним ситуацию, развеяв три наиболее распространенных мифа о сжатии данных и соответствующих стратегиях.
Миф № 1. Существует только один способ сжатия данных
Предприятия часто считают, что существует только один способ сжатия данных. Они могут думать, что сжатие данных выполняется исключительно программно на центральном процессоре. Поскольку обработку выполняет CPU, существует риск снижения производительности под нагрузкой, что делает этот способ неприемлемым для критически важных рабочих нагрузок.
Конвейер данных в вашей организации уникален и соответствует вашим требованиям, а архитектура потоков данных предлагает множество вариантов. Сжатие данных может осуществляться различными способами, и результаты выбора способа и места сжатия данных могут привести к преимуществам, которые каскадом распространятся на всю архитектуру. Например, в технологии флэш-памяти есть нереализованный потенциал, который в настоящее время ограничен эффектом усиления записи (write-amplification). Выполняя сжатие непосредственно на SSD в аппаратном режиме, можно в несколько раз увеличить согласованность задержек, емкость и долговечность, разгрузив при этом CPU и GPU.
Совет: заранее подумайте о сжатии данных и оцените все рабочие нагрузки, которые могут выиграть от этого с точки зрения производительности и срока службы. Существуют подходы к сжатию данных, которые могут подойти для ваших уникальных потребностей.
Миф № 2. Сжатие данных не может решить проблемы бизнеса
Как снизить общую стоимость владения инфраструктурой? Как увеличить объем хранения и производительность при одновременном снижении энергопотребления? Как сделать дата-центр более устойчивым? Когда организации пытаются решить эти проблемы, сжатие данных может не сразу прийти на ум в качестве ответа.
Сжатию данных не уделяется достаточное внимание, потому что организации просто не думают о нем как о средстве решения проблем. Это становится ясно, когда вы просматриваете тенденции поиска, связанные с данными, и видите, что «сжатие корпоративных данных» находится на порядок ниже в результатах, чем что-то вроде «управление данными».
Это печально, потому что сжатие данных — простая и фундаментальная технология, которая может существенно решить эти проблемы, если будет реализована современным способом. Почти все данные в той или иной степени поддаются сжатию; даже небольшой коэффициент сжатия может значительно облегчить бремя бизнеса.
Совет: при правильном подходе сжатие данных может решить многие проблемы бизнеса. Для получения максимального эффекта от сжатия лучше всего использовать аппаратные средства, расположенные в непосредственной близости от места хранения данных. Заранее учитывайте сжатие данных при проектировании конвейера данных.
Миф № 3. Сжатие приводит к снижению производительности
Вопреки устоявшемуся мнению, сжатие позволяет избежать потерь производительности, если оно выполняется аппаратно. Тогда оно действует как «ускоритель» для приложений, убирая узкие места в общей системе. Сжатие данных позволяет оптимизировать работу флэш-памяти, если сжимать данные при записи и распаковывать их при чтении без каких-либо действий со стороны хоста.
Примеры положительного влияния сжатия данных на производительность включают:
- Считывание и запись меньшего количества битов позволяет повысить производительность устойчивой случайной записи, сократить хвостовую задержку (tail latency) чтения в смешанных рабочих нагрузках и уменьшить усиление записи. Это повышает долговечность и полезную емкость, особенно в средах с высокой интенсивностью операций ввода-вывода.
- Возможность использовать даже минимальную степень сжатия данных может привести к значительному увеличению производительности и долговечности.
- Если данные сильно сжимаются, а рабочие нагрузки имеют высокий уровень смешанного ввода-вывода, это позволяет расширить емкость за физические пределы, увеличить плотность хранения и снизить затраты на хранение данных, при этом значительно увеличив производительность.
Совет: вдумчиво отнеситесь к технологии и ее применению. Посмотрите, как сжатие может продлить срок службы оборудования и снизить энергопотребление.
Преимущества сжатия данных в вашей организации
Сжатие данных — мощный инструмент, вы это увидите, как только развеете мифы. Не существует единого способа сжатия данных. Оно может решить множество бизнес-проблем и увеличить производительность. Подумайте, как сжатие данных может помочь вам создать более устойчивый дата-центр — и получить все преимущества, которые с ним связаны.