Сервисы данных подразумевают управление данными на протяжении всего их жизненного цикла. Особенности подхода, основанного на предоставлении сервисов данных, обсуждает на портале ITPro Today Кришна Субраманиан, операционный директор и президент компании Komprise.
Управление технологиями хранения данных всегда было тяжелой нагрузкой для ИТ-команд. Поскольку все данные создаются и хранятся в стенах организации и зачастую размещаются на нескольких устройствах хранения, иногда от разных производителей, исторически сложилось так, что ИТ-менеджер, отвечающий за хранение данных, является специалистом по аппаратному обеспечению. Основное внимание им уделяется обеспечению работоспособности и установке устройств, управлению обновлениями, закупкам и интеграциям.
Однако сегодня мир хранения данных существенно меняется:
- По прогнозам Gartner, к 2026 г. объем неструктурированных данных в локальных, периферийных и публичных облачных хранилищах крупных предприятий увеличится в три раза по сравнению с 2023 г.
- Гибридное облако и периферийные вычисления стали преобладающими моделями для ИТ-нагрузок, что выводит хранение данных за пределы корпоративного дата-центра.
- Теневые ИТ, появившиеся благодаря облаку, усложняют ситуацию: сколько данных принадлежит организации и где они хранятся?
- Наконец, ИТ-руководители осознают необходимость эффективного хранения нужных наборов данных во все более гибридных, мультиоблачных петабайтных хранилищах для обеспечения данными новых инструментов искусственного интеллекта.
Теперь руководители ИТ-инфраструктуры отвечают не только за управление хранилищами, но и за предоставление сервисов данных. Эти услуги включают защиту данных, соблюдение нормативных требований, архивирование данных, управление жизненным циклом данных и затратами, а также удаление данных, если они больше не нужны. Ответственность за сервисы данных также означает обеспечение легкого доступа к нужным данным для конечных пользователей и инструментов (например, облачного ИИ), а также оптимизацию затрат.
Что собой представляют сервисы данных
Сервисы данных — это широкий термин, который описывает ряд видов деятельности, обычно выполняемых корпоративными ИТ-службами, таких как обработка данных, интеграция данных, безопасность данных, сокращение данных, защита данных, хранение данных и управление неструктурированными данными.
Сервисы данных включают в себя управление данными на протяжении всего их жизненного цикла. Помимо первичного хранения, они охватывают анализ и отчетность по росту и стоимости хранения данных, включая демонстрацию по отделам, использование данных, самостоятельный поиск и маркировку файлов, а также такие варианты мобильности данных, как миграция данных, многоуровневое хранение данных, репликация и удаление. Этот новый подход требует способности понимать использование данных и управлять ими независимо от системы хранения.
Подход, основанный на использовании сервисов данных, может обеспечить следующие преимущества:
- целостная видимость и детализированный поиск в различных системах хранения и облаках;
- аналитика и понимание типов и использования данных для принятия более точных решений по хранению;
- автоматизированные, управляемые политиками действия, основанные на анализе;
- снижение рисков безопасности и несоответствия нормативным требованиям;
- полное использование данных, где бы они ни хранились, особенно в облаке;
- доступ пользователей к самообслуживанию для удовлетворения потребностей департаментов и исследовательских организаций в хранении данных, управлении ими и рабочих процессах ИИ;
- бóльшая гибкость при внедрении новых технологий хранения, резервного копирования и аварийного восстановления, поскольку управление данными осуществляется независимо от технологий любого поставщика.
Как работают сервисы данных
Чтобы лучше понять потенциал сервисов данных, приведем примеры из сферы высшего образования, фармацевтики, энергетики, сферы развлечений, а также розничной торговли.
Университет среднего размера. Администратор системы хранения данных может просматривать все общие ресурсы университета в поисках аномалий, представляющих опасность: файлов, принадлежащих людям, которые уже не работают в университете, конфиденциальных файлов, которые хранятся не в том месте, где нужно, или старых видеофайлов для сайта, которые занимают много места и больше не нужны.
Производитель медицинского оборудования. Компания, выпускающая регулируемую продукцию, должна регулярно отвечать на вопросы аудиторов о своих данных: что это за данные, кому они принадлежат и как используются? Обеспечение хранения и защиты данных в соответствии с различными нормативными документами является обязательным условием для предотвращения крупных штрафов и взысканий. Компания также работает над обнаружением «теневых» данных с удаленных сайтов, чтобы ИТ-специалисты могли убедиться в актуальности разрешений и других средств защиты. Использование решения, индексирующего все неструктурированные данные, является ключом к решению этих важнейших задач по обеспечению соответствия нормативным требованиям.
Фармацевтика. Центральная ИТ-служба одной из глобальных фармацевтических компаний размещала «холодные» данные в облаке, но теперь хочет предоставить своим исследовательским группам возможность идентифицировать и помечать файлы проектов для последующего использования. Такой подход меняет динамику: ИТ-служба должна будет не только следить за хранением данных, но и предоставлять услуги по аналитике данных для бизнеса.
Энергетика. Глобальная нефтесервисная компания с центрами обработки данных по всему миру модернизирует и оптимизирует свою инфраструктуру, перенося рабочие нагрузки и системы хранения к нескольким поставщикам облачных услуг, чтобы сократить площадь дата-центров и уменьшить капитальные затраты (CAPEX). Компания использует облако для предоставления цифровых услуг своим клиентам, например, для управления данными, получаемыми от оборудования, находящегося на дне океана. Применив подход сервисов данных и соответствующий набор инструментов, компания перевела 85% своих данных в гораздо более дешевые архивные хранилища в облаке. Централизованная стратегия и инструментарий сервисов данных помогают легко переносить данные с одной платформы на другую, а не использовать различные средства точечной миграции. Теперь сервисы данных занимают центральное место в работе ИТ-службы компании — для экономии средств, управления рисками и обеспечения гибкости.
Розничная торговля. Национальный конгломерат розничной торговли прошел через процедуру отчуждения, закрыв несколько своих брендов и стандартизировав ИТ-инфраструктуру. В результате этого процесса образовалось большое количество файлов-зомби от уже не используемых технологий, таких как файлы .pst. Набор инструментов сервиса данных позволил организации быстро найти ненужные файлы во всех хранилищах и удалить их. Благодаря более простой и оптимизированной среде данных компания улучшила свои возможности дальнейшего развития.
Сфера развлечений. Директор по хранению данных крупной голливудской студии задался вопросом, почему резервное копирование некоторых общих данных занимает слишком много времени. Проведя анализ, он обнаружил, что многие старые файлы принадлежат нескольким пользователям. После того как пользователи были поставлены в известность о ситуации, они удалили эти файлы, что позволило улучшить циклы резервного копирования. ИТ-служба планирует предоставить менеджерам отделов студии доступ к решению для управления данными. Таким образом, они смогут просматривать собственные данные и отмечать группы папок или общих ресурсов для выполнения таких действий, как перемещение данных в холодное хранилище или полное удаление. Таким образом, владельцы данных получают контроль над своими данными и одновременно помогают ИТ-отделу решать поставленные перед ним задачи.
Дорожная карта перехода к сервисам данных
Не существует универсального пути перехода к сервисам данных, однако в основе этого процесса лежит анализ. Хорошим началом является использование аналитики данных и управления данными для понимания использования данных, их роста и затрат на них в хранилищах и облачных средах. Среди других основных требований — предоставление командам, работающим с данными, возможности поиска и маркировки данных на основе разрешений доступа, основанных на совместном использовании. По этим меткам центральные ИТ-отделы могут выполнять автоматизированные политики, например, удалять файлы проектов, возраст которых превышает три года.
Необходимы новые метрики для команд, отвечающих за ИТ-инфраструктуру. Если традиционные метрики измеряли такие показатели, как задержки, IOPS, пропускная способность сети, время безотказной работы и простоя в год, а также окна резервного копирования, то новые метрики дают представление о данных.
К ним относятся, в частности, следующие:
- основные владельцы данных;
- процент «холодных» файлов, к которым не обращались год и более;
- наиболее распространенные размеры и типы файлов;
- затраты на хранение в расчете на один отдел;
- стоимость хранения данных по поставщикам в расчете на терабайт;
- доля сокращенных резервных копий;
- скорость роста объема данных.
Также крайне важно отслеживать данные на предмет аномалий, таких как доступ или перемещение большого количества файлов из одного места в другое или массовое удаление файлов. И то, и другое может свидетельствовать об инциденте безопасности. По мере того как организации будут вкладывать все больше средств в технологии ИИ, инструменты и процессы для отслеживания и документирования вводимых и выводимых с помощью этих технологий данных помогут минимизировать риски, связанные с конфиденциальностью, безопасностью, законодательством и интеллектуальной собственностью.
Прежде всего, специалистам по управлению данными и инфраструктуре хранения необходимо будет переключить свое мышление и практику с управления технологиями хранения на понимание и управление данными для различных целей. Инфраструктура хранения данных и управления ими, поддерживающая гибкость и способность меняться в соответствии с потребностями организации в данных, позволит ИТ-отделам осуществить этот переход быстрее и с лучшими результатами для всех.