Рост объема неструктурированных данных создает реальные проблемы. Многие организации испытывают трудности с управлением неструктурированными данными, такими как текст, изображения, видео и PDF, из-за их огромного объема и скорости роста. Для сотрудников юридической фирмы Katten Muchin Rosenman LLP, более известной как Katten Law, нормативные требования и безопасность стали еще одним источником беспокойства, сообщает портал Datanami.

Трудно осознать весь масштаб неструктурированных данных. Несколько лет назад IDC в рамках своего исследования «Global Datasphere» предсказала, что к 2025 г. на планете за 12-месячный период будет генерироваться более 175 зеттабайт данных (с тех пор эта оценка была снижена до 163 Зб).

Для хранения 163 Зб необработанных данных потребуется более 700 млрд. дисков емкостью 1 Тб, что, очевидно, неосуществимо, поскольку в мире имеется всего около 13 Зб установленной емкости для хранения данных на всех носителях (жесткие диски, флэш-память, ленты и даже телефоны), утверждает IDC. К сведению, по данным IDC, на все эти носители фактически записывается только около 7,5 Зб данных, то есть большая часть данных никогда не записывается, а объем хранилища фактически избыточен.

Katten Law знакома с большими темпами роста. Юридическая фирма, в которой работают 700 адвокатов по всему миру, должна хранить сотни миллионов документов по тысячам дел своих клиентов за несколько десятилетий. По словам Александра Диаса, директора Katten Law по инфраструктуре и работе с дата-центрами, в общей сложности фирма хранит около 240 Тб данных, и эта цифра растет на 20-25% каждый год.

До недавнего времени юридическая фирма управляла собственной системой архивации неструктурированных данных, которая забирала данные из первичных файловых систем Windows и перемещала их на серверы архивного хранения, установленные в колокационных ЦОДах фирмы.

Однако Katten Law столкнулась с рядом операционных проблем, связанных с архивами, что заставило ее искать альтернативу. Фирма привлекла компанию Komprise, занимающуюся разработкой решений для управления неструктурированными данными, для проведения пробного проекта.

«В ходе проверки концепции мы обнаружили, что около 70% файлов, которые мы хранили на наших файловых серверах, были устаревшими и к ним не обращались более трех лет, либо дело было закрыто, — рассказал Диас. — Другая причина, по которой я предложил осуществить крупномасштабный проект архивирования, заключалась в том, чтобы ограничить наши риски, если мы столкнемся с проблемой вирусов-вымогателей, поскольку тогда эти файлы не будут затронуты».

Изучив предлагаемое ПО, специалисты Katten Law обнаружили и другие преимущества. Например, многие решения для архивирования используют заглушку (stub) в рабочей файловой системе для предоставления данных, которые были заархивированы. Если данные необходимо извлечь, пользователь представляет заглушку решению для архивирования, которое извлекает данные. Однако если с заглушкой что-то случится, то восстановить доступ к архивным данным будет очень сложно, посетовал Диас.

«У Komprise другой подход, — пояснил он. — Они используют символическую ссылку... по сути, это как ярлык. То есть на рабочем столе Windows у вас есть ярлык, который ссылается на путь к реальному файлу или программе в ОС. И даже если этот ярлык или символическая ссылка сломаются или исчезнут, вы все равно сможете найти исходный файл или программу».

Гибкость архивирования неструктурированных данных — еще одно преимущество использования протестированного ПО, отметил Диас. Во многих традиционных архивных пакетах файлы архивируются на основе заданного периода времени. Так, например, если к документам, связанным с делом, не обращались в течение трех лет, они автоматически попадают в архив.

В юридическом бизнесе эта схема не всегда работает.

«Очень часто юридические дела, особенно судебные, могут на какое-то время затихнуть, а потом их могут поднять, — рассказал Диас. — Допустим, мы представляли чьи-то интересы. Выносится вердикт, а затем проходит время между первоначальным делом и, возможно, апелляцией. Так что основываться только на времени не всегда получается».

Komprise предоставила Katten Law возможность архивировать файлы, связанные с делом, в зависимости от того, когда дело было фактически закрыто, а не по истечении какого-то заданного количества лет, в течение которых к нему не обращались. После архивации документов, если пользователю необходимо получить копию данных только для чтения, он может сделать это, просто нажав на ярлык на рабочем столе, что приведет к извлечению данных из архива Komprise на локальное устройство хранения, откуда пользователь сможет их получить, рассказал Диас.

В настоящее время компания переходит с традиционных жестких дисков на флэш-память. По словам Диаса, перемещение большей части данных в архив на базе Komprise, работающий в BLOB-хранилище Microsoft Azure, помогает сократить расходы и одновременно дает пользователям преимущества более быстрой основной СХД.

«Мы начали с закрытых дел, либо дел, к которым не обращались более трех лет. Около шести месяцев назад мы снизили порог до двух лет отсутствия доступа или закрытия дел, и в итоге перевели еще 40 Тб в облако», — рассказал он.

Сокращение объемов хранения файлов на файлообменниках Windows также поможет юридической фирме сэкономить деньги, особенно в связи с переходом на новую платформу в конце этого года. «Мне не придется покупать столько хранилищ», — пояснил Диас.

Выгоду от повышения безопасности данных Katten Law оценить сложнее. Но, учитывая, что в этом году снова возросло количество атак вирусов-вымогателей, очевидно, что новый подход приносит юридической фирме реальную пользу.

«Я не могу не подчеркнуть, что это также уменьшило нашу уязвимость, потому что любые файлы, которые хранятся в архиве, никогда не пострадают от хакерских атак или вымогателей, — пояснил Диас. — У них не будет доступа к этим файлам. Они не пострадают от любого типа событий безопасности».