По мнению ИТ-профессионалов, присутствовавших на конференции Hadoop World, организациям, планирующим использовать Hadoop для агрегации и анализа данных, поступающих из множества источников, необходимо предварительно принимать во внимание потенциальные проблемы безопасности.
Ларри Файнсмит, управляющий директор по ИТ-операциям в банке JPMorgan Chase, в своей приветственной речи 8 ноября на конференции Hadoop World отметил, что благодаря использованию Hadoop организации совершенствуют процессы обработки больших массивов данных, создаваемых каждый день, но при этом они могут столкнуться с проблемами в области безопасности, доступа к данным, мониторинга, обеспечения высокой доступности и непрерывности бизнеса.
Объемы данных растут быстрее, чем когда-либо, в частности благодаря популярности блогов, социальных сетей, данных, связанных с использованием сенсорных интерфейсов и сервисов геотеггинга. Различные компании анализируют эти данные, чтобы понять тенденции в предпочтениях клиентов и отрасли в целом, что было невозможно в прошлом. Однако эти организации сталкиваются с потребностью как-то управлять петабайтами данных и обеспечивать их безопасность, отметил во время панельной дискуссии по вопросам безопасности на прошедшей конференции Ричард Клейтон, программный инженер компании Berico Technologies.
Данные не монолитны, они могут представлять собой комбинацию различных классификаций и уровней безопасности, утверждает Клейтон. Являясь поставщиком ИТ-услуг для федеральных агентств, Berico Technologies пришлось учитывать различные технологии шифрования, политики установления срока хранения данных и требования к правам доступа для различных сегментов данных.
Кен Чени, вице-президент по развитию бизнеса и маркетингу в компании Likewise, производителе ПО для управления хранением данных, отметил в беседе с eWEEK перед конференцией, что многие организации не имеют конкретного видения того, что у них есть и как это правильно защитить. Важно иметь четкое понятие о том, “кто владеет конкретными данными и кто имеет к ним доступ”, сказал Чени.
Согласно Клейтону, компаниям нужно внедрять подходящие средства контроля безопасности для организации доступа к данным на основе пользовательских ролей. Однако, по его мнению, встроенные функции безопасности файловой системы Hadoop Distributed File System (HDFS), такие как Access Control Lists и Kerberos, не совсем отвечают требованиям корпоративных сред.
Многие организации, по словам Чени, привязывают хранящиеся данные к системам управления идентификацией, например Active Directory (LDAP), как к “источнику истины”. Связывая данные непосредственно с идентифицированным пользователем, ИТ-сотрудники могут отследить, кто именно работает с данными и какие операции он выполняет с ними, утверждает он.
Другой повод к беспокойству при использовании Hadoop заключается в том, что анализ данных в рамках среды создает новые сочетания данных, которые тоже должны быть в безопасности, отметил Клейтон. Агрегация данных в одном месте также увеличивает риск кражи данных или случайного обнародования конфиденциальной информации. Весьма эффективным подходом к обеспечению безопасности в средах Hadoop является шифрование данных на индивидуальном уровне в течение процесса передачи данных или во время хранения, подчеркнул Клейтон.
Множество федеральных агентств помещает данные, хранящиеся в среде Hadoop, в разные сетевые сегменты, чтобы предоставлять возможность просмотра только людям с определенным уровнем допуска, сказал он. По его словам, другие компании организовывают сетевые экраны, обеспечивающие защиту сред Hadoop и ужесточающие условия доступа.
Некоторые агентства просто отказались от использования баз данных Hadoop из-за беспокойства о безопасности доступа к данным, отметил Клейтон.
Такие крупные корпорации, как IBM, Yahoo и Google уже несколько лет используют Hadoop, но корпоративные заказчики обратили внимание на Hadoop только недавно, столкнувшись с потребностью управлять данными, уже выходящими из-под контроля.
JPMorgan Chase использовали открытую среду хранения и анализа данных на протяжении почти трех лет в различных типах приложений, например для обнаружения мошеннических схем, риск-менеджмента в сфере ИТ и средств самообслуживания, заявил Файнсмит. Он добавил, что при помощи Hadoop банк собирает и хранит сетевые журналы учета доступа, данные о транзакциях и информацию из социальных сетей в рамках единой платформы, а также организовывает поиск информации и анализирует данные для получения аналитических сведений.