Роберт Брайант, архитектор предпродажных решений компании ClearScale, рассказывает на портале ITPro Today о том, как организации могут использовать облако для максимально эффективного использования своих больших данных.
Раскрытие потенциала больших данных, несомненно, имеет решающее значение для любой современной организации, стремящейся к успеху. Обилие ценных инсайтов, которые содержат большие данные о поведении потребителей, и их способность обогащать опыт клиентов, сокращать расходы, стимулировать рост доходов и способствовать развитию продуктов, неоспоримы.
Однако управление большими данными сопряжено со сложными проблемами, которые требуют тщательного внимания и опыта. Анализ больших объемов данных может быть сложной задачей, но она не является непреодолимой.
Ниже мы рассмотрим шесть основных проблем, связанных с большими данными, и узнаем, как облачная инфраструктура может их решить. Используя возможности облака, организации смогут справиться со сложностями управления большими данными и максимально использовать их потенциал для достижения успеха.
1. Рост объема данных
Мы постоянно слышим, что объем данных растет экспоненциально, и статистика подтверждает это. Forbes сообщил, что с 2010 по 2020 гг. объем данных, создаваемых, фиксируемых, копируемых и потребляемых в мире, увеличился с 1,2 трлн. гигабайт до 59 трлн. гигабайт. Между тем, IDC отметила, что объем данных, созданных в
Это большое количество данных, которые могут быть полезны для организаций. Но чтобы извлечь из них пользу, необходимо проделать большую работу. Это включает в себя их хранение, которое не является бесплатным. В этом может помочь перенос существующих серверов и систем хранения в облачную среду, а также такие решения, как программно-определяемое хранение, и такие методы, как сжатие, многоуровневое хранение и дедупликация для сокращения занимаемого пространства.
2. Интеграция данных
От страниц в социальных сетях, электронных писем и финансовых отчетов до датчиков устройств, спутниковых снимков и квитанций о доставке — данные могут поступать практически отовсюду. Какие-то из них могут быть структурированными. Какие-то — неструктурированными. А некоторые могут быть полуструктурированными. Задача компаний состоит в том, чтобы извлечь данные из всех различных источников, сделать их совместимыми и обеспечить единое представление, чтобы их можно было анализировать и использовать для создания содержательных отчетов.
Для интеграции данных можно использовать множество методов. То же самое касается программ и платформ, которые автоматизируют процесс интеграции данных для соединения и маршрутизации данных из исходных систем в целевые. Архитекторы интеграции данных также могут разрабатывать специализированные версии.
Выбор наиболее подходящих инструментов и методов интеграции данных требует определения тех, которые наилучшим образом соответствуют вашим требованиям к интеграции и профилю предприятия.
3. Синхронизация данных
Сбор данных из разрозненных источников означает, что копии данных могут мигрировать из разных источников по разным графикам и с разной скоростью. В результате они могут легко рассинхронизироваться с исходными системами, что затрудняет создание единой версии «правды» и приводит к возможности ошибочного анализа данных.
Попытки исправить ситуацию замедляют общую работу по анализу данных. Это может снизить ценность данных и аналитики, поскольку информация, как правило, имеет ценность только в том случае, если она получена своевременно.
К счастью, существует целый ряд методов для облегчения синхронизации данных. Также существует множество сервисов, которые могут автоматизировать и ускорить эти процессы. Лучшие из них могут также архивировать данные для высвобождения емкости хранения, реплицировать данные для обеспечения непрерывности бизнеса или передавать данные в облако для анализа и обработки.
Встроенные средства безопасности, такие как шифрование данных при передаче и проверка целостности данных при передаче и в состоянии покоя, являются обязательным условием. Возможность оптимизации использования пропускной способности сети и автоматического восстановления после сбоев сетевого подключения также являются плюсами.
4. Безопасность данных
Большие данные ценны не только для бизнеса, они являются горячим товаром для киберпреступников. Они настойчиво и часто успешно крадут данные и используют их в неблаговидных целях. Таким образом, это может стать проблемой конфиденциальности, а также проблемой предотвращения потери данных и снижения времени простоя.
Дело не в том, что организации не думают о защите данных. Проблема в том, что они могут не до конца понимать, что для этого необходим многосторонний, сквозной и постоянно обновляемый подход. Внимание должно быть сосредоточено как на ликвидации последствий утечки данных, так и на ее предотвращении. Это касается всего: от конечных точек, откуда поступают данные, хранилищ и озер данных, где они хранятся, до пользователей, которые взаимодействуют с данными.
Тактики, которые должны быть включены в комплексную стратегию безопасности данных, следующие:
— шифрование и разделение данных;
— управление идентификацией и авторизацией доступа;
— безопасность конечных точек;
— мониторинг в режиме реального времени;
— усиление облачных платформ;
— изоляция функций безопасности;
— защита сетевого периметра;
— использование фреймворков и архитектур, оптимизированных для безопасного хранения данных в облачных средах.
5. Требования к соответствию
Нормативные требования, отраслевые стандарты и правительственные постановления, касающиеся безопасности и конфиденциальности данных, являются сложными, мультиюрисдикционными и постоянно меняющимися. Огромный объем данных, которые компании должны собирать, хранить и обрабатывать, в результате чего конвейеры и системы хранения данных переполнены данными, делает выполнение требований по соответствию особенно сложным.
Прежде всего, необходимо быть в курсе всех текущих и актуальных требований к соответствию. При необходимости привлеките сторонних специалистов.
Соблюдение требований, связанных с данными, требует использования надежных и точных данных. Автоматизация и тиражирование процессов могут помочь обеспечить соответствие анализируемых данных этому критерию, а также облегчить составление отчетов по требованию. Другие полезные тактики включают использование систем обеспечения соответствия и администрирования, которые могут соединить несколько систем в организации для создания последовательного, проверяемого представления данных независимо от их местонахождения. Кроме того, централизованное управление конвейером данных может упростить администрирование.
6. Нехватка квалифицированного персонала
Еще одна серьезная проблема, с которой сталкиваются компании при использовании больших данных, — нехватка квалифицированного персонала. Аналитика больших данных требует уникального набора навыков, включая науку о данных, статистику, программирование и знания в предметной области. Однако существует значительная нехватка специалистов, обладающих этими специальными навыками. Это затрудняет эффективный анализ и извлечение инсайтов из данных. Этот дефицит создает узкое место в способности организаций использовать свои данные для принятия стратегических решений и инноваций.
Чтобы решить проблему нехватки квалифицированных кадров в области больших данных, компании могут инвестировать в программы обучения, семинары и сертификацию, чтобы вооружить своих сотрудников необходимыми навыками. Другой подход заключается в использовании внешнего опыта путем установления партнерских отношений с опытными фирмами, предоставляющими профессиональные услуги в области облачных вычислений. Это позволяет организациям использовать знания экспертов без необходимости долгосрочных обязательств или дорогостоящего найма новых сотрудников.
Несмотря на сложности, связанные с большими данными, включая рост объема данных, интеграцию, синхронизацию, безопасность, соответствие нормативным требованиям и нехватку специалистов, облако предоставляет ценные инструменты для преодоления этих препятствий. Используя разумное сочетание таких методов, как сжатие данных, специализированные инструменты интеграции, автоматическая синхронизация, надежные меры безопасности и соблюдение норм соответствия, компании могут извлечь огромную пользу из своих массивов данных. Путь к использованию больших данных сложен, но при наличии правильных стратегий и инструментов он может привести к эффективным инновациям.