“Большие данные” стали реальностью для любого ИТ-подразделения, работа которого заключается в том, чтобы быстрым, простым и эффективным способом представлять компании информацию о ее клиентах, перспективах и рынках. Основная трудность — решить эту задачу с учетом ограничений на капитальные и текущие затраты. А хорошей новостью является то, что имеются два взаимосвязанных фактора: невиданное прежде богатство данных, возникающих в результате транзакций и взаимодействий, и новый уровень технологических инноваций, направленных на снижение расходов.
Facebook, Twitter, видео и рост обмена сообщениями дают нам прочную основу для быстрого получения результатов и уточнения прогнозов развития рынка. Автоматизация предприятий достигла такого уровня, когда машины и сенсоры ежедневно порождают терабайты информации, которую необходимо собирать, хранить и анализировать.
Производители средств управления данными находятся на подъеме, что иллюстрирует распространение открытого ПО Apache Hadoop. Теперь складывается инфраструктура на базе Hadoop, которая свяжет массу структурированных и неструктурированных данных, будет масштабироваться при небольших затратах и позволит быстро получать сведения о рынках. Обеспечат ли Hadoop и соответствующая экосистема новые возможности с точки зрения гибкости, безопасности и простоты использования?
Сегодня руководитель ИТ-подразделения, который намерен извлечь пользу из сверхбольших объемов разнородных данных, должен руководствоваться следующими соображениями технического порядка.
- Сосуществование с другими СУБД и средами управления данными. Речь идет о стандартных реляционных средах (например, Oracle) и аналитических хранилищах данных (скажем, Teradata). Предостережение: перемещение и интеграция данных необходимы, но они повышают капитальные затраты на различные инструменты извлечения данных, их преобразования и загрузки (ETL). Кроме того, при этом увеличиваются операционные расходы.
- Хранение и оборудование. Инновационные технологии компрессии и дедупликации имеют важнейшее значение для решения проблемы больших данных. Здесь достигнут значительный прогресс, и теперь мы имеем многоуровневую компрессию, которая позволяет сокращать объем до 40 крат по сравнению с “сырыми” данными. Но важно учитывать, какая часть этих сжатых данных может потребовать восстановления и как это отразится на объеме хранения. Например, если вы ожидаете, что после восстановления данных он вырастет на 30%, то, наверное, не стоит использовать компрессию.
- Запросы и аналитика. Не все данные одинаковы. Поэтому диапазон запросов и бизнес-аналитики меняется в широких пределах в зависимости от конкретной ситуации. Обязательно следует иметь нужные инструменты для работы. Во многих случаях для получения необходимой информации будет достаточно быстрого ответа на SQL-запрос. В других глубокий аналитический запрос требует инструментов бизнес-интеллекта, обладающего всем спектром возможностей использования приборной доски и визуализации. Развертывание адекватного набора патентованных технологий наряду с открытым ПО Hadoop поможет вашей организации полностью реализовать потенциал быстрой аналитики, не допуская взвинчивания операционных расходов.
- Масштабирование и управляемость. Когда организации решают проблему разнородности баз данных и аналитических сред, возможность масштабирования по горизонтали и вертикали имеет большое значение. Легкость масштабирования по горизонтали стала причиной быстрого распространения Hadoop на предприятиях. Ключевое значение имеет массово-параллельная обработка на кластерах из обычных недорогих серверов. В отличие от других вариантов управления данными она не требует от сотрудников специальных навыков. А это непосредственно отражается на ваших инвестициях в ИТ-ресурсы.