Аналитика и ИТ больше не являются отдельными сферами деятельности — они все чаще работают в тандеме. Президент консалтинговой компании Transworld Data Мэри Шеклет рассказывает на портале InformationWeek о том, какую помощь ИТ-департамент может оказать команде аналитиков.
Для многих людей наука о данных ассоциируется со склонными к пуризму (преувеличенное стремление к неизменности состояния) учеными, которые работают в стерильных помещениях, заполненных серверами для параллельной обработки. Последние в основном работают на базе Hadoop и в режиме пакетной обработки анализируют большие массивы данных. Эти процессы проводятся под контролем специалистов по данным, которые хорошо разбираются в статистике и математическом анализе, но мало что знают об ИТ или о требованиях к ведению ИТ-операций.
В реальности одни организации включают в штат ИТ-департамента специалистов по анализу данных, и те, следовательно, имеют доступ к ИТ-экспертизе и получают ИТ-поддержку, тогда как в других ИТ-департаменты и отделы по работе с данными действуют раздельно. Отделы аналитики имеют мало что общего с ИТ-службами, необходимыми для поддержки работоспособности экосистемы больших данных. Именно поэтому многие организации осознают, насколько важно, чтобы специалисты по данным и ИТ работали рука об руку. Налаживание между ними партнерских отношений входит в должностные обязанности CIO и руководителей дата-центров. Ниже приводятся сведения, которые помогут CIO понять потребности специалистов по данным и как их можно удовлетворить.
Аппаратные средства
Еще два или три года тому назад предприятия применяли Hadoop, доминирующую платформу в области аналитики больших данных, в пакетном режиме. Расчет строился на том, что она позволяла запускать приложения для работы с большими данными на традиционном вычислительном оборудовании. В настоящее время обработка больших данных происходит в режиме реального времени, при этом процессинг мигрирует со стандартного оборудования в оперативную память (in-memory processing), СХД на базе быстрых флэш-массивов, а в качестве софта фигурирует кластерная вычислительная среда Apache Spark.
Работа с данными требует повышенной надежности, которую обычное серверное оборудование не всегда может гарантировать, поэтому для оптимальной обработки данных требуется опыт настройки аппаратных компонентов. Большинство ИТ-департаментов привыкли к файлам с фиксированной длиной, а также к транзакционной вычислительной среде, и не обладают навыками уверенной работы с параллельной обработкой в оперативной памяти или опытом ее тонкой настройки. Это техническая область, где предприятиям придется прибегнуть к обучению ИТ-специалистов нескольким смежным специальностям или заняться набором нового персонала.
Программное обеспечение
MapReduce — это доминирующая модель программирования в экосистеме Hadoop, которая предназначается для обработки и генерации больших наборов данных с параллельным распределенным алгоритмом в кластере. Apache Spark запускается в оперативной памяти, что позволяет осуществлять обработку больших данных в режиме реального времени. Организации постепенно берут на вооружение этот подход, но в то же время они не желают отказываться от Hadoop, предлагающего значительные преимущества пакетной обработки. Исходя из этого, ИТ-отделам нужно поддерживать обе платформы.
Инфраструктура
Большинство ИТ-департаментов работают с гибридной вычислительной инфраструктурой, которая состоит из внутренних систем и приложений, установленных в локальном ЦОДе, а также частных и публичных облачных систем. Это требует от ИТ-специалистов выходить за границу ЦОДа и устанавливать политики управления, внедрять процедуры и операции для систем, приложений и данных, которые могут находиться онпремис, в облаке или в обоих местах одновременно. В оперативном плане это означает, что ИТ-департаменту нужно самому управлять внутренними технологическими активами, а также взаимодействовать с поставщиками облачных услуг, которым доверено управлять частью ресурсов по модели аутсорсинга, или работать в облаке самостоятельно.
Последнее имеет смысл, когда активы предприятия размещаются у хостинг-провайдера, но оно оставляет за собой право управления ими. Большие данные предъявляют новые требования и увеличивают ответственность ИТ-департаментов, которым приходится работать во все более сложной инфраструктуре, к тому же задачи по управлению большими данными отличаются от таковых для фиксированных данных. Ниже приводится несколько вопросов, на которые ИТ-специалистам требуется ответить, чтобы безболезненно проводить операции с большими данными.
- Какой объем постоянно накапливаемых больших данных, который отнимает все больше ресурсов хранения, требуется заархивировать, а какой отбраковать?
- В какой момент цены на хранение и обработку больших данных превышают стоимость хранения/обработки на локальных СХД и компьютерных мощностях?
- Имеется ли у организации план аварийного восстановления больших данных и их приложений, которые становятся для нее критически важными?
- Кто несет ответственность за SLA, которое имеет особенное значение в облачной экосистеме, когда возникает проблема с производственными большими данными, необходимыми для выполнения повседневных бизнес-задач и процессов?
- Имеется ли у организации план для безопасного и надежного переноса данных между облаком и ЦОДом?
Аналитика и ИТ в тандеме
Специалисты по анализу данных обладают опытом в области статистического анализа и разработки алгоритмов, но они не всегда знают, какой объем или тип данных для них доступен. Это та область, в которой не обойтись без ИТ-департамента, поскольку перед ним уже многие годы стоит задача отслеживать все входящие и исходящие данные, а также данные, которые хранятся в корпоративном хранилище. ИТ-специалисты лучше всех осведомлены о том, как получить общую картину о клиентах. Они могут помочь менеджеру по маркетингу, если тому требуется аналитическая справка о клиенте с учетом определенных сведений, которые хранятся в клиентской базе данных, в истории покупок и обслуживания клиентов, а также через отслеживание активности клиентов на веб-сайтах и в социальных сетях.
И именно группа администраторов баз данных, работающая в тандеме с другими ИТ-специалистами, создает комбинации наборов данных и подстраивает их под работу алгоритмов таким образом, чтобы специалисты по анализу данных смогли получить достоверные результаты. Специалистам по данным и аналитикам не обойтись без экспертных знаний ИТ-службы о данных, по крайне мере, без ее поддержки добыча точной информации, которая так необходима для бизнеса, усложнится на несколько порядков. ИТ-поддержка — ключевой элемент успеха корпоративной аналитики. Зная, где найти данные и как собрать их, ИТ-служба позволяет аналитикам делать то, что у них получается лучше всего, — разрабатывать алгоритмы для извлечения наилучшей информации из данных.