Вы не уверены, имеет ли смысл перейти на ориентированные на данные технологии? Не знаете, с какой стороны подойти к этому вопросу? Своими советами делятся люди, построившие инфраструктуру Facebook.
Ашиш Тусу и Джойдип Сен Сарма неплохо разбираются в больших данных. Они возглавляли команду инженеров, разработавших инфраструктуру данных Facebook. Также они являются соавторами проекта Apache Hive и основателями компании Qubole. Абсолютно все принципы работы и корпоративная культура Facebook базируются на данных, а Тусу и Сарма в свое время сыграли важную роль в реализации этих принципов.
Как поясняет Тусу, они оба посчитали, что этот опыт однозначно принес им огромные положительные результаты, и захотели поделиться своими знаниями в этой области, чтобы другие также могли извлечь из них пользу. Чтобы воплотить это решение в жизнь, они совместно написали книгу о том, как построить ориентированное на данные (data-driven) предприятие в рамках концепции DataOps. Тусу поделился некоторыми своими наработками в этой области, начав с того, что такое DataOps и зачем она нужна.
Организации, управляемые данными, эффективнее работают
DataOps — это эквивалент DevOps для данных. В той же мере, в какой цель DevOps состоит в том, чтобы организовать непрерывный, беспрепятственный процесс разработки и запуска приложений, цель DataOps заключается в организации непрерывного и беспрепятственного процесса доступа к данным и извлечения из них аналитической информации. Или, как выражается Тусу, «DataOps — это новый способ управления данными, стимулирующий интеграцию и взаимодействие между ранее изолированными данными, командами разработчиков и системами. Посредством изменений в определенных процессах, перестройки организации и применения нужных технологий DataOps устанавливает взаимоотношения между всеми, кто имеет дело с данными: разработчиками, специалистами по архитектуре и обработке данных, аналитиками и корпоративными пользователями. DataOps формирует тесную взаимосвязь между теми, кто занимается сбором и подготовкой данных, теми, кто анализирует данные, и теми, кто применяет полученные в результате этого анализа выводы на практике для развития бизнеса».
Когда Тусу начал сотрудничать с Facebook в далеком 2007 г., понятие о больших данных отличалось от сегодняшнего. Все четыре качества, определяющие большие данные, — объем, разнообразие, скорость генерации и достоверность — еще были слабо развиты. Но пожалуй еще важнее было то, что на тот момент еще не был накоплен достаточный опыт работы с большими данными и принятия на их основе решений в организациях.
«Когда мы начинали, — вспоминает Тусу, — еще не было единого мнения по поводу того, есть ли смысл в хранении всех этих данных. Сегодня я вижу, что ценность данных уже доказана, и вопрос только в том, как ее получить». В своем утверждении о ценности больших данных он руководствуется простым аргументом: организации, ориентированные на данные, эффективнее работают.
Помимо примеров из жизни и рекламных слоганов, он подкрепляет свои слова, цитируя результаты оценки финансовых показателей организаций, проведенной журналом Economist в 2012 г. Согласно этим результатам, организации, использующие данные в своей работе активнее, чем их конкуренты, больше зарабатывают.
Если вопрос полезности данных решен, тогда остается выяснить, с какой стороны подойти к этой задаче. Тусу рассказывает о двух моментах озарения, посетивших их в период работы в Facebook.
Первое озарение случилось, когда они применили тогда еще новые программные пакеты, а именно Hadoop и Hive, чтобы организовать самостоятельный доступ к данным для сотрудников Facebook. Это было в начале 2008 г., и всего несколько месяцев спустя на них снизошло второе озарение.
Культивирование идей
Тусу внезапно понял, что предоставив всеобщий доступ к данным по всей компании, можно коренным образом поменять всю отрасль. И вскоре после этого события начали развиваться именно в таком направлении.
После того, как была разработана необходимая инфраструктура и приняты меры по демократизации доступа к данным, дела в Facebook пошли на новый лад. Например, стажеры компании начали предлагать идеи, способные совершить переворот в этом бизнесе. В частности, стажер Пол Батлер провел анализ данных посредством Hadoop и Hive и составил схему взаимного общения пользователей Facebook по всему миру.
Нарисовав эту схему взаимодействия между людьми, находящимися в различных частях света, он разработал глобальную карту охвата аудитории Facebook. По словам Батлера, когда он поделился этой картой с другими сотрудниками Facebook, она вызвала большой резонанс: «Это была не просто красивая картинка — это было наглядное доказательство результатов наших усилий, направленных на установление контакта между людьми, невзирая на разделяющие их океаны и государственные границы».
С того момента все и завертелось: развитие сети начало происходить как будто бы само собой. Придумали систему метрик, провели эксперименты, а важность вопроса взаимосвязанности пользователей была донесена до высшего руководства, подхвачена маркетологами в качестве главной идеи и использована в виде основы для таких функций соцсети, как раздел «Возможно, вы знакомы». Вот вам пример настоящей инновации снизу вверх.
Такое просто не могло бы произойти в прежнем мире, где все операции с данными проводила выделенная команда специалистов, утверждает Тусу. Он активно настаивает на необходимости внедрения правильной инфраструктуры, которая исключала бы из процесса контролирующих его посредников: «Данные определенно представляли слишком большую важность, чтобы держать их под замком и открывать к ним доступ только соответствующим специалистам. Мы начали переделывать Facebook в компанию, управляемую данными».
Но инфраструктура — это необходимое, но недостаточное условие, ведь именно корпоративная культура способствует воплощению концепции DataOps в жизнь и позволяет отделить аналитические зерна от плевел. Тусу упоминает, что Facebook была первой организацией такого типа, более того, ее основной бизнес строился вокруг данных и технологий, так что у них такого рода культура вписалась органично. У других же организаций уже были устоявшиеся принципы ведения дел и принятия решений. «Признаете вы это или нет, но в вашем бизнесе уже сложилась некая культура принятия решений. И эта культура, возможно, не согласована с принципами ориентации на данные. Слишком многие компании при принятии решений смотрят на того, у кого самая высокая зарплата, и таким образом на собрании последнее слово всегда за старшим начальником. Думаю, всем очевидно, что такой подход может оказаться неверным, — говорит Тусу. — Однако это решение так и останется в силе, если в вашем распоряжении не будет нужных данных плюс разрешения от самых влиятельных лиц организации оспаривать это решение. И здесь мы делаем главный вывод: чтобы вашу организацию действительно удалось перестроить с ориентацией на данные, ваши сотрудники всегда должны руководствоваться конкретными данными, начиная, продолжая или заканчивая любой бизнес-проект — не важно, какого масштаба».
Здесь все по-научному
Любому, кто имеет отношение к науке, это должно быть знакомо. Квинтэссенция научного метода — вырабатывать гипотезы и проверять их с помощью данных. Нет данных — до свидания! Но этот же принцип работает и в обратную сторону: можно отслеживать закономерности в данных и разрабатывать теории, их объясняющие. Тусу считает оба подхода разумными: он видел, насколько хорошо они работают на практике.
«Что конкретно вы захотите применить, зависит от ряда факторов: сферы деятельности, компетенции и цели. В Facebook одной из главных наших целей был рост аудитории: мы хотели нарастить ее до миллиарда пользователей. В рамках решения этой задачи мы анализировали разные шаблоны, версии дизайна и призывы к действию. У людей были разные мнения на этот счет: одни считали, что лучше всего сработает элегантный, изощренный стиль, другие выступали в поддержку простых по форме призывов. Мы эти варианты опробовали на разных группах пользователей, проанализировали данные и решили выбрать простоту, — говорит он. — В других сферах, например, в безопасности, мы выбрали экспериментальный подход. Мы хотели исключить фальшивые учетные записи, но это оказалось непростой задачей. Так что вместо того, чтобы придумывать некие правила, мы проанализировали данные и нашли закономерности, которые помогли нам с ней справиться. Оба варианта работают. Бывает, что у вас накопилась масса знаний в вашей области, и их стоит как-то пустить в ход, а иногда с огромными объемами сложных данных помогают разобраться такие методики, как машинное обучение».
Дух сотрудничества и открытость культуры DataOps, на которые ссылается Тусу, также очень похожи на стиль функционирования научно-исследовательских сообществ: в них люди работают в группах, делают обоснованные утверждения, подкрепленные данными, и на их основе принимают решения, не руководствуясь при этом должностной иерархией.
Применимы ли эти требования к организациям, которые хотят ввести у себя DataOps? Можно ли DataOps применять по своему усмотрению, или это тот случай, когда надо действовать строго по инструкции? И что произойдет, если организация действительно на это купится?
Действуем по инструкции, но при этом меняем мир
Тусу стоит на своем: «Открытый, основанный на сотрудничестве процесс принятия решений — это неотъемлемая часть DataOps. Я понимаю, что в некоторых организациях на этот счет могут возникнуть опасения, но как по мне, назначать неких ответственных работников — это не выход. Можно ведь пользоваться специальными инструментами, как-то регулировать глубину доступа к данным. Такой смешанный подход легко подстраивается под масштабы задачи, и мы бы хотели этим поделиться».
Хорошо, пусть все эти условия будут выполнены, но что произойдет, когда кто-нибудь воспользуется своим доступом к данным, чтобы сделать блестящее открытие, которое компания возьмет на вооружение, и это приведет к определенной коммерческой выгоде? Можно ли с помощью данных отследить этот момент и выяснить, насколько большую прибыль принесло это открытие, и распределить ее соответствующим образом?
«Я не знаю точно, можно ли для этих целей воспользоваться данными, — говорит Тусу. — Скорее всего, можно. Но опять-таки, зависит от специфики организации. Речь идет о рыночной экономике и культуре, так что с помощью данных можно подсчитывать дивиденды или что-то в этом роде».
Если уже разговор зашел о рынках, попробуем замкнуть этот цикл: если управляемые данными организации работают эффективнее, то существует ли какой-нибудь способ с помощью данных оценить, в какой степени конкретная организация ориентируется на данные? Тусу, уверен, что такой способ есть.
«Для этого есть количественные показатели, например, объемы данных или количество людей, имеющих доступ к этим данным, или же степень, в которой на эти данные опираются при научно-исследовательской работе. И мы можем затем проследить связь между этими значениями и такими показателями, как темпы развития или инноваций. Что касается, к примеру, Facebook, то в 2011 г., когда я уходил из этой компании, к данным имели доступ 30% наших (штатных) пользователей. Для сравнения, в других организациях эта цифра, как правило, составляет порядка 5%, — говорит он. — Да, от организаций потребуется определенный уровень открытости и прозрачности, чтобы пойти на это и выложить свои данные. Но преимущества такого подхода намного превышают недостатки. По различным данным можно судить, что у организаций с открытой культурой и собственная торговая марка привлекает больше внимания».
А что, если это сработает? Если в организациях примут-таки DataOps, значит ли это, что вся наша культура рано или поздно пойдет в этом направлении? Может, это повлияет на все общество в целом?
«Техническая эволюция уже движется в этом направлении, — говорит Тусу. — Как и в случае с любой новой технологией, некоторые будут ее первопроходцами, некоторые будут среди тех, кто первыми ее у себя внедрит, а остальные присмотрятся к преимуществам и присоединятся позже. Мы живем в мире, где с данными принято спорить и подсовывать „альтернативные“ факты. Но данные не врут. Можно попытаться истолковать их по-своему, но в открытом обществе настоящие факты так или иначе выйдут на поверхность».