В начале 2013 г. издание CIO Insight опубликовало результаты исследования, направленного на выявление основных проблем применения технологий Big Data. В рамках этого исследования было опрошено свыше трехсот сотрудников ИТ-департаментов, где в настоящее время выполняются подобные проекты.
Выяснилось, что из-за множества нерешенных проблем большинство проектов на основе технологий Big Data остаются незавершенными, хотя их реализация должна была бы способствовать достижению бизнес-целей организации. Зачастую компании не в состоянии четко обозначить масштабы проекта, и в результате ИТ-службы сталкиваются с недостатком ресурсов и специалистов, необходимых для выполнения всего объема работ. Кроме того, при постановке задачи во многих случаях не учитывается мнение тех людей, которые будут непосредственно заниматься реализацией проектов.
Со своей стороны, редакция PC Week/RE решила узнать у руководителей ИТ-подразделений ряда российских компаний, насколько актуальны инициативы в области больших данных у нас в стране и какими трудностями они сопровождаются.
Острота вопроса
Опираясь на свой опыт работы в кредитных организациях, заместитель начальника ИТ-отдела КБ “Еврокапитал-Альянс” Олег Белов считает вопрос использования технологий Big Data действительно сложным и нетривиальным. Более того, для этого вопроса характерны многогранность решений, многофакторная оценка результатов, отсутствие стандартных подходов и невозможность решить его раз и навсегда.
Директор же департамента информационных технологий GE в России и СНГ Марк Залан рассматривает технологии Big Data как одно из наиболее перспективных сегодня направлений в ИТ индустрии, причем в отличие от большинства “горячих тенденций” перспективы больших данных актуальны как раз в первую очередь для корпораций, а не для индивидуальных пользователей. Если же говорить о компании GE, то технологии Big Data лежат в основе направления Industrial Internet (“Промышленный Интернет”), представляющего собой платформу интеллектуальных систем и позволяющего в режиме реального времени транслировать и подбирать оптимальный режим работы промышленного оборудования GE.
Говоря же о природе больших данных, г-н Залан находит, что оценка, приведенная в исследовании Tata Consultancy Services, даже несколько ниже предполагаемой: “Я думал, что процент неструктурированных данных будет выше, поскольку большинство данных сегодня создается в неструктурированном или разноструктурированном формате. И поэтому одним из актуальных направлений технологий Big Data как раз является структурирование разноформатных данных, полученных из совершенно разных источников, для последующей обработки в качестве единого массива”.
А вот что касается взаимосвязи Интернета и больших данных, то Марк Залан считает вывод исследования Tata Consultancy Services вполне ожидаемым. По его словам, компании, успешность которых в большей степени зависит от правильного использования инновационных технологий, как правило, опережают кривую восприятия новых технологий, и большие данные являются хорошим примером этой тенденции.
Полностью поддерживает эту экспертную оценку ИТ-директор группы компаний “ВидеоИнтернешнл” Алексей Свирский, который полагает, что для веб-ориентированных компаний большие данные более значимы, чем для традиционных отраслей — например, для металлургической или автостроения. В “ВидеоИнтернешнл” сегодня ведется проект, который по своей сути является проектом на базе технологий Big Data. Интересна его статистика: годовой бюджет — 2—3 млн. долл., затраты на ИТ — около 30%, при этом неструктурированные данные составляют порядка 75%, а примерно 66% поступают из внешних источников.
Большие данные: что это?
Согласно исследованию CIO Insight, у 85% респондентов объем хранимых в организации данных превышает 1 Тб.
Однако терабайт терабайту — рознь, да и сам термин “большие данные” вызывает разные ассоциации у тех, кто его слышит, считает Алексей Свирский. По его словам, в 2012 г. 1 Тб данных — это примерно 250 художественных фильмов DVD-качества или 50 — HD-качества. Это 15 тыс. телевизионных рекламных роликов эфирного качества, или почта 500 сотрудников компании за год, или около 10 млрд. записей в таблице в реляционной базе данных и т. д. “Не думаю, что сегодня такими цифрами можно кого-то действительно удивить, как пять-десять лет назад, — сказал г-н Свирский. — Но это уже вызывает определенную головную боль у системных архитекторов и администраторов. У нас в компании объем операционных данных достигает порядка 50 Тб, но лично на мой вкус, это совсем не большие данные”.
Оценивая сложившуюся к настоящему времени ситуацию, Олег Белов отмечет, что сегодня весь сектор услуг и в значительной степени производственный сектор превращаются в большую машину обработки данных. Цифровые технологии, позволившие обрабатывать крупные массивы информации, открыли новые инструменты ведения бизнеса, а основными конкурентными преимуществами в бизнесе стали обладание информацией и способность эффективно ею распоряжаться.
Количественный рост имеющейся у бизнес-структур информации привел к качественным проблемам владения ею. “Образно это можно охарактеризовать, как переход от хранения вещей в сундуке, где всё надежно упрятано в одном месте, к шкафу-купе с множеством специализированных полочек и коробочек. Помимо этого часть ценных вещей хранятся в сейфовых ячейках банка. Шкаф-купе стал более удобен, но его использование существенно сложнее, чем дедовский сундук”, — поясняет г-н Белов.
Он также обращает внимание на тот факт, что на фоне увеличения объемов информации меняется её материалистическая сущность: информация становится субъектом обработки, фактически материализуется. И вместе с этим процессом появляются правила и законы её обработки. Как Айзек Азимов разработал первые незыблемые законы робототехники, так и в сфере обработки информации появились три закона: доступность, целостность, конфиденциальность, которые задают основные направления решения информационных задач. “Ординарный объем информации рядовой бизнес-структуры давно перевалил психологический барьер в 1 Тб. Технической проблемы накопления информации при этом не возникает — современный технический уровень легко позволяет решать эти вопросы; сложности же возникают при попытке выполнения трех указанных выше законов работы с информацией”, — сказал Олег Белов.
Кроме того, в исследовании CIO Insight говорится, что у 94% компаний проекты на основе технологий Big Data входят в десятку самых важных решаемых задач. С этим тезисом полностью солидарен Алексей Свирский, по словам которого сегодня большие данные являются критически важными для маркетинга, особенно интернет-маркетинга, ритейла, CRM-решений, здравоохранения. С точки зрения бизнеса, каждый конечный потребитель товара или услуги — это источник больших данных. В котором часу человек проснулся, сколько времени провел в душе, как перемещался в течение дня, что писал в социальных сетях, как менялась температура его тела, что купил. Вообще же один день любого человека равен 86 тыс. секунд, так что каждый генерирует в сутки тот самый 1 Тб информации, которая позволяет стимулировать продажи, своевременно диагностировать болезни, предвосхищать социально-значимые события. “И это будущее совсем близко, — убежден г-н Свирский. — Одежда уже умеет измерять температуру тела, наши перемещения фиксируются камерами наблюдения и нашими мобильными телефонами (точнее, операторами связи и производителями мобильных ОС). Можно долго продолжать список источников прикладных больших данных, а ведь есть еще и научные источники и исследования. Хотя это и звучит пафосно, но я считаю, что именно способность анализировать по-настоящему большие данные может вывести человечество на новый качественный виток развития”.
И наконец, по результатам исследования CIO Insight 66% компаний предпочитают выполнять проекты на основе технологий Big Data силами собственных ИТ-специалистов, несмотря на множество имеющихся предложений со стороны фирм-аутсорсеров. Алексей Свирский также соглашается с этим выводом, считая, что чем сложнее проект или чем больше влияние результатов проекта на бизнес, тем больше желание организации иметь ключевую экспертизу в собственных руках. Поэтому ему представляется вполне логичным тот факт, что два из трех проектов выполняются внутри компаний.
Что мешает реализации проектов
Исследование CIO Insight показало, что 55% проектов на базе технологий Big Data никогда не завершаются. Причиной тому служат ошибки в определении масштаба работ (58%), технические сложности (41%) и отсутствие взаимодействия между отдельными структурами организации (39%). Кроме того, как считают опрошенные, наиболее сложными аспектами таких проектов являются обработка данных (43%), управление ими (42%) и их анализ (41%).
Интересной точки зрения придерживается Олег Белов: по его мнению, реализованный проект не может стать финальным, он обязан иметь направление развития. Аналогично тому, как каждый кубик конструктора “Лего”, который снизу имеет крепление к платформе, сверху обязательно сам является платформой для следующей детали. “Жизнь идет быстро, и те объемы данных, которые вчера были неподъемными, ныне держатся “на кончике пера”. Сегодня технологии Big Data являются объективной реальностью, и надо учиться с нею взаимодействовать”, — подчеркнул г-н Белов.
А вот Марк Залан, напротив, полностью поддерживает выводы исследования CIO Insight, считая их вполне предсказуемыми. Он уверен, что масштаб проекта и связанные с этим сложности взаимодействия между структурными подразделениями компании — часто встречающиеся явления, особенно в проектах, где используются новейшие технологии, правильное применение которых ещё не прошло многолетнюю обкатку на различных проектах.
С ним согласен Алексей Свирский, которому статистика исследования CIO Insight представляется весьма типичной для решения любой сложной ИТ-проблемы — будь то обработка больших данных, разработка принципиально новой ИТ-системы, внедрение ERP-системы или качественное снижение рисков информационной безопасности. Соответственно, чем больше масштаб проекта (или просто объем данных) или чем больше требований, тем больше значимость “правильных” людей, “правильных технологий”, способности организаций терпеть временные неудачи и т. д.
В дополнение консультант FUJIFILM Russia Дмитрий Алексеев отметил, что в нашей стране в результате чрезмерного увлечения хранением больших архивных данных на дисковых решениях в компаниях накапливаются серьезные системные проблемы, начиная от энергозатрат на охлаждение и эксплуатацию и заканчивая надежностью долговременного (более трех-четырех лет) хранения и ограничениями по масштабируемости, не успевающей за взрывным ростом объемов.
Отдельное место в исследовании CIO Insight занимает кадровый вопрос. Так, по результатам опроса, 80% организаций сталкиваются с проблемой нахождения “правильных” людей для реализации проектов на базе технологий Big Data, а 76% — испытывают сложности с нахождением “правильных” инструментов для выполнения этих проектов. Трое из четырех респондентов признались, что временные ограничения негативно сказываются на сроках реализации проектов, а 73% опрошенных отметили, что сложности вызывает и непонимание того, на каких платформах должны строиться эти проекты.
Марк Залан разделяет эту точку зрения, обращая внимание на тот факт, что применение высоких технологий действительно часто сопряжено с дефицитом квалифицированных технических кадров. Причем особенно остро это проблема ощущается на начальном этапе адаптации новой технологии, когда еще не наработана база проектов и нет людей, которые в ходе выполнения этих проектов смогли бы получить опыт правильного применения новых технологий.
Сходную позицию занимает Олег Белов: “С учетом всей многогранности проекта организации обработки информационного массива бизнес-структуры становится понятно, что вопрос “правильных” людей в качестве исполнителей столь же актуален, сколько и сложен и неоднозначен”. Наиболее качественный результат, по его словам, принесет проект, разработанный и реализованный специализированными фирмами при плотном кураторстве собственной компетентной рабочей группы, куда должны входить представители и бизнеса, и ИТ. Прочие же варианты в любом случае являются компромиссными и могут давать хорошие результаты лишь по отдельным показателям.
Что делать?
Рассматривая возможные пути решения проблем с использованием технологий Big Data, Олег Белов отмечает, что здесь успех может гарантировать только серьезный комплексный подход. Во-первых, необходимо классифицировать информацию по нескольким критериям, таким как конфиденциальность, степень важности, оперативность восстановления и т. п. Во-вторых, следует разделить информацию по предметному содержанию — например, оперативные данные, рабочие временные данные, архивные данные, данные “горячего” резерва, справочные и подобные данные, восстанавливаемые из внешних источников и пр. В-третьих, нужно соотнести стоимость информации и средств обеспечения её безопасности и на основе этого производить проектирование дата-центров. И в-четвертых, не стоит забывать о государственных регуляторах, накладывающих ограничения на методы использования информации, и с самого начала проекта учитывать организационную составляющую и требования соответствия законам и стандартам.
Исследование компании Tata Consultancy Services (TCS)
Как свидетельствуют результаты этого исследования, охватившего руководителей из более чем 1200 организаций, сегодня крупные международные корпорации активно занимаются реализацией проектов на основе технологий Big Data.
1. Затраты и результаты
Исследование показало, что более половины организаций выполняли подобные проекты в 2012 г., а их средние ежегодные вложения в инициативы, связанные с большими данными, составляют 10 млн. долл. Причем на ИТ-службу приходится 11% всех затрат на технологии Big Data.
Вместе с тем 43% компаний, реализующих инициативы в области больших данных, ожидают, что прибыльность инвестиций в технологии Big Data превысит 25%, а четыре из пяти утверждают, что благодаря этому им удалось добиться роста бизнеса.
2. География
Лидирующее место в мире в сфере применения технологий Big Data занимают американские компании (68%). На втором месте — организации из Латинской Америки (51%), а уже затем — из Европы (45%).
3. Сферы приложения
Основными областями, где реализуются проекты с использованием технологий Big Data, являются торговля (15%), маркетинг (15%), работа с клиентами (13%), а также исследования и разработка новых продуктов (11%).
4. Природа данных
49% данных являются неструктурированными или полуструктурированными, при этом 70% данных поступают из внешних источников.
5. Веб-фактор
Компании, извлекающие свыше 75% своего дохода через Интернет, затрачивают на большие данные в шесть раз больше, чем остальные компании.
Исследование Gartner
Разобраться, действительно ли технологии Big Data необходимы компаниям для решения критически важных задач или это пускание пыли в глаза, — вот главная цель исследования, охватившего 800 руководителей ИТ- и бизнес-подразделений. Исследование показало, что, несмотря на шум, поднимаемый в прессе по поводу важности концепции больших данных, организации не могут игнорировать значимость современных инноваций, которые способны помочь им более эффективно анализировать большие данные и благодаря этому получать конкурентные преимущества на рынке.
1. Погружение в большие данные
42% обследованных компаний уже инвестировали средства в технологии Big Data или планируют это сделать в течение 2013 г.
2. Поиск места
40% компаний собираются использовать хранилища данных, а также технологии и решения для интеграции данных.
3. Информационные активы
К 2015 г. 20% фирм, входящих в рейтинг 1000 крупнейших мировых компаний, сфокусируются на информационной инфраструктуре, аналогичной той, которая существует для управления приложениями.
4. Сфера образования
Преподаватели и администраторы учебных заведений хотят использовать технологии Big Data для усовершенствования процесса обучения и повышения успеваемости студентов.
5. Финансовая сфера
Руководители ИТ- и бизнес-подразделений должны перестроить политики управления в целях соответствия новым требованиям к данным.
6. Здравоохранение
Правительства побуждают медицинские учреждения к построению аналитики на базе технологий Big Data в целях повышения качества оказываемой медицинской помощи.
7. Необходимость или активная реклама?
И то и другое. Организации действительно осознают важность технологий Big Data для бизнеса, но вместе с тем они боятся остаться позади из-за шумихи в прессе.
8. “Дело техники”
Проблема больших данных вызвана стремительным информационным ростом и сложностью структур новых данных, что усугубляется техническими нововведениями, поэтому она касается всех.
9. Неосязаемость
Руководители должны быть убеждены в том, что большие данные представляют собой актив, который является потенциально более ценным, чем машины и даже люди.
10. Конфиденциальность
Сильный толчок в направлении использования технологий Big Data, который не сопровождается обеспечением сохранности личных данных, может привести к недопустимым рискам и этическим конфликтам.