Под управлением данными в самом широком смысле понимают множество технологий, процессов и стандартов, причем наряду с вопросами качества данных, их безопасности, соответствия корпоративной политике и нормативным актам, непротиворечивостью, корректностью справочников, метаданных и мастер-данных сюда нередко включают и направления, связанные с той или иной прикладной обработкой данных (СУБД, BI, документооборот). Однако сегодня, когда многие предприятия и организации вступили на путь цифровой трансформации, когда чрезвычайно расширился спектр данных и выросли их объемы, когда корпоративные данные располагаются в облаках и нередко не принадлежат компании, а покупаются или арендуются, когда данные становятся чуть ли не основным активом отдельных организаций, требования к управлению данными меняются, а существующие практики подвергаются ревизии. Для обсуждения проблем управления корпоративными данными в современных условиях мы обратились к экспертам из ведущих российских компаний.
Данные как актив
Сегодня данные все чаще называют новой нефтью, а в некоторых компаниях их позиционируют как один из основных активов. Какова специфика управления таким активом и чем оно отличается от управления другими видами активов?
«Нефть — не актив, нефть — ресурс, — напоминает Chief Evangelist компании Comindware Анатолий Белайчук. — Благодаря нефти и использующим ее энергетике и транспорту в XX веке появилась цивилизация в том виде, в котором мы ее знаем. Например, межконтинентальные перелеты и массовый туризм стали возможными только в экономике, основанной на нефти. По масштабу воздействия на человеческую цивилизацию данным до нефти пока далеко, но кто знает... Продолжая эту аналогию, можно вспомнить, что бум вокруг нефти возник с изобретением двигателя внутреннего сгорания. Аналогично бум вокруг данных связан с новыми способами их обработки — машинным обучением и искусственным интеллектом». Так, уже сейчас искусственный интеллект (ИИ) способен по звуку, издаваемому двигателем, сигнализировать о его скором отказе или по лайкам, оставляемым человеком в соцсетях, определить его предпочтения в роли покупателя или избирателя. Компании, имеющие доступ к таким данным, могут, а, значит, согласно законам конкуренции обязаны капитализировать этот актив, считает Анатолий Белайчук.
«Управлением таким активом сегодня интересуются предприятия с довольно высоким уровнем зрелости, — констатирует руководитель направления BigData компании КРОК Егор Осипов. — Data Governance, или управление данными, — это по факту — стратегия работы с корпоративной информацией с помощью определенного набора решений. Условно говоря, это система, которая позволяет компании понять, какие данные у нее есть, как они связаны между собой, кто ими пользуется».
Управляющий партнёр DIS Group Александр Тарасов убежден, что данные действительно превратились в актив компании. Как и любой другой актив, они требуют эффективного управления — стратегии Data Governance. Это — выстраивание бизнес-процессов, эффективной организационной структуры, положений, регламентов, ответственности, ролевых моделей. Но если для других активов во многих компаниях всё это уже отлажено, то для данных — нет.
По мнению руководителя направления платформенных решений представительства SAS в России/СНГ Михаила Александрова, компании начали рассматривать данные в качестве актива относительно недавно и на текущий момент нет общепринятой методики оценки стоимости данных: это отличает их от других активов. Поэтому достаточно сложно оценить и обосновать эффект от внедрения процессов управления данными в денежном выражении. Впрочем, в большинстве компаний до сих пор не относятся к данным как к активу. Это не закреплено организационно: отсутствует единый реестр используемых в компании данных, не определены их владельцы и не регламентированы процессы управления данными.
Как считает директор по стратегическому развитию компании «Форсайт» Юлия Кудрявцева, все зависит от характера данных: если это закрытая корпоративная информация, то одна из главных задач — защита этого актива. Если речь идет о публичных данных, которые предназначены для продажи, то основные задачи — постоянное обновление данных, обеспечение их непротиворечивости. И в этом отличие от управления другими видами активов — необходима постоянная работа с данными для поддержки их актуальности, достоверности и повышения значимости для покупателей.
Юлия КудрявцеваРоссийские организации на пути к повышению эффективности бизнеса за счет извлечения выгод из накопленных данных
Современная экономика — экономика, основанная на данных. Вместе с развитием ИТ-отрасли в целом собирать и хранить данные уже не составляет большого труда, поэтому организации обладают значительными массивами данных, собирая и накапливая множество сведений о самых разных объектах, важных для бизнеса.
Сегодня очень многие задумываются: как правильно управлять данными, внедряют в компаниях регламенты и процедуры, направленные на контроль целостности данных, на их защиту и в целом на увеличение стоимости накопленной информации. В конечном итоге накопленные данные, как любой другой актив, должны работать на повышение общей результативности управления бизнесом.
«Ещё одно отличие актива „данные“ от других: пока не все организации научились определять его ликвидность, — констатирует Александр Тарасов. — Ликвидность данных — их полезность и востребованность. Если данные никому не нужны, они не актив, а пассив и генерируют убытки. Важно научиться постоянно определять наиболее ценные данные и постоянно обогащать их, а также не тратить ресурсы на данные с низкой ликвидностью».
По мнению Михаила Александрова, сложно внедрять современные методы управления предприятием, если в компании нет процессов управления данными. Один из них — управление качеством: «Невозможно применять технологии ИИ, если качество данных низкое и неконтролируемое. Поэтому все больше компаний запускают процедуры управления данными, создают институт CDO (Chief Data Officer) и определяют критерии качества ».
«Для обеспечения высокого качества данных недостаточно найти и устранить неточную и ошибочную информацию в своём хранилище, — предупреждает Александр Тарасов. — Нужно внедрить в компании новую организационную структуру, разработать единый глоссарий, провести каталогизацию, построить lineage (цикл жизни данных), формализовать процессы управления качеством, определить политики и стандарты. Нужно ввести и распределить целый ряд новых ролей в компании (владельцев данных, ответственных за качество данных — data stewards) c чётко прописанными функциями».
Эффективность управления с точки зрения бизнеса
Есть ли сегодня метрики, характеризующие эффективность управления данными не на технологическом уровне, а как бизнес-актива (увеличения ценности, сохранности, защиты от хищения, приносимой отдачи)?
Заместитель генерального директора компании «ЮниДата» Владислав Каменский убежден, что такие бизнес-метрики были и до возникновения специализированных средств по управлению основными данными предприятий. Более того, чтобы убедить заказчика в целесообразности приобретения и внедрения средств управления основными данными важно уметь общаться с ним на языке цифр и бизнес-метрик. Например, внедрение специализированного продукта управления данными может сократить срок подготовки консолидированной отчетности на определенный процент или ускорить процесс закупок на некоторое время. Важно уметь прогнозировать и предсказывать изменение метрик еще до внедрения специализированного ПО, чтобы иметь возможность оценить размер ценностей, скрытых в данных заказчика.
«Юнидата» — лидер российского рынка систем управления данными
Владислав Каменский, заместитель генерального директора компании «Юнидата»:
— «Юнидата» — инновационная российская ИТ-компания, успешно работающая в области создания программного обеспечения. Ядро команды сформировалось в 2007 г. как R&D-команда различных стартап-компаний. В течение целого ряда лет специалисты компании занимались реализацией крупных проектов по внедрению решений класса MDM (Master Data Management, управление мастер-данными) и управлению качеством данных (Data Quality). Их работа получила множество положительных отзывов от известных аналитических агентств, таких как Gartner и Forrester. Среди клиентов «Юнидата» — АО «Российские космические системы», Объединенная приборостроительная корпорация, Министерство сельского хозяйства Российской Федерации, РЖД, «МегаФон».
Нашими специалистами накоплены не только технологические знания, опыт проектирования, разработки и контроля качества информационных систем, но и серьезная экспертиза по внедрению продукта на российском и зарубежном рынках.
Флагманским продуктом компании является многофункциональная платформа для построения систем управления корпоративными данными «Юнидата». Среди основных функций платформы — централизованный сбор данных, поиск и объединение дубликатов, анализ данных и формирование статистики, стандартизация и обеспечение качества данных, их выгрузка в сторонние информационные системы, управление данными на основании внутренних регламентов предприятия, предоставление прав на действие с данными. Продукт обладает широким спектром возможностей по управлению информацией для получения актуальных и достоверных данных и следует современным трендам Data Governance.
В 2017 г. в рамках выполненных работ по увеличению эффективности системы платформа достигла производительности в 1 млрд. записей. «Юнидата» стала одной из очень немногих компаний в мире, способной работать с таким массивом нормативно-справочной информации на неспециализированном аппаратном комплексе (commodity hardware). При разработке во главу угла был поставлен принцип «миллиард за миллион»: речь идет о миллиарде записей на серверах стоимостью всего 1 млн. руб. Надо отметить, что данный показатель ставит систему управления данными «Юнидата» в один ряд с лучшими
MDM-решениями в мире.Позже вышла редакция «Юнидата 4.7 HPE» (High Performance Edition). Она предназначена для построения систем управления данными крупных корпораций и предприятий с высокими требованиями как к объему данных (от 100 млн. записей и выше), так и к скорости работы с ними. Новая редакция платформы включает в себя дополнительные модули по мониторингу производительности отдельных компонентов и самого решения в целом, скорости обработки данных в пакетных и онлайн-режимах. Добавлены модули по информированию администратора об отклонениях текущих метрик от целевых, специализированные модули пакетной обработки, предназначенные для больших объемов данных, а также детализированные инструкции по построению и обслуживанию высоконагруженных систем управления основными данными.
2018 год ознаменовался полномасштабным сотрудничеством компании «Юнидата» и всемирно известного IT-агентства Gartner. Взяв курс на продвижение нашей платформы на международные рынки, «Юнидата» приняла решение принять участие в крупнейшем мероприятии Gartner Data & Analytics Summit 2018 23‒24 октября 2018 г. во Франкфурте (Германия). Gartner Data & Analytics Summit — крупнейшая конференция в области управления данными, посетит которую более 1500 человек. Выступления, презентации, круглые столы, мастер-классы, выставка — вот далеко не полный список мероприятий под эгидой саммита во Франкфурте. Особый упор сделан на кластер Data Governance (MDM, DQ, Privacy, Security). «Юнидата» стала первой российской компанией ‒ официальным спонсором этого мероприятия. Участие продиктовано активным развитием платформы на внешнем рынке, а также большим интересом к ней со стороны крупнейших международных корпораций.
ПАРТНЕРСКИЙ МАТЕРИАЛ
«При оценке рентабельности данных необходимо использовать показатель ROA (Return On Asset — возврат на актив), а не ROI (Return On Investment — возврат на инвестицию), — рассуждает Александр Тарасов. — Для расчёта ROA необходимо разделить прибыль, которую принёс вам актив, на его стоимость. Существует три вида оценки стоимости актива. Восстановительный (расходный) метод подразумевает подсчёт затрат на актив. Метод сравнительных продаж — сравнение со стоимостью других активов на рынке. Доходный — рассчитывается на основе потенциальной выгоды. Из-за незрелости рынка данных сейчас сложно применять два последних, поэтому для актива „данные“ рекомендуется использовать восстановительный метод. При этом самая важная задача — определить отношение общекорпоративного ROA на все активы компании к ROA данных. На это отношение и стоит ориентироваться при определении эффективности управления данными как активом».
Егор Осипов указывает, что, например, с помощью машинного обучения и технологии Big Data можно рассчитать, нужно ли открывать новые точки/магазины и другие объекты, в каких именно локациях и т. д. То есть при грамотной работе с данными бизнес может получить конкретный список шагов к достижению конкретных бизнес-метрик.
По мнению Юлии Кудрявцевой, эффективность управления данными можно оценивать, опираясь на стоимость обеспечения качества, стоимость исправления ошибок, степень удовлетворенности клиентов (если речь идет о продаже данных). Для корпоративных данных могут использоваться такие метрики, как точность прогнозов, например степень достоверности финансового прогноза предыдущего квартала, степень достоверности прогноза оттока клиентов и другие бизнес-показатели.
Анатолий Белайчук обращает внимание на то, что потенциал, заложенный в некоторых данных, может раскрыться лишь со временем. Вследствие этого есть риск, что мы будем накапливать данные, которые в итоге не пригодятся, и при этом не заметим данные, которые в будущем могут превратиться в настоящий клад. «Нефть становится активом, когда месторождение открыто и разведано. Данные становятся активом, когда мы нашли способ их использования. Ценностью такого актива можно и нужно управлять, но это может оказаться лишь малой частью потенциала, заложенного в имеющихся у нас данных. В средневековье крестьяне в Европе собирали хворост для обогрева жилищ. Права на сбор хвороста были четко определены, и это был чей-то актив. Но под ногами у них находились залежи каменного угля!», — пояснил эксперт.
Как управлять данными в эпоху цифровой трансформации
Управление корпоративными данными — дисциплина, имеющая свою историю, связанную с построением корпоративных хранилищ структурированных данных. Как она должна меняться в условиях идущей цифровой трансформации, когда все чаще для анализа используются большие данные, информационные ресурсы предприятия распределяются между его площадкой и облаком, часть используемых данных является внешней и не принадлежит самой компании?
По мнению Александра Тарасова, не так уж важно, работаете ли вы с большими данными или с данными обычного формата, храните ли их в облаке или в традиционном хранилище. Не имеет значения, большие или маленькие данные вы собираете, если ответственный сотрудник заносит данные в базу с ошибкой. Нужно выстроить стратегическое управление данными в своей организации — Data Governance — процесс создания достоверных данных в общекорпоративном масштабе.
Владислав Каменский указывает, что заказчики предъявляют все новые и новые требования к управлению корпоративными данными, и, чтобы идти в ногу со временем, нужно постоянно искать новые подходы к их хранению и обработке: «Старые проверенные методы хранения структурированной информации еще послужат нам некоторое время, но мы уже сейчас ищем принципиально новые подходы для решения того же класса задач, но с прицелом на слабоструктурированные массивы данных или на массивы данных, размер которых не может быть успешно обработан текущей архитектурой».
С последним тезисом согласен и Егор Осипов: «Управление корпоративными данными требует создания целостной вычислительной архитектуры, которая в зависимости от задач позволит гибко подходить к хранению и обработке данных. Например, аналитические платформы оптимально выносить в облако или размещать в рамках аренды выделенной инфраструктуры, в том числе во внешнем ЦОДе. А архивные данные, которые не используются постоянно, лучше размещать на медленных накопителях, что позволит сэкономить ИТ-бюджет и высвободить вычислительные ресурсы под другие задачи. Понимая это, мы предложили заказчикам концепцию умного хранения данных, предусматривающую оптимизацию работы с информацией на уровне вычислительной инфраструктуры. Например, на основе all flash-массивов можно выстроить экономически эффективную и функциональную архитектуру для производительной работы в рамках потоковой аналитики, персонализации предложений для клиентов и создания новых продуктов».
Анатолий Белайчук напоминает, что большие данные так называются не просто потому, что их много, а потому, что их много настолько, что становится принципиально невозможно собрать их в единое хранилище и централизованно обработать. Соответственно появляется новая задача распределенной обработки данных: частично на периферии — на смартфонах пользователя, на устройствах Интернета вещей, а частично в центре. К техническим вызовам добавляются юридические ограничения — защита персональных данных, права собственности на данные.
По словам Юлии Кудрявцевой, сегодня информационные ресурсы предприятий можно хранить на своей площадке, во внешних дата-центрах или переносить в облако. В России пока преобладает первый вариант, поэтому основной тренд по-прежнему связан с построением компаниями собственных корпоративных хранилищ данных. Облаку доверяют не так сильно, но рынок все равно идет в сторону облаков. Очевидно, что в ближайшем будущем будут предложены облачные решения, удовлетворяющие заказчиков по степени безопасности, и тогда уже можно будет говорить об изменении процессов управления корпоративными данными.
«Если раньше допустимый уровень качества данных обеспечивался за счет корректной организации бизнес-процессов: скажем, централизованного ведения справочников или встраивания различных проверок на уровне учетных систем, то сейчас сделать это без использования специализированных технологий просто невозможно, — убежден Михаил Александров. — Необходимо создать централизованную функцию по управлению качеством данных, не привязанную к отдельным ИС. Нужны технологии, позволяющие независимо от способа и места хранения данных оперативно отслеживать их качество, выявлять и устранять проблемы. Эти технологии должны позволять быстро подключать новые источники, дополнять правила проверки, обеспечивать приведение данных из различных источников к единому виду. Современные системы хранения и обработки данных позволяют, применяя алгоритмы текстовой аналитики, автоматизировать разбор большого количества документов на рубрики. С помощью машинного обучения возможно обрабатывать изображения и находить интересующие объекты еще до попадания данных в хранилище».
Нужно ли обновлять инструментарий
В случае больших данных само их хранение и обработка из-за огромных объемов потребовали создания новых инструментов. Можно ли обойтись в управлении Big Data уже существующими методологиями и средствами? Как управлять качеством таких данных с учетом их статистической природы и изначально допускаемой вариативностью и неточностью?
«Для управления качеством данных применительно к Big Data потребуются кардинальные изменения, — убежден Владислав Каменский. — Если классическая модель управления качеством данных допускает привлечение человека (оператора данных) для принятия решений, пусть и в полуавтоматическом режиме, то для Big Data использование человека становится нецелесообразным. Одно из направлений, которое, безусловно, поможет решить часть задач по обеспечению качества данных для Big Data, ‒ это машинное обучение».
С ним согласен и Михаил Александров: «Существенный рост объема данных меняет требования, предъявляемые к системам управления ими. Невозможно обработать большое количество данных, не используя методы машинного обучения, применяя, например, текстовую аналитику для автоматической категоризации объектов или автоматизируя поиск аномалий во временных рядах. Другой активно развивающийся подход — это анализ больших данных „на лету“ (различные логи, видео/аудиосигналы, информация с датчиков) и загрузка в хранилище уже подготовленной информации. Например, в банках часто используется аналитическая обработка потоков операций клиентов с целью приостановки потенциально опасных (мошеннических) действий».
По словам Юлии Кудрявцевой, сегодня появляются новые методы обработки больших данных и управления ими. Один из наиболее значимых — использование алгоритмов для выявления неявных зависимостей, например Data Mining. Другой — обработка запросов на естественном языке (Natural Language Processing), когда пользователь может задать вопрос системе и получить релевантный ответ.
Александр Тарасов отмечает, что хотя лидирующие вендоры уже создали продукты для управления большими данными (их интеграции, обеспечения их качества) в архитектуре Hadoop, они должны применяться в рамках единой методологии Data Governance вне зависимости от их структурированности или объёмов.
«Что касается вариативности, то в тот момент, когда у нас появляются данные для построения той или иной модели, которая может дать ответ определенной степени точности, мы можем использовать вероятностные инструменты управления качеством данных, — утверждает Егор Осипов. — Однако такие инструменты разрабатываются отдельно для каждого типа данных. Готовых продуктов на рынке нет. Например, если в нашей модели не заполнено поле „пол“, то мы можем сформировать вероятностный прогноз. Он будет не на 100% точным, но достаточным для решения той или иной задачи».
Как управлять внешними данными
Если компания использует в своей работе внешние источники данных (покупаемые или доступные бесплатно), должна ли она приобретать у поставщика еще и услуги по управлению этими данными?
«В перспективе — безусловно, — убежден Анатолий Белайчук. — Мы ведь покупаем не нефть, а бензин определенной марки, заливаемый в горловину бензобака нашего автомобиля, а заодно приобретаем „незамерзайку“, кофе и круассаны. Это путь взросления любой отрасли».
«Это излишне, — возражает Александр Тарасов. — Необходимо подробно прописать соответствующие требования в соглашении об уровне услуг (SLA). Если вы покупаете данные, важно, чтобы инструменты обеспечения их качества были установлены у вас. Кроме прочего, такие инструменты помогут оценить, соответствует ли качество покупаемых вами данных заявленному в SLA. Вы же не будет использовать приобретённые данные отдельно от тех, которые собрали сами. Вы будете внедрять их в уже существующую систему, обогащая с помощью сторонних данных свои. Если своими данными вы не управляете и не поддерживаете их качество, то эффективно интегрировать купленную информацию будет сложно».
По мнению Михаила Александрова, многое зависит от размера и специфики компании. В целом же количество поставщиков и доступных источников данных с каждым днем растет, поэтому все более актуальной становится задача интеграции данных, объединения их из различных источников и приведения к формату, позволяющему использовать эти данные в бизнес-процессах компании.
Егор Осипов отмечает, что поставщики сегодня предоставляют максимально качественные данные. С этой точки зрения компания вряд ли может кардинально улучшить полученную информацию, просто потому, что объем корпоративных данных, как правило, меньше. Хотя в ряде случаев дополнительная обработка может быть оправдана.
«Когда в компании работает большое количество специалистов, имеющих опыт работы с данными, то приобретать у поставщика услуги по управлению данными нет смысла, — предупреждает Юлия Кудрявцева. — Но если речь идет об экзотических данных, то разумно отдать услуги по управлению данными на аутсорсинг».
«Компания может покупать данные или задействовать бесплатные источники, но, как правило, это дополнительная информация, которая может быть использована для обогащения уже существующей структуры данных, — рассуждает Владислав Каменский. — В первую очередь необходимо управлять основными данными своей компании и использовать внешние источники для проверки их корректности и обогащения. Поэтому приобретать у их поставщиков услуги по управлению данными не имеет большого смысла, поскольку количество таких поставщиков может расти, а природа их данных может быть разнообразна. Управление основными данными и данными от разных поставщиков необходимо реализовывать в рамках самой компании».
Как управлять данными IoT
Мы стоим на пороге широкого использования Интернета вещей. Как будет строиться управление данными, собираемыми с огромного числа сенсоров и контролирующих устройств?
По мнению Анатолия Белайчука, магистральное направление здесь — децентрализация и автономизация. Не только первичная статистическая обработка, но и принятие решений частично будет делегироваться если не на оконечные устройства, то на узлы сети. Эти узлы будут взаимодействовать друг с другом, действуя как сеть (полу)автономных агентов. Егор Осипов утверждает, что на рынке уже есть подходы и инструменты, которые позволяют такими данными управлять. Существующие технологии Big Data снимают вопрос масштабирования данных и их источников. Поэтому особых сложностей при работе с устройствами IoT не возникнет, рынок к этому готов.
Михаил Александров напомнил, что для эффективного использования Интернета вещей критична возможность оперативной аналитической обработки потоковых данных. К сожалению, очень немногие компании используют эти данные, поскольку технически реализовать аналитическую обработку в потоке очень сложно: «Мало того, что ваша платформа должна обеспечить выполнение всех шагов аналитического цикла — сбор и подготовку данных, профилирование, визуализацию, построение и применение аналитических моделей, но еще все эти аналитические модели нужно применять на потоковых данных. Другое критичное требование для широкого использования Интернета вещей — это возможность обрабатывать данные близко к источнику их возникновения, на так называемых edge-устройствах, после чего на центральный сервер будут отправляться только значимые и/или агрегированные данные».
По мнению Владислава Каменского, для управления данными в мире Интернета вещей нужны иные подходы, нежели для управления основными данными предприятий. Если классическое управление данными работает с исторической информацией, накопленной за долгий период времени, то Интернет вещей пытается собирать и анализировать данные в оперативном режиме. Например, уже сейчас разрабатываются различные вероятностные и статистические модели предсказания поведения сложных технических объектов по тому массиву измерительных данных, который каждый из них сообщает в режиме реального времени.
Экономика данных и нормативная база
В связи с возникновением экономики данных неизбежно происходят изменения в нормативной базе. Как обеспечить соответствие изменяющимся нормативам в системе управления корпоративными данными?
«На текущий момент экономика данных находится в стадии активного формирования, поэтому нормативная база в части управления данными подвержена непрерывным изменениям, — предупреждает Михаил Александров. — Один из ярких свежих примеров — вступление в силу регламента GDPR, изменившего нормативы, связанные с обработкой персональных данных как на глобальном, так и на российском уровне. Чтобы быть готовыми к частым изменениям нормативной базы, компаниям необходимо иметь правильно выстроенные процессы управления данными и инструменты для их инвентаризации и управления правами доступа».
Александр Тарасов убежден, что если ваши данные каталогизированы, взаимосвязи между ними понятны и прозрачны, у них есть ответственные, то вы сможете быстро и легко подстроиться под любые требования регуляторов.
По мнению Владислава Каменского, система управление корпоративными данными в текущих реалиях уже не может быть полностью закрытой, изолированной от регулярных изменений, приходящих извне. Подобные обновления могут обрабатываться в автоматическом или полуавтоматическом режиме с использованием регламента согласования изменений.
Анатолий Белайчук отмечает, что меняются не только нормативы и законодательная база — меняется поведение потребителей, меняются конкурентная среда и стандарты сервиса. Поэтому управление данными должно быть реализовано в парадигме BPM с учетом таких передовых методологий, как BPMS/Low-code.
Как управлять продаваемыми данными
Какие изменения в управлении данными должны произойти с учетом того, что компании будут использовать свои данные не только для собственных нужд, но и продавать их или построенные на них сервисы другим субъектам рынка?
«Для того чтобы начать продавать данные, организация должна научиться защищать их и эффективно обезличивать, — убежден Александр Тарасов. — Иначе утечек и репутационных потерь не избежать. Пока российское законодательство не готово к тому, что компании начнут массово продавать данные. Многих проблем с законодательством можно избежать, если в соответствующих сервисах будут использоваться обезличенные данные. В целом же со временем все компании разделятся на тех, кто сам зарабатывает на данных, и тех, то помогает зарабатывать на них другим».
Михаил Александров утверждает, что в его компанию запросы от клиентов на разработку инфраструктуры для предоставления подобных сервисов приходят все чаще. При разработке такой инфраструктуры необходимо обеспечить прозрачность и актуальность метаданных, поддержку процедур контроля качества данных, наличие промышленной платформы для оперативной разработки сервисов и инструментов управления доступом к данным, таких как виртуализация и маскирование данных.
А по мнению Егора Осипова, речь может идти скорее о трудностях юридического характера, так как технологические вопросы в целом уже решены.
«Предоставление данных и построенных на них сервисов вовне потенциально неограниченному кругу потребителей означает принципиальную невозможность прогнозировать нагрузку, — предупреждает Анатолий Белайчук. — Хуже того: чем больше мы преуспеем в продаже данных, тем больше будет потребность в вычислительных мощностях, а если мы такие молодцы, что попали в потребность рынка, то потребность в мощностях может вырасти буквально на порядки в течение считанных недель. Ясно, что такое масштабирование может обеспечить только облачная инфраструктура, поэтому стратегия такой компании в области обработки и управления данными обязана быть основана на использовании облаков».
Эту точку зрения поддерживает и Владислав Каменский: «Чтобы предлагать сервисы другим субъектам рынка, просто необходимо строить систему управления данными на основе облачной SaaS-модели».
Управление данными в госсекторе
Какие задачи управления данными стоят в системах государственного управления разного уровня? Какова их специфика в сравнении с аналогичными задачами в бизнесе?
По мнению Владислава Каменского, задачи управления основными данными в системах госуправления принципиально ничем не отличаются от аналогичных задач в бизнесе, разница лишь в том, что специфика корпоративных данных напрямую связана с родом деятельности предприятий.
С ним согласен и Александр Тарасов, отмечая на примере портала госуслуг тот факт, что в некотором смысле госсектор даже опережает бизнес. У государства есть масса преимуществ: в его распоряжении — налоговая база, база паспортного стола, различных силовых ведомств и другие источники, а также процессы по работе с данными, налаженные ещё до начала цифровизации.
Соглашаясь с тем, что госструктуры могут использовать источники информации, недоступные для коммерческих организаций, Михаил Александров обращает внимание на возможность существенного расширения спектра решаемых ими задач (отслеживание переводов между различными банками для выявления схем отмывания денег, обеспечение безопасности и предотвращение аварий, управление сервисами бытовых услуг) за счет интеграции данных из различных источников.
Юлия Кудрявцева настаивает на том, что специфика управления данными в госсекторе все-таки есть: объемы данных очень велики, зачастую они располагаются в территориально распределенных хранилищах и их использование требует решения задач по объединению и очистке. Иногда они охватывают системы нескольких ведомств, и тогда необходимо обеспечивать их непротиворечивость и актуальность. Нередко органы госуправления проводят анализ социально-экономической ситуации, оперативно строят прогнозы развития экономики с учетом меняющихся условий, а для этого данные должны поддерживаться в актуальном состоянии, быть доступными и непротиворечивыми.
«С одной стороны, госструктуры обладают эксклюзивными данными, использование которых потенциально способно ускорить развитие экономики, регионов, благосостояние и уровень жизни граждан, — рассуждает Анатолий Белайчук. — С другой — здесь возможны нарушения, связанные со злоупотреблением монопольным положением и недобросовестной конкуренцией. Специфика, конечно, есть: в бизнесе пусть не всё, но почти всё измеряется прибылью, и если бизнес видит возможность извлечения дополнительной прибыли за счет данных, то его не надо дополнительно стимулировать. Предметом же заботы государственных организаций являются подведомственные им области жизни страны».