Мир меняется, и возрастает потребность бизнеса в интерактивном и всестороннем анализе данных. Вместе с тем проведение высококачественного, углубленного анализа все более усложняется. “Большие данные” (Big Data) диктуют свои правила игры. Какие новые технологии предлагаются сегодня рынку BI-решений? Как их можно использовать на практике? На эти вопросы отвечает Андрей Свирщевский, руководитель направления аналитики компании “SAS Россия/СНГ”.
Что представляет собой термин “высокопроизводительные вычисления” (High Performance Computing или HPC) с точки зрения SAS?
HPC — это набор технологий, позволяющих существенно ускорить анализ данных. К ним мы относим уже зарекомендовавшую себя возможность реализации распределенных вычислений с использованием нескольких серверов (grid computing). Вместо “одного большого вычисления” на одном сервере одновременно на нескольких серверах запускается несколько “кусочков”, которые потом “собираются” обратно, обеспечивая высокую скорость исполнения. Это аналог облачных технологий. Для реализации такой возможности мы предлагаем SAS Grid Manager, компонент платформы SAS 9.3.
Не так давно появилась еще одна составляющая HPC, которая предлагает частичный перевод нагрузки от аналитических вычислений на сторону СУБД, а также регламентное применение готовых аналитических моделей к новым данным полностью на стороне СУБД (in-database).
И наконец, самая передовая технология — работа аналитики в оперативной памяти сервера СУБД. При этом достигается принципиально новый уровень скорости вычислений благодаря максимальной интегрированности аналитики и хранилища данных. Также снимаются ограничения на сложность алгоритмов, которые можно запускать на стороне СУБД, и которые существовали из-за того, что язык обработки данных не предназначен для математических методов. Теперь аналитика работает в непосредственном контакте с хранилищем и передает ему только точечные расчеты (in-memory, SAS High Performance Analytics, или HPA).
Применение более продвинутых технологий, наверное, усложняет работу ИТ-подразделений предприятий?
Как раз наоборот. Например, распределенные вычисления делают жизнь ИТ проще и позволяют экономить на аппаратном обеспечении. С одной стороны возможности бизнес-приложений и программных платформ постоянно растут, требуя все больших аппаратных ресурсов. С другой — серверы зачастую работают в условиях недозагрузки и недоиспользования даже имеющихся мощностей. Grid Computing позволяет развернуть новую систему на нескольких имеющихся серверах, а не закупать новый большой сервер. Или осуществить увеличение мощности не заменой сервера, а добавлением в имеющийся набор серверов нового, небольшого.
Как использование высокопроизводительных вычислений влияет на работу аналитиков?
Во-первых, для них отпадает необходимость брать подвыборки данных для выявления закономерностей, они могут работать с Big Data и не терять часть информации.
Во-вторых, например, SAS High-Performance Analytics позволяет строить регрессионную модель по анализу миллиарда записей с тысячью характеристиками за 54 с. Это делает работу аналитика по применению даже сложных методов интеллектуального анализа данных по-настоящему интерактивной.
Почему столь технологичные вопросы в итоге важны для бизнеса?
Современный руководитель теперь получает результаты анализа данных, необходимые ему для принятия управленческих решений, не через несколько дней после событий, на которые он хочет отреагировать, а через несколько минут.
Использование Grid Computing позволяет информационно-аналитической системе остаться в работоспособном состоянии при выходе из строя одного из задействованных серверов. Это важно в критичных для бизнеса системах, требующих высокой доступности.
Аналитики, выявляя закономерности в интерактивном режиме, а не как раньше, запуская анализ данных на выходные дни, могут применить алгоритмы нужное им число раз. Это позволяет подобрать оптимальные настройки и в итоге увеличить точность результатов анализа. Польза отдельных компаний от применения бизнес-аналитики уже давно измеряется миллиардами рублей в год. Когда улучшение точности анализа дает увеличение этого числа хотя бы на несколько процентов — это уже имеет значимо.
Приведите, пожалуйста, примеры жизненных ситуаций, когда использование интеллектуального анализа “больших данных” дает ощутимый для всех положительный эффект.
На практике использование высокопроизводительных вычислений в условиях анализа десятков миллионов клиентов позволяет, например, дать еще более точную оценку, кому давать кредит, а кому нет. В условиях огромных массивов технической информации ускоряется принятие решения, какому нефтяному насосу стоит провести ТО, чтобы избежать его поломки. В масштабах анализа населения страны возникает понимание, какой объем каких лекарств стоит закупить в следующем году, исходя из прогноза заболеваемости, каким налоговым декларациям стоит уделить более пристальное внимание, какие лица образуют преступную группировку, и кто ее лидер…
Или вот представьте себе: оператор связи, десятки миллионов абонентов, десятки возможных маркетинговых акций по продвижению новых продуктов или удержанию, у каждой акции оценена вероятность позитивного отклика для каждого абонента, несколько возможных каналов взаимодействия, набор ограничений, например, маркетинговый бюджет, политика контактов, возможности звонкового центра. Аналитика должна решить задачу оптимизации итоговой прибыли и подобрать наилучшее предложение каждому абоненту с учетом имеющихся ограничений. Причем сделать она это должна в интерактивном режиме, чтобы у аналитика была возможность быстро просчитать несколько возможных сценариев. Тогда, например, он сможет доказать или опровергнуть необходимость увеличения маркетингового бюджета.
Реальные проекты по внедрению BI-решений на базе HPC-технологий в российских компаниях уже имеются?
Да, имеются. Но раскрывать их названия пока рано. Могу сказать только, что это самые известные и крупные российские банки.
Какие дополнительные возможности BI-приложений будут актуальны в ближайшей перспективе?
Думаю, будет важна возможность анализировать терабайты текста в Интернете и внутренних источниках. Например, учитывать высказывания клиентов для понимания, являются ли они заинтересованными покупателями, собираются ли отказаться от услуг компании. Анализировать описание банковских транзакций, чтобы понять, мошеннические ли они. Или определять, каков баланс позитивных и негативных отзывов людей по заданному бренду или продукту, с какими характеристиками продукта связан негатив.
В мире еще столько данных, из которых можно извлечь полезную информацию!
СПЕЦПРОЕКТ