Анализ больших данных с помощью технологии in-memory, возможность использования широкого спектра аналитических алгоритмов для исследования и моделирования в распределенной среде Hadoop — вот только некоторые из неоспоримых преимуществ, которые получат пользователи нового продукта SAS In-Memory Statistics for Hadoop.
«Эти преимущества позволяют беспрецедентно сократить время обработки аналитических запросов при работе с большими данными, — прокомментировал Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании SAS Россия/СНГ. — Так, построить дерево решений на таблице объемом 467 GB с
Новый продукт SAS работает по принципу интерактивного программирования и позволяет сразу нескольким пользователям совместно изучать и анализировать данные, создавать и сравнивать модели, а также оперативно работать с большими объемами информации на базе технологии Hadoop.
Сегодня многие компании прорабатывают бизнес кейсы использования Hadoop. При этом важно иметь возможность применять самые разные методы анализа, включая углубленную аналитику, на огромных объемах данных, для которых потенциально предполагается использовать Hadoop. Именно для таких задач идеально подходит новый продукт. Задачи подобного рода, когда требуется глубоко проникнуть в закономерности, существующие в данных, решают специалисты типа Data Scientist. Обычно графические интерфейсы им не нужны, изучить несколько новых верхнеуровневых процедур — для них не проблема, а вот разнообразие методов анализа и быстрый отклик на запрос в SAS In-Memory Statistics for Hadoop они высоко оценят.
Это решение расширяет линейку продуктов SAS, построенных на базе технологии SAS LASR Server и использующих прогрессивный метод «in-memory» для обработки данных непосредственно в оперативной памяти. Первым из них стало ныне популярное на рынке решение SAS Visual Analytics для интерактивной визуализации данных. Применение SAS LASR Server дает возможность удерживать данные в оперативной памяти кластера блейдовых серверов и работать с ними в интерактивном режиме.
Пользователь SAS In-Memory Statistics for Hadoop получает доступ в режиме интерактивного программирования ко всем основным методам статистического анализа и машинного обучения. Среди них — линейная и логистическая регрессии, обобщенные линейные модели, деревья решений и случайный лес, прогнозирование временных рядов, анализ текстовых данных, кластеризация и др. При этом есть возможность выполнять вспомогательные и служебные задачи: готовить данные к анализу, выделять значимые предикторы, сравнивать модели, формировать код применения моделей.
Новшество, которое добавляет этот продукт к широкому спектру аналитики SAS, — это возможность строить рекомендательные системы, используя большой набор методов их построения. Такие системы востребованы для решения широкого класса бизнес-задач, в том числе целевого маркетинга. На основе анализа информации о том, какими продуктами и услугами воспользовался или пользуется каждый клиент, определяются типовые профили потребления продуктов и услуг, на выходе для каждого клиента выдается продукт/услуга, которые являются для него наиболее востребованными. Такой способ эффективнее классических методов «Cross-Sell» и хорошо подходит для реализации концепции «Next Best Offer» в условиях широкого спектра предлагаемых продуктов и услуг. Этот метод особенно понравится тем, у кого нет возможности построить отдельные модели «Up-Sell» для каждого продукта.
Технология Hadoop повышает надежность системы за счет использования кластера серверов, что позволяет гарантировать сохранность данных при одновременном снижении стоимости аппаратного обеспечения, высокой степени масштабируемости, отсутствии жестких требований к формату данных и их предобработке.
Согласно прогнозам компании IDC, объем продаж Hadoop к 2016 г. достигнет 812,8 млн долларов США при среднегодовом темпе роста 60,2%. Эксперты SAS уверены, что заказчики и в дальнейшем продолжат использовать эту архитектуру хранения больших данных с целью их анализа и получения скрытой в них ценнейшей информации.
Благодаря стратегическому партнерству SAS c такими компаниями, как Cloudera и Hortonworks, клиенты получают лучшие возможности использования отраслевой аналитики в рамках избранных ими решений на базе Hadoop.
Hadoop распределяет данные по кластеру, состоящему из недорогого аппаратного обеспечения (commodity hardware). Также система обнаруживает и устраняет сбои, что крайне важно при распределенной работе. Помимо низкой стоимости аппаратных средств и защиты данных с помощью резервного копирования, Hadoop обладает другими важными преимуществами, среди которых: параллельная обработка данных (модель распределенных вычислений Hadoop позволяет обрабатывать огромные объемы данных, причем в рекордно короткие сроки); масштабируемость (мощность системы Hadoop можно легко увеличить путем добавления новых узлов); гибкость в хранении данных (в отличие от традиционных реляционных баз данных, Hadoop позволяет хранить данные в неструктурированном виде без предварительной обработки).