Компании Greenplum и Aster Data Systems будут применять для анализа больших наборов данных пионерскую технологию MapReduce (MR), созданную Google. И Aster Data Systems и Greenplum, конкурирующие с такими крупными компаниями в сфере построения хранилищ данных, как Oracle и Netezza, считают, что MapReduce поможет им улучшить аналитическую обработку больших объемов информации.
Greenplum сделала этот шаг после того, как Aster Data Systems представила продукт In-Database MapReduce, который сейчас доступен для оценки.
“Традиционно, СУБД с массовым параллелизмом могли распараллеливать выполнение обычных SQL-операторов, но испытывали некоторые трудности в работе с более общими программами, написанными либо в виде функций, определяемых пользователями, либо как хранимые процедуры на языке PL/SQL, — отметил глава компании Aster Маянк Бава. — Нередко такие фрагменты кода просто исполнялись на одном узле СУБД с массовым параллелизмом. Теперь аналитики и разработчики могут воспользоваться MapReduce в рамках обычного SQL, создавая функции SQL/MR на таких языках, как Java, Python, R и т. д.”.
Используя Greenplum MapReduce, компании могут писать MR-программы, которые с помощью нескольких строк кода на языках Perl или Python будут способны обрабатывать и анализировать огромные объемы неструктурированных данных для целого ряда приложений, таких как поиск по ключевым словам и индексирование контента, считает президент и сооснователь компании Greenplum Скотт Яра. Кроме того, хотя SQL вполне годится для решения многих задач анализа и интеллектуальной обработки данных (data mining), есть немало алгоритмов анализа и машинного самообучения, которые нельзя реализовать в рамках SQL, подчеркнул он: “Хорошие примеры тому — байесовский подход к машинному самообучению, алгоритмы кластеризации и работа с естественными языками”.
Эффективность MapReduce в качестве инструмента для корпоративной аналитики стала особенно актуальной темой в связи с тем, что набирают мощь так называемые “облачные” вычисления. Эксперт компании Gartner Дональд Файнберг считает MapReduce достаточно сложным инструментом, но при этом он добавляет, что эта технология может дать компаниям возможность очень быстро обрабатывать чрезвычайно большие наборы данных: “Она требует очень изощренного программирования. Это совсем не то, что обычные разработчики пишут на SQL, используя SQL-вызовы в Cи, Java или других языках”.
Президент Monash Research Курт Монаш также считает MapReduce мощным инструментом для манипулирования данными и их анализа: “Компании, которые интегрируют MapReduce и SQL, расширяют область применения этих инструментов и дают разработчикам и администраторам баз данных возможность развивать инфраструктуру параллельной обработки данных”.