Статья только в электронной версии журнала
И ускоряет обработку характерных для современных хранилищ объемов данных
Марк Хэммонд
Фирма Torrent Systems (Кеймбридж, шт. Массачусетс) выпустила в августе модернизированное ПО, предназначенное для ускорения обработки больших объемов промышленных данных. Теперь параллельно выполняются все возможные вычисления в хранилище данных.
Согласно официальной информации Torrent, ПО Orchestrate 4.0, применяемое для создания и управления выполнением приложений с параллельной обработкой, будет дополнено поддержкой СУБД производства корпорации Oracle (прежние версии поддерживали СУБД фирмы Informix Software и корпорации IBM). Кроме того, у него будет новый графический интерфейс пользователя для разработки параллельных приложений в среде Windows NT.
По мере роста объема хранилищ данных ценность приложений, использующих параллельную обработку и выполняющихся вне СУБД, становится все более очевидной для крупных компаний, включая такие фирмы, как United Airlines и Sears, Roebuck and Co.
Вопреки широко распространенному заблуждению большинство приложений, исполняющихся вне среды СУБД, не используют в полной мере возможностей параллельной обработки. Для этого недостаточно одного применения многопроцессорного оборудования и параллельных СУБД, говорит президент консультационной корпорации Winter (Бостон, шт. Массачусетс) Ричард Уинтер. Приложения, выполняющие сортировку, разбраковку и преобразование данных, все равно работают последовательно, даже на крупных серверах, если только это ПО не было разработано специально для параллельного исполнения на нескольких процессорах.
Определенные типы средств анализа, исполняющихся вне среды СУБД, такие, как средства извлечения информации, также работают последовательно, и их производительность может, по мнению Уинтера, быть существенно повышена благодаря переносу на платформу Orchestrate. “Пользователям, строящим для своего бизнеса сложные параллельные решения, предусматривающие применение множественных продуктов или множественных программ, эта технология сулит значительные преимущества, - заявил он. - При нынешних объемах данных в случае последовательной работы алгоритмов даже при применении мощных SMP [symmetric multiprocessing - симметричных многопроцессорных] и MPP [massively parallel processing - с массово-параллельной обработкой] машин время счета может быть очень и очень продолжительным’’.
Корпорация Ab Initio Software (Кеймбридж, шт. Массачусетс) также принадлежит к узкому кругу производителей, предлагающих ПО, подобное продукту Torrent.
В результате развертывания одной из более ранних версий Orchestrate авиакомпания United добилась повышения масштабируемости ПО на 90%, что позволило максимально увеличить прием заказов и доходы от продажи билетов, говорит менеджер подразделения информационного обеспечения United Ажай Сингх. Если бы не Orchestrate, этой базирующейся в Чикаго (шт. Иллинойс) организации пришлось бы затратить значительные средства и время на разработку сложных специализированных параллельных приложений.
Осуществленный United проект увенчался созданием системы, обрабатывающей ежедневно за 18 часов по 120 млн. записей, или около 3 Тб данных. ПО Orchestrate установлено на состоящей из 24 узлов параллельной системе SP2 производства корпорации IBM, на которой выполняются расчеты по алгоритмам прогнозирования и оптимизации. Результаты этой работы помещаются в исполняющуюся на компьютере HP-K570 компании Hewlett-Packard СУБД Informix, с содержимым которой имеют дело уже конечные пользователи.
“Теперь мы обрабатываем больший объем данных, а значит, система обеспечивает повышенную точность в управлении рейсами, - говорит Сингх. - Когда мы только познакомились с Torrent, то просто не могли поверить в то, что они нам рассказывали, уж слишком это было хорошо, чтобы быть правдой. Тем не менее прототип, разработанный за шесть недель, продемонстрировал, что их система удовлетворяет нашим требованиям как нельзя лучше”.
Руководство United оценивает эффект от реализации этого проекта, затраты на осуществление которого должны составить в конечном итоге около 20 млн. долл., в 50 млн. долл. в год (по сумме дополнительно полученных доходов).
Фирма Sears (Хорффман-Истейтс, шт. Иллинойс) также нуждалась в решении, которое бы позволило ускорить работу ПО, выполняющего маркетинговый анализ для всей сети ее магазинов в целом. Процедура последовательного извлечения данных из хранилища на базе СУБД производства Informix и помещения их во встроенную СУБД ПО фирмы SAS Institute оказалась недопустимо медленной и сложной. Пакет SAS System был переведен на платформу Orchestrate, что позволило существенно ускорить анализ данных.
Благодаря применению продукта Torrent извлечение данных в системе Sears стало выполняться параллельно сразу 20 узлами ее SMP-компьютера производства IBM; кроме того, он позволил организовать параллельное исполнение приложений SAS.
Первый прототип системы был развернут в конце 1997 г. Если последовательное извлечение 2,5 млн. записей занимало 5,5 часа, то при применении Orchestrate это время сократилось до 40 минут, сообщила старший менеджер по проекту в подразделении информационного обеспечения фирмы Sears Карен Лукашек.
Это позволило Sears увеличить объем извлекаемой информации, так что теперь в течение 7 часов обрабатывается около 17 млн. записей - без применения продукта Torrent на это потребовалось бы, по оценке Лукашек, около 28 часов. Опираясь на такое повышение производительности, Sears планирует перейти к ежемесячному выполнению процедуры извлечения данных. “Раньше они составляли планы лишь дважды в год - из-за огромных усилий, которых требовала эта работа’’, - пояснила Лукашек.
Orchestrate 4.0 поддерживает ОС Solaris, AIX и NT. Цены на модернизированную версию пока не объявлены.
Телефон фирмы Torrent: (617) 354-8484, адрес: www.torrent.com.
Torrent Orchestrate 4.0
- Поддержка СУБД корпорации Oracle
- Повышение с применением параллельной обработки масштабируемости процессов сбора, преобразования, разбраковки, загрузки и извлечения информации
- Платформа для разработки параллельных приложений