ОБЗОРЫ
Продукт Datawatch прост в использовании, но имеет пробелы в наборе функциональных возможностей
Корпорация Datawatch (www.datawatch.com) выпустила в декабре новый продукт VorteXMLServer 1.0 - гибкую, основанную на использовании шаблонов систему для извлечения данных из руды неструктурированных текстовых файлов и превращения их в золото XML.
Главный перспективный рынок для этого ПО - организации с большими архивами текстовых или HTML-файлов (счетов, отчетов, полученных по электронной почте подтверждений, регистрационных журналов и т. п.), заинтересованные в их переводе в более удобный для использования формат XML.
Создание проектов преобразования данных и контроль за их выполнением в среде VorteXML Server
Однако в ходе проведенных в Тестовом центре eWeek Labs испытаний обнаружился ряд существенных ограничений, из-за которых потенциальные покупатели могут переориентироваться на продукты конкурирующих компаний - Whitehill Technologies и ItemField.
Больше всего нас озадачило то обстоятельство, что сервер не выдает никаких предупреждений при обнаружении неправильностей форматирования в исходных текстовых файлах. Например, долларовая сумма с центами, которой предшествовал знак “$”, была округлена до десятых долей - несмотря на указание в тегах десятичного формата с двумя знаками после запятой.
Данные, имеющие неправильности форматирования (тестовые файлы содержали как обычные числа, так и даты), просто пропускались - в выходном XML-файле на их месте оказывались пустые поля. В ответ на наши жалобы представители Datawatch пообещали добавить в будущую версию VorteXML Server необходимые средства контроля, с помощью которых администратор сможет предотвратить появление пустых элементов или атрибутов.
Кроме того, VorteXML Server не отличается гибкостью в поддержке форматов данных и платформ исполнения. Импортируемый текстовый файл должен иметь кодировку ASCII или ANSI; фильтров для документов в форматах текстового процессора Microsoft Word, RTF или PDF (фирмы Adobe Systems) не предусмотрено. Продукт аналогичного назначения ContentMaster фирмы ItemField обладает большей гибкостью в этой области.
VorteXML Server поддерживает сравнительно старые форматы XML-метаданных Document Type Definition и XML Data Reduced, но не значительно более мощный стандарт XML Schema. Новинка способна обрабатывать текстовые и числовые данные, а также календарные даты, но поддержка XML Schema отложена до будущей модернизации продукта.
Производитель запрашивает вполне умеренную цену: 7999 долл. за сервер с числом процессоров не более двух плюс еще 1999 долл. за каждую дополнительную пару ЦП. Для создания используемых VorteXML Server шаблонов импорта потребуется еще один продукт Datawatch - VorteXML. Это персональное средство преобразования текста в XML предназначается для исполнения на настольных Windows-ПК и стоит 599 долл.
Кроме того, для работы системе VorteXML Server потребуются ОС Windows 2000 (или одна из последующих версий) и СУБД SQL Server версии 7.0 или более поздней производства корпорации Microsoft. (Для пользователей, не располагающих SQL Server, в комплект поставки включена бесплатная копия Microsoft Data Engine.) В случае использования интерфейса VorteXML Server на базе протокола Simple Object Access Protocol (простой протокол доступа к объектам) не обойтись также без сервера информационных служб Microsoft IIS (Internet Information Services).
Преобразование данных в неструктурированных форматах (таких, как текстовые файлы) в структурированные (скажем, XML) - задача не из простых. Сильная сторона VorteXML Server - настольный инструмент VorteXML, реализующий гибкий, интуитивно ясный метод “раскрашивания” документов для выделения в них полей данных. (Это настольное приложение способно выполнять всю работу по преобразованию текста в XML и полностью самостоятельно, но только по одному файлу за раз.)
В VorteXML предусмотрена функция идентификации полей данных по расположенным рядом маркерам, знакам препинания и положению в строке. Кроме того, имеется язык составления выражений (хотя и не обладающий всеми возможностями полного языка программирования), который позволяет манипулировать различными переменными.
Обработку HTML-данных VorteXML осуществляет необычным образом: сначала из HTML-файлов извлекается текст, расположенный между парами тегов, и маркируется сгенерированными VorteXML номерами последовательностей тегов. С помощью этих номеров удобно выбирать элементы, встречающиеся в файле не более одного раза; однако чтобы извлечь столбец таблицы без лишних копий его заголовка (которые, будучи лишены соответствующего тега, ничем не отличались от остальных полей), потребовались определенные ухищрения. Сохранение содержащихся в тегах метаданных - включая тип или значения атрибутов - могло бы значительно упростить такую работу.
После создания шаблона мы использовали консоль администрирования VorteXML Server для подготовки проекта преобразования данных, указывая отдельные каталоги для исходных и обработанных файлов и сам шаблон.
Вся дальнейшая работа сводится для пользователя к копированию исходных файлов в соответствующий каталог. Их появление там автоматически обнаруживается, они обрабатываются и перемещаются в каталог для обработанных файлов; а в выходном каталоге в скором времени появляются и результаты в формате XML. Мы бы считали полезным усовершенствованием возможность помещения результатов обработки непосредственно в реляционную БД.
В ходе тестирования с использованием бесплатной СУБД Microsoft Data Engine, поставляемой в комплекте VorteXML Server, производительность системы оказалась весьма низкой: преобразование 100 файлов на сервере с двумя процессорами Intel Pentium III заняло 33 мин (специалистам Datawatch не удалось воспроизвести этот результат в своей лаборатории). После перехода на SQL Server 2000 время обработки сократилось до 2 мин - более чем на порядок.
С техническим директором по Западному побережью Тимоти Диком можно связаться по адресу: timothy_dyck@ziffdavis.com.
Резюме для руководителей
VorteXML Server 1.0
VorteXML делает сложную работу - превращение текста в XML-данные - простой. Инструмент довольно удобен в обращении и во многих случаях успешно справляется с возложенными на него функциями. Однако версия 1.0 имеет значительные пробелы в наборе функциональных возможностей, что затрудняет администраторам задачу обнаружения ошибок форматирования в исходных текстовых файлах.
ОЦЕНКА ОСНОВНЫХ ХАРАКТЕРИСТИК
ЦЕНОВОЙ АНАЛИЗ
При цене 8 тыс. долл. сервер VorteXML не назовешь дорогим продуктом, однако для разовых работ мы бы считали более рациональным обратиться к самостоятельному программированию на таких языках, как Perl, sed или awk.
Простой и мощный инструмент определения шаблонов для текстовых файлов с собственным языком составления выражений; автоматический механизм импорта файлов упрощает ввод данных; интерфейс в виде Web-сервисов.
Нет механизма уведомления администраторов об ошибках форматирования исходных данных; нет фильтров импорта - обрабатываются только обычные текстовые файлы; в процессе предварительной обработки HTML-документов теряется большая часть содержащихся в тегах метаданных; нет поддержки XML Schema; для работы необходим полный набор продуктов корпорации Microsoft: Windows 2000, IIS и SQL Server (можно Microsoft Data Engine).
СПИСОК КОНКУРИРУЮЩИХ ПРОДУКТОВ ДЛЯ СРАВНЕНИЯ
- Самостоятельно разработанные программки для преобразования текста
- <xml> Transport фирмы Whitehill Technologies
- ContentMaster фирмы ItemField
- Data Junction Content Extractor корпорации Data Junction
vortexml.datawatch.com