Разработка Web-узлов для нечеловеческих “пользователей”
Взгляд изнутри
В последние годы разработчики Web-узлов сосредоточились главным образом на выявлении своей аудитории и ее обслуживании. Но в ближайшем будущем эта задача станет сложнее, поскольку понятие “аудитория” все больше размывается.
Например, некоторыми из ваших основных читателей вообще будут не люди, а автоматизированные программные агенты или более простые программы, предназначенные для переноса информации с Web-страниц в другое приложение. Даже сейчас отдельные Web-узлы содержат страницы, на которые читатель-человек вряд ли заглянет: большие таблицы или списки запрашиваются почти исключительно приложениями, работающими на узлах клиентов или партнеров.
Существует несколько приложений, которые автоматизируют поиск информации на Web-страницах. Это Web Automation Toolkit фирмы WebMethods (www.webmethods.com),
LiveAgent фирмы AgentSoft (www. agentsoft.com) и CenterStage фирмы OnDisplay (www.ondisplay.com).
А что касается представления информации, то одна из главных целей разработки языка XML заключалась в том, чтобы сделать Web-страницы более удобными для программной проверки и анализа.
Использование Web-страниц в качестве канала связи между приложениями имеет огромный смысл, особенно во внешней сети extranet, соединяющей вас и ваших клиентов и партнеров. При небольших объемах информации вполне достаточно использовать протокол FTP для передачи электронных таблиц в каком-либо легко читаемом формате, но с увеличением объемов данных или при их частом изменении этот метод быстро становится неприемлемым. Web-страницы же можно генерировать в реальном времени и защищать любым из нескольких методов, при этом к совместимости приложений предъявляются лишь очень небольшие требования.
Тем не менее одна из проблем, связанных с использованием HTML, заключается в ограниченной возможности представления данных. HTML - это подмножество языка SGML, предназначавшееся изначально для передачи структуры и семантики документа, но по мере своего развития язык HTML был переориентирован почти исключительно на передачу внешнего вида документа. Если вы хотите передать что-то еще, кроме информации: “это заголовок” или “это список”, вам придется поработать.
Много усилий было потрачено на преодоление этого ограничения. Такие продукты, как CenterStage, включают сложные механизмы анализа, разработанные для нахождения и автоматического распознавания данных на часто меняющихся страницах, предназначенных для глаз человека. Механизмы анализа также пытаются распознавать типы данных.
XML реализует более логический подход. Прежде всего, провайдер информации знает практически все об этих данных. Вместо того чтобы разрабатывать сложные программы, которые пытаются разобраться в том, что провайдер имел в виду, XML позволяет провайдеру выразить свое намерение явным образом. Например, программе CenterStage приходится немало потрудиться, чтобы найти цену на товар на HMTL-странице. С помощью же XML провайдер может просто создать и использовать указатель с именем <price> (“цена”).
Таким образом, XML - это не что иное, как естественное расширение существующей практики. Многие из вас, вероятно, делали комментарии к важным разделам и данным на языке HTML. Эти комментарии невидимы для браузеров, но могут использоваться для разметки таких разделов и данных, чтобы их можно было более эффективно изменять с помощью программных средств. XML добавляет к этому документацию, используя формат DTD (Document Type Descriptions - описание типов документов), который может быть прочитан и использован другими узлами в качестве основы для автоматического поиска информации.
XML также облегчает разработку узлов, полезных как для читателей-людей, так и для приложений. Используя явные теги, вы можете изменять структуру своих страниц, не беспокоясь о прерывании программ на другом конце. Но когда вы закончите работу с XML или просто задокументируете свои HTML-комментарии, хорошо организованный, машинно-читаемый Web-узел будет гораздо легче использовать, а ведь именно это всегда является конечной целью.
Имонн Салливан
Как вы думаете, есть ли шансы у XML? Сообщите мне по адресу: esullivan@zd.com.