СЕМАНТИЧЕСКИЙ WEB
Бернерсу-Ли всемирная паутина представляется в виде базы данных, к которой любой человек может подключиться и копировать все что угодно
В 1991 г. Тим Бернерс-Ли создал Всемирную паутину, навсегда изменив характер ведения бизнеса, образования и взаимного общения людей. Спустя несколько лет он стал рассуждать о своем новом видении "паутины", которая сможет делать с данными то же самое, что обычный Интернет уже сделал с неструктурированным контентом.
Бернерс-Ли называет это "семантическим вебом". Говоря упрощенно, семантический веб позволит рассматривать Интернет в целом как базу данных (БД). Точно так же, как разработчик может запрашивать сведения из обычной БД и создавать приложения, оперирующие этой информацией, любой человек получит возможность собирать данные во всей интернет-сети и в соответствии со своими нуждами строить приложения, обрабатывающие взаимосвязанные, но разрозненные сведения из различных источников.
В семантическом вебе не нужно вдаваться в подробности, о чем именно идет речь в том или ином конкретном случае, запуская для этого поиск фрагментов текста и выдвигая собственные предположения, поскольку информация в этом случае будет соответствующим образом размечаться и снабжаться четкими указаниями. Но еще важнее, что к семантическому вебу можно будет легко подключиться, чтобы найти однотипные или взаимосвязанные данные.
Наконец-то семантический веб
Тима Бернерса-Ли начинает
приобретать очертания
Однако потребовалось много лет, прежде чем все фрагменты семантического веба были собраны воедино. Некоторые ключевые элементы, в том числе язык запросов, лишь недавно получили статус стандартов консорциума World Wide Web Consortium (W3C), в котором председательствует Бернерс-Ли. У многих сложилось впечатление, что семантический веб представляет собой одну из новых технологий, которой потребуется очень много времени для достижения зрелости.
Но семантический веб обретает наконец четкие очертания. Разработчики, обслуживающие компании и сайты и создающие веб-приложения, начинают формировать с использованием этой технологии модели данных, обеспечивающие выполнение совершенно новых функций. Компаниям, программистам и пользователям Интернета пришла пора подготовиться: наступает эпоха семантического веба.
Лаборатория eWeek Labs взяла интервью у Бернерса-Ли, стараясь выяснить его взгляды на состояние и перспективы семантического веба. С этой же целью мы обратились к Эрику Миллеру, многолетнему руководителю инициативы "Семантический веб" консорциума W3C и президенту компании Zepheira, которая помогает бизнесменам в развертывании и использовании технологий семантического веба. Чтобы выяснить, каковы могут быть практические последствия появления семантического веба, мы изучили также несколько общедоступных реальных примеров использования технологий семантического веба. Наконец, мы проанализировали трудности, с которыми сталкивается развитие этого направления, - проблемы безопасности, поднятую вокруг него шумиху, наличие данных, защищенных авторским правом, и т. д. Эти проблемы нам удалось обсудить со Стивеном Доунсом, ученым из Института информационной технологии (Institute for Information Technology) Национального научного совета Канады (National Research Council), который придерживается мнения, что в конечном счете семантический веб потерпит неудачу именно потому, что данные, как правило, защищены авторским правом.
Мы надеемся, что ознакомившись с этой информацией, вы сможете лучше представить себе, что такое семантический веб, в каком состоянии он находится, каковы его перспективы и, что важнее всего, как он повлияет на ваш бизнес.
Процесс создания
Можно утверждать, что работа по созданию семантического веба ведется непрерывно со времени появления этого термина. Бернерс-Ли заявил: "В течение последних десяти лет мы выстраивали фундамент семантического веба в смысле разработки форматов данных, языка онтологии и всего, что с этим связано".
Семантический веб использует несколько основных технологий для выявления смысла данных. Первая напоминает ту, что изначально применялась для создания Интернета. Это унифицированные идентификаторы ресурсов (Uniform Resource Identifier, URI). Всякий раз, когда вы заходите в Интернет, вы используете множество URI, поскольку это основной метод адресации в Сети. (Любой стандартный веб-адрес в формате URL представляет собой один из видов URI.) URI имеют большое значение для семантического веба, потому что для доступа к данным необходимо иметь возможность указать место их размещения и идентифицировать их точно так же, как в случае с веб-сайтом.
Еще более принципиальное значение для семантического веба имеют описания ресурсов (Resource Description Framework, RDF). В сущности, для них и был разработан первый стандарт в рамках семантического веба. RDF позволяет описать размещенный в Интернете контент таким образом, чтобы сделать его понятным для машины. Хорошими примерами описания RDF являются файлы FOAF (Friend of a Friend). Их можно назвать файлами семантического веба, относящимися к конкретным людям.
Например, FOAF-файл "Джим Рапоза" позволяет программе понять, что существует человек по имени Джим Рапоза, который связан с конкретными веб-сайтами, компаниями и учебными заведениями, а также имеет друзей. Но важнее всего, что для этих друзей тоже созданы файлы FOAF и RDF и машина может перейти к ним по имеющимся ссылкам. Подобный переход представляет собой ключевое действие в семантическом вебе: от одних данных можно перейти к другим, имеющим непосредственное отношение к первым.
Какое-то время RDF оставался практически единственным стандартом семантического веба. И хотя в результате появилось несколько любопытных реализаций RDF, семантический веб остановился в своем развитии. Затем консорциум W3C одобрил язык веб-онтологий OWL (Web Ontology Language). Он имеет особое значение для бизнеса, поскольку возможность создавать онтологии играет ключевую роль в категоризации и классификации групп взаимосвязанных (related) данных.
Но у семантического веба по-прежнему оставалось слабое место, связанное с отсутствием языка запросов, что имеет принципиальное значение. "Попробуйте представить себе попытку разработать реляционную базу данных без использования языка SQL", - пояснил Бернерс-Ли суть проблемы. Однако она была благополучно решена с появлением SPARQL (рекурсивный акроним, SPARQL Protocol and RDF Query Language). Этот протокол позволил формировать запросы к RDF и семантическому вебу, подобные SQL-запросам.
Так и образовался винегрет из стандартов и технологий. Но как люди используют технологии семантического веба и чем эти технологии отличаются от ставших привычными интернет-ресурсов? Легче всего понять семантический веб на реальных его воплощениях.
Семантический веб в действии
Существует множество классических примеров использования технологий семантического веба, способных помочь в решении самых острых проблем. Это, в частности, приложения для наук о жизни, помогающие исследователям находить и получать сведения о лекарствах и заболеваниях и ориентироваться в них, ведь одни и те же медикаменты и болезни в разных случаях могут именоваться по-разному. Но можно привести примеры и из области использования Интернета в повседневной жизни.
DBpedia.org представляет собой проект применения технологии семантического веба к огромному количеству данных, содержащихся в популярной интернет-энциклопедии Wikipedia.org. Используя DBpedia, можно с помощью языка SPARQL создавать гораздо более эффективные запросы к Wikipedia, чем при помощи обычных инструментов поиска. Так, с помощью поискового механизма Wikipedia вы практически не найдете поставленные в Нью-Йорке телевизионные комедии: на первой странице с результатами поиска будет указано только одно произведение.
А вот использование DBpedia с технологией семантического веба позволит вам получить совершенно точный перечень поставленных в Нью-Йорке комедий. И он почти столь же точен, как если бы запрос составлялся к базе данных SQL, а не к веб-сайту, который обучили пониманию семантики.
В качестве другого примера можно привести онлайновый телевизионный сервис Joost, в свое время вызвавший немалую шумиху. Этот сервис опирается на технологию семантического веба, помогающую пользователям лучше понять взаимосвязи между отдельными фрагментами контента, что, в свою очередь, упрощает для них поиск контента, в наибольшей степени отвечающего их интересам.
Одной из причин, побудивших Миллера из консорциума W3C создать компанию Zepheira, было стремление помочь бизнесу понять технологии семантического веба и оказать ему содействие в их развертывании. "Существует много хороших стандартов и технологий, но разрыв между стандартами и технологиями все еще слишком велик", - считает Миллер.
Одна из важнейших проблем, обнаруженных Миллером после того, как он развернул технологии семантического веба в самых разных компаниях, заключается в том, что большинство из них уже накопило огромный объем наделенных глубоким смыслом семантических данных, созданных с помощью различных систем - программ электронной почты, календарного планирования, СУБД, корпоративных директорий LDAP и т. д. "На предприятиях начинают понимать, что они обладают колоссальным интеллектуальным капиталом, который не могут эффективно использовать", - полагает Миллер.
В проекте GeoNames технологии семантического веба используются для создания географического информационного ресурса
Создатели сайта RealTravel.com объединили блоки и другие технологии Web 2.0 с возможностями семантического веба
По его мнению, компании сейчас проводят огромную работу, связанную с высвобождением данных из патентованных систем, чтобы использовать эти данные в приложениях семантического веба. Кроме того, сказал Миллер, технологии семантического веба все шире применяются в процессе интеграции бизнеса с помощью традиционных средств. Это совпадает с мнением Бернерса-Ли, заявившего, что "...основной ролью технологий семантического веба является интеграция данных, содержащихся в различных приложениях".
Ухабы на пути внедрения
Хотя потенциальные возможности семантического веба очень велики, развитие этой технологии сталкивается с большим количеством проблем. Поскольку речь идет о веб-технологии, она будет уязвима для мошенников и "плохих парней", которые попытаются использовать ее для своей выгоды. Например, существуют сайты, предназначенные для фишинга и копирующие сайты законных владельцев. Не исключено, что сходные приемы будут применяться для введения пользователей в заблуждение с помощью ложных данных, которые якобы будут поступать из надежного источника.
Кроме того, важной проблемой для приложений семантического веба является контроль доступа. Особенно когда они применяются в бизнесе. В таких случаях необходимо гарантировать, что данные не попадут к тем людям, для кого они не предназначены. Бернерс-Ли утверждает, что сообщество разработчиков семантического веба уделяет этому большое внимание и упомянул о проекте Policy-Aware Web (www.policyawareweb.org), в рамках которого разрабатываются правила контроля доступа для новой веб-технологии.
У многих сложилось впечатление, что семантический веб представляет собой одну из новых технологий, которой потребуется очень много времени для достижения зрелости. |
Другая проблема семантического веба связана с поднятой вокруг него шумихой. Семантический веб сейчас пользуется большой популярностью у многих производителей, рассчитывающих с его помощью привлечь внимание к своим продуктам. А некоторые специалисты по маркетингу уже используют термин Web 3.0 при описании технологий и продуктов, созданных для семантического веба.
Обычно, когда вокруг какой-то технологии поднимается шум, множество компаний начинают утверждать, что их продукты относятся именно к данной категории, хотя в действительности они не имеют к ней никакого отношения. Мы уже получили массу продуктов, в которых якобы воплощены технологии семантического веба, но которые совершенно очевидно никак с ним не связаны. Нередко подобные всплески пиара могут лишь замедлить развитие новой технологии, поскольку вводят в заблуждение потенциальных клиентов и дезориентируют разработчиков.
Есть простой способ определить, действительно ли в том или ином продукте реализована технология семантического веба: если продукт не поддерживает такие основополагающие стандарты, как RDF, OWL или SPARQL, то он к семантическому вебу не имеет никакого отношения. |
Бернерс-Ли считает, что имеется простой способ определить, действительно ли в том или ином продукте реализована технология семантического веба: следует лишь обратить внимание на поддержку стандартов. Если продукт не поддерживает такие основополагающие стандарты, как RDF, OWL или SPARQL, то он к семантическому вебу не имеет никакого отношения.
Правда, некоторые наблюдатели считают, что основная проблема семантического веба связана не с безопасностью, поднятой шумихой или поддержкой стандартов. Главное - жадность. Один из их доводов состоит в том, что производители ПО и крупные коммерческие веб-сайты не захотят предоставить имеющиеся у них данные и начнут создавать патентованные форматы, чтобы удержать людей, пользующихся их продуктами и посещающих их сайты.
Такой аргумент приводит исследователь Доунс, который опубликовал в своем блоге эссе "Почему семантический веб потерпит крах". В интервью еженедельнику eWeek г-н Доунс заявил: "В первую очередь и главным образом компании стремятся обеспечить свою монополию на конкретный формат или конкретный стандарт".
Доунс, применявший семантический веб и сходные технологии в процессе онлайнового обучения, отметил, что технологии наподобие RDF существуют уже долгие годы. Но многие корпорации избегают использовать их в проектах, где это имело бы смысл. Несложно найти подтверждение его слов, взглянув на такие широко доступные сайты, как Flickr или даже Google, либо на продукты корпоративного класса вроде IBM Lotus Connections. Они обладают многими семантическими возможностями, но не используют ни RDF, ни какие-либо другие технологии семантического веба.
Тем не менее и Бернерс-Ли, и Миллер назвали нам много способов, позволяющих без особого труда преобразовать проприетарные данные в данные семантического веба. Например, такие сайты, как Flickr, уже являются машиночитаемыми. Кроме того, по словам Бернерса-Ли, для сохранения конкурентоспособности сайтов и продуктов придется их проприетарным данным придать черты семантического веба. И, разумеется, люди не станут предоставлять сайтам и компаниям свои данные (а именно они придают ценность большинству сайтов), если впоследствии не смогут ими пользоваться.
"Владельцы всех этих сайтов, как бы замечательно они ни были оформлены, должны понять, что пользователи захотят иметь доступ к своим данным", - считает Бернерс-Ли.
Семантическое будущее
Так каковы же перспективы семантического веба? Сохранятся ли и в дальнейшем островки проприетарных семантических данных, которые не поддаются интеграции? Или вскоре мы увидим гигантскую, охватывающую весь Интернет базу данных, с которой благодаря семантическому вебу смогут работать любые существующие ныне и вновь создаваемые приложения?
По нашему мнению, эпоха семантического веба, по всей вероятности, наступит. Он обещает слишком много преимуществ огромному количеству пользователей, чтобы оказаться на обочине развития. Но весьма вероятно также, что семантический веб будет отличаться от того, как его представляют себе сегодня. Web 2.0 позволяет сделать вывод, что люди часто используют новые технологии совершенно удивительным образом. Миллер поведал нам, что уже видел компании, нашедшие весьма интересное и неожиданное применение технологиям семантического веба.
Но в одном можно быть уверенным: с появлением новых технологий способы поиска информации, анализа данных и создания веб-приложений должны радикально измениться. Компаниям следовало бы приступить к изучению этих технологий и путей наиболее эффективного их использования с учетом имеющейся у них инфраструктуры.
Или, говоря словами Бернерса-Ли, "пора семантический веб воспринимать всерьез".