С каждым годом объем информации, хранящейся в корпоративных базах данных и онлайновых хранилищах, возрастает экспоненциально. Предприятия сталкиваются с весьма реальной проблемой анализа всех этих сведений и их распределения между отдельными системами и конечными пользователями.

Приобщение к технологии семантической сети

Дело в том, что по мере роста объема информации и количества информационных систем традиционные методы поиска с помощью индексов становятся все менее эффективными. Некоторые технические специалисты возлагают надежды на семантическую технологию. Это не защищенный авторским правом способ категоризации и привязки данных к контексту, упрощающий организацию и поиск данных. Однако многие руководители компаний просто не представляют, что такое семантическая технология. Она кажется им столь же недоступной для понимания и не поддающейся расшифровке, как иероглифы до открытия обелиска в Розетте.

“Семантические технологии только вступают в пору зрелости, спрос на них еще невелик, -- говорится в отчете компании Gartner. -- Многим организациям трудно будет понять, что представляет собой семантический подход, и увидеть в нем последнее слово технической мысли. Избегая риска, они будут сторониться его”.

Руководители многих компаний еще только пытаются осознать, что же в действительности означает семантическая технология, однако потенциально, по мнению Gartner, она способна помочь решить нарастающие проблемы с управлением информацией. В мае, во время мероприятия Gartner Emerging Trends and Technologies Roadshow, специалисты этой исследовательской фирмы утверждали, что в ближайшие четыре года семантическая технология войдет в десятку наиболее революционных.

Необходим принципиально новый подход

Как пояснил аналитик из Gartner Тед Фридмен, сегодня ИТ-службам нередко поручают помочь сотрудникам бизнес-подразделений наладить совместное использование информации -- как размещенной в Интернете, так и циркулирующей внутри предприятия. “Коллективный доступ к данным приобретает все большее значение, поскольку организации стремятся увеличить производительность труда, более гибко реагировать на изменения среды да и просто повысить эффективность своей работы”, -- сказал он. К сожалению, по его словам, совместная работа с данными остается серьезной проблемой: “В компаниях накоплены горы информации. Работники не знают, где хранятся те или иные сведения, как они выглядят, какое имеют значение и каков их семантический контекст. Поэтому к ним трудно организовать коллективный доступ. В результате люди говорят на разных языках”.

На предприятиях информация может храниться в разных формах, в разном контексте и с поддержкой разных технологий. Например, виджет можно вызвать с помощью двух различных записей, хранящихся в двух базах данных, а адрес записать в двух разных форматах. “В сущности растет не только объем данных, но и количество источников, из которых они поступают, -- пояснила Айрин Поликофф, генеральный директор компании TopQuadrant, выпускающей инструменты для создания семантических приложений. -- Среднестатистическая организация не в силах справиться с этой проблемой, которая уже является весьма болезненной и с каждым годом становится все острее. Необходимо либо смириться с этим, либо взвалить на себя все трудности, связанные с нововведениями”.

Компании все чаще приходят к выводу, что они не в состоянии решить данную проблему, используя прежние методы. Поэтому, считает Поликофф, нужны новые решения. Джон Джиннандреа из фирмы Metaweb Technology на протяжении многих лет изучал различные семантики в компании Netscape, а перейдя в Metweb, участвовал в разработке открытой базы данных. Он выразился просто: “Всем известно, что человеческие знания приобрели огромные масштабы. Процесс их создания носит одновременно беспорядочный и в высшей степени творческий характер”.

Создание контекста

По словам аналитика из компании Gilbane Group Линды Моултон, важнейшим термином в семантике является “контекст”. В конечном итоге механизм семантического анализа позволит вам задать вопрос на естественном языке и получить точный ответ. Как это происходит? Технология или логика поиска, на которой построены эти поисковые системы, применяются не только к контексту, но и к самим вопросам.

“Прежде всего система задается вопросом, а о чем меня, собственно, спрашивают? Затем из имеющейся информации она должна выбрать ту, которая соответствует запросу, -- рассказала Моултон. -- Теперь можно воспользоваться двумя способами, с помощью которых компьютеры осуществляют поиск. Один из них заключается в том, чтобы последовательно брать элементы вопроса и просматривать весь массив информации в поисках буквального совпадения. Когда оно обнаруживается, система сообщает: вот то, что вы ищете. И начинает поиск следующего совпадения. Конечно, это происходит очень медленно. А кроме того, есть давно применяемая технология индексирования. В этом случае все варианты искомого слова перечисляются в одном списке, указатели дают ссылку на документ и помещаются в документе там, где встречается данное слово. В результате поиск идёт значительно быстрее”.

По мере развития технологии поиска Моултон стала отказываться от простых способов индексирования в пользу более сложных алгоритмов, разработанных на лингвистической базе. Например, глагол “to rise” может встречаться в форме прошедшего времени, будущего и т. д. Тем не менее с помощью индекса поисковая система его распознает. Она может найти слово “rose” и предположить, что оно имеет какое-то отношение к глаголу “to rise”.

“Тут возникают определенные проблемы. Ведь тот, кто ищет слово “rose”, может иметь в виду цветок розы. Вам придется просматривать все ненужные результаты поиска, поскольку поисковая система использовала некоторые предположения относительно того, как именно вы употребляете слова. А эти предположения не всегда верны. Таким образом, вы получаете нерелевантные результаты, -- подчеркнула Моултон. -- Это побудило специалистов по компьютерным поисковым системам к созданию более интеллектуальных и совершенных способов контекстного индексирования”.

Учение об онтологиях

Семантическая технология открывает новые способы контекстного индексирования, создавая то, что Моултон именует “иерархией терминов”, а специалисты по семантике называют онтологией: “Вы, может быть, слышали о таксономиях, которые представляют собой древовидные языковые структуры. Онтология выводит их на новый уровень. Вместо двумерного представления (термины более узкий и более широкий) вы получаете неограниченное число связей между словами или списками слов. Я могу утверждать, что руль является частью автомобиля, колесо является частью автомобиля и двигатель является частью автомобиля, а карбюратор представляет собой часть двигателя. Это соответствует концепции терминов “более узкий -- более широкий”. Если вы переведете ее в иную систему координат и заявите, что двигатели -- это системы автомашин, которые приводят их в движение, а карбюраторы -- один из компонентов двигателей, то вы получите совершенно новый уровень взаимоотношений между словами”.

Онтологии создают сеть связей, которая может использоваться поисковой системой, когда пользователи хотят быстро найти информацию в различных источниках данных.

“Мы наблюдаем большой интерес со стороны людей, накопивших значительный объем разнообразного контента, -- добавила Поликофф из TopQuadrant. -- Представим себе магазин розничной торговли, в каталоге которого значится множество разных товаров: холодильники, ковры, электроника и т. д. Нужно иметь возможность быстро составлять такой каталог и включать в него новые источники информации. Онтологии являются не столь жесткими, как структуры данных. Это позволяет нам быстро создать модель каталога магазина, наполнить ее данными и оперативно осуществлять поиск”.

В результате, как считает Поликофф, появляется новый уровень метаданных, упрощающий навигацию в информационном массиве: “Мы исходим из того, что у вас имеются различные источники данных, хранящихся в разных форматах. Это создает некоторые проблемы. А теперь у вас есть уровень источников данных, назовем это так. Он существует в любых организациях и на любых предприятиях. Такая технология позволяет вам построить поверх этого уровня еще один. Мы можем назвать его уровнем семантической сети. Он складывается из моделей определенных типов, которые позволяют связать различные источники данных с общим словарем. Это дает вам возможность создавать весьма насыщенные информационные пространства разных видов, на основе которых вы можете построить множество разнообразных приложений”.

Как использовать данные с максимальной эффективностью

Гибкие и надежные взаимосвязи между данными, устанавливаемые с помощью онтологий, особенно привлекательны при создании тематических иерархий. Здесь прорыв в работе обеспечивается заданием связей между разрозненными коллекциями данных. Например, сотрудники компании, занимающейся медико-биологическими науками и исследованиями в области лекарственных препаратов, могли бы творить чудеса, если бы получили упрощенный доступ к малоизвестным работам и содержащимся в них знаниям, а также к информации, скрывающейся в архивах, которые создаются в каждом подразделении.

“В медико-биологических науках ощущается острая необходимость в интеграции источников данных. Здесь накоплена масса информации по биологии, лекарствам, химическим веществам и т. д., -- отметила Поликофф. -- Наши клиенты, работающие в этой области, используют наш продукт для интеграции своих данных. Он позволяет ученым искать взаимосвязи между данными без заполнения специальных форм. Заранее не предопределяется, какие могут существовать взаимосвязи. Они обнаруживаются в процессе просмотра и поиска. По этой причине множество взаимосвязей открыто наукой случайно. Собрано так много данных, что их необходимо связать воедино и дать людям возможность критически оценить их ”.

Семантику начинают использовать также юридические и иные фирмы, стремящиеся разобраться в кипах судебных документов, правительственные органы и разведслужбы, которым необходимо найти иголку в стоге общедоступной и секретной информации, и даже банки. Некоторые компании, специализирующиеся на предотвращении мошенничеств, используют семантику, чтобы посредством анализа собранной ими информации о транзакциях получить более четкое представление, где и когда может быть предпринята попытка мошенничества.

“Семантическая технология способна обеспечить вам гибкость, позволяющую объединить множество разрозненных данных и составить целостное представление о предприятии, -- сказал Кен Харрис, вице-президент по развитию продуктов компании ACI Worldwide, которая разрабатывает ПО для обнаружения мошенничеств и недавно заключила партнерское соглашение со специализирующейся на семантике фирмой Metatomix, чтобы повысить степень интегрированности информации, собираемой с помощью ее ПО. -- Сильная сторона семантической технологии заключается в ее способности выйти за пределы таксономического подхода к стандартным данным или бизнес-процессам и применить к имеющимся у вас реальным данным концептуальные или теоретические модели более высокого уровня”.

По словам Харриса, семантика помогает ACI Worldwide создавать картину мошенничества и предоставляет мощные средства анализа непрерывно меняющейся обстановки, в которой оно совершается. Наилучшее решение проблемы заключается в том, чтобы взять конкретный случай мошенничества, применить к нему логику и понять его смысл. “Данная технология может вызвать революционные изменения”, -- заявил он.

Трудности

Однако многие эксперты полагают, что должно пройти какое-то время, прежде чем использование семантики приведет к заметным изменениям в большинстве организаций.

“Если бы мне предложили назвать срок (а он зависит от общей экономической ситуации и ряда других факторов), я определенно сказала бы, что он составит менее пяти лет. Может быть, уже через три года эта технология получит широкое распространение”, -- прогнозирует Поликофф. Моултон из Gilbane Group оценивает ближайшие перспективы семантической технологии не столь оптимистично: “Мы считаем, что потребуется десять лет или более, прежде чем она будет отлажена. Дело обстоит так же, как с распознаванием голоса, которое постепенно совершенствуется, но все еще не находит повсеместного применения. Эта технология не всегда хорошо работает. Основные проблемы связаны не с самой технологией, а с ее интерфейсом, дизайном”.

Семантической технологии предстоит преодолеть множество других препятствий на пути к среднестатистическому предприятию. Главное из них -- разработка онтологий.

“Необходимо наращивать количество онтологий. Создаются они двумя способами. Во-первых, когда люди разрабатывают их для использования в интеллектуальных приложениях. Этим занимаются государственные органы и различные специалисты, -- пояснила Моултон. -- Другой способ предполагает применение машин, которые изучают контекст и обучаются использованию языка”.

Уже создан целый ряд языков онтологии и стандартов, которые должны помочь организациям и разработчикам инструментов формировать онтологии единообразно. Но некоторые наблюдатели скептически оценивают нынешнюю экосистему семантической технологии и используемые ею языковые структуры. Джиннандреа из компании Metaweb считает эти языки излишне сложными: “Прекрасно, что схема может гибко изменяться и дополняться. Но плохо, если для этого вы должны овладеть языками онтологии. Я не хочу сказать, что эти языки обладают какими-то принципиальными недостатками. Они действительно полезны. Но для того, чтобы воспользоваться их преимуществами, вам предлагается купить больше, чем вам реально необходимо. У вас есть языки разметки RDF, N3 или OWL. Однако для работы с ними вам, как правило, придется обзавестись всей цепочкой инструментов”.

Metaweb стремится обеспечить более тесную интеграцию с существующими API и языками разметки. Организовав работу в стиле вики, компания привлекает добровольцев для установления связей между данными, которые можно получить из общедоступных источников. Таким способом она обходит сложности, связанные с использованием языков онтологии. Однако, по словам Джиннандреа, в большинстве организаций главное препятствие на пути к использованию семантического подхода в масштабе предприятия представляют ограничения, накладываемые инфраструктурой баз данных: “Хотя для бизнеса разрабатываются некоторые стандарты, касающиеся выписки счетов и тех или иных транзакций, основную массу семантических значений компании определяют в рамках своих баз данных, и в этих замкнутых рамках они и остаются. Если у меня есть база данных по персоналу, в которой указаны имена, даты рождения и должности, то схема базы и значения терминов, используемые в качестве значений полей, являются в принципе уникальными для нее”.

Была создана целая отрасль для решения проблем перекрестных запросов к различным базам данных и согласования их схем, поскольку они возникают всякий раз, когда та или иная организация решит объединить две базы данных.

“Мы говорили со многими генеральными директорами, и они называют это полным идиотизмом. У нас имеются инструменты, которые позволяют пересылать данные в любом направлении. Но мы не знаем, какой смысл имеет то или иное поле таблицы, -- пояснил Джиннандреа. -- Для создания многочисленных связей между данными необходимо то, что называется базой данных на основе трех предикатов. Допустим, в вашей системе встречаются имена Арнольда Шварценегера и Марии Шрайвер. Вы хотите отразить тот факт, что они состоят в браке, добавив строку “Арнольд женат на Марии. Мария замужем за Арнольдом”. Подобные системы на основе трех предикатов существуют с 60-х годов прошлого века. Считается, что их следует использовать для представления структурированных, но допускающих изменения знаний”.

И продолжил: “Проблема в том, что большинство реляционных баз данных не подходит для хранения и обработки такой информации. Хранение в виде столбцов БД, которое используется в хранилищах данных, не годится для формирования запросов к этим реляционным хранилищам. Таким образом, нужен новый тип базы данных. А это уже проблема, если речь идет о предприятии, где все данные хранятся в реляционной БД. Люди начинают осознавать это. Сегодня об этом пишут многочисленные исследователи, работающие в области баз данных, и пользующиеся широкой известностью специалисты по этим вопросам”.

По утверждению Джиннандреа, семантический подход очень перспективен, нужно лишь упростить его реализацию: “Необходимо сделать его доступным. Мы считаем, что основная идея просто великолепна. Наши компьютеры должны понимать концепции, чтобы приносить вам больше пользы. Это прекрасная мысль. Вот только имеющийся сегодня набор инструментов разработан в несколько академическом стиле и слишком тесно привязан к концепции искусственного интеллекта”.