ПОИСКОВЫЕ СИСТЕМЫ

За неструктурированные данные принимается искусственный интеллект

Корпорация IBM последнее время активно работает над новой технологией поиска информации, которая может составить серьезную конкуренцию нынешней системе Google. По крайней мере, в корпоративном секторе.

О том, как решается проблема анализа неструктурированных данных, нам рассказали в июле представители Исследовательского центра им. Уотсона этой корпорации. Основу нового поискового механизма составляет Unstructured Information Management Architecture (UIMA, архитектура управления неструктурированной информацией), сочетающая в себе целый ряд технологий искусственного интеллекта. Старший вице-президент и директор исследований IBM Пол Хорн образно назвал ее "Google на стероидах".

UIMA, по его выражению, использует "комбинацию гипотез", что помогает ей анализировать огромные массивы неструктурированных данных и извлекать из них нужную информацию. При решении поисковых проблем все эти технологии действуют методом "грубой силы", взаимно дополняя друг друга.

Исследования по обработке естественных языков в многоязычной среде курирует в IBM Салим Рукос, известный специалист в области машинного перевода. По его словам, "UIMA делает более доступными все компоненты, необходимые для решения проблемы, остается только найти эффективные способы их оркестровки".

IBM уже создала на базе UIMA три системы. Первая из них, под рабочим названием Jedi, представляет собой вариант этой инфраструктуры на языке Java, во второй использован язык C++. Третья же, которую считают наиболее вероятным претендентом на широкую реализацию в той или иной форме, построена по принципу Web-сервиса. Эта система носит название Web Fountain. Как пояснил нам Хорн, выйдя в Сеть, "она читает тексты на разных узлах, усваивает прочитанное, а потом говорит, о чем там написано".

IBM UIMA в роли сыщика

Архитектура управления неструктурированной информацией

-"Комбинация гипотез", открывающая множество путей к пониманию сохраненных данных.

- Статистические алгоритмы, системы на базе правил, символическая аргументация и искусственный интеллект.

- Имитация шаблонов человеческого мышления.

- Перспективное использование в продуктах IBM, начиная с портальных. 

В Web Fountain предусмотрены функции естественного языка, благодаря чему механизм позволяет находить взаимосвязанную информацию. "Это было сделано по просьбе ряда крупных компаний, включая British Petroleum, - сказал Хорн, - которым очень хотелось узнать, что о них говорят".

Реализацию UIMA представители IBM считают хорошим примером успешного взаимодействия исследовательских подразделений корпорации с производственными, в результате которого новые практические разработки появляются и у тех и у других.

"Эта технология уже приносит свои плоды в консультационной деятельности, - отметил Хорн. - Однако она обязательно придет и в наши программные продукты, например в поисковые системы порталов".

Начав создание UIMA в ответ на запросы пользователей, корпорация непрерывно совершенствует ее. На сегодняшний день архитектура уже успешно применяется консультантами IBM, а в будущем послужит и в коммерческих продуктах, первые из которых должны появиться в лабораториях подразделения Lotus Software.

Опытом работы с Web Fountain с нами поделилась Нэнси Стейси - партнер консультационной службы IBM из Вашингтона. С помощью этой системы она подсказывает клиентам, как улучшить ведение дел и эффективнее решать возникающие проблемы с потребителями.

"Это очень перспективная разработка, у нее масса самых разных областей применения, - уверена Стейси. - Она, в частности, помогает определить, какой репутацией пользуется фирма у потребителей, что те о ней думают и как к ней относятся".

Кроме исследовательского подразделения IBM новый механизм уже используется и группой наук о жизни этой же корпорации, сотрудники которой решают сложные вопросы генетики. О том, что это дает, нам рассказал Брюс Мак-Манус, содиректор центра iCAPTUR4E (Imaging, Cell Analysis and Phenotyping Toward Understanding Responsive, Reparative, Remodelling and Recombinant Events - визуализация, клеточный анализ и фенотипизация для изучения явлений реагирования, восстановления, реконструкции и рекомбинации), созданного при университете Британской Колумбии в канадском Ванкувере. Вот его слова: "Опираясь на свой глобальный опыт, IBM старается выработать стратегию интеграции данных и открыть доступ к комплексным данным из самых разных источников - экологических, генетических, геномных. В результате у нас должна появиться информация, о которой раньше можно было только мечтать".