Исследователи компании Xerox представили новую программу контекстного поиска FactSpotter, расширяющую возможности традиционного поиска по ключевым словам. Это решение, как утверждают его разработчики, сочетает в себе возможности мощного лингвистического поискового инструмента с простым интерфейсом, что позволяет любому пользователю создавать запросы для поиска на простом повседневном языке. В отличие от традиционных систем поиска FactSpotter ищет не только ключевые слова, содержащиеся в запросе, но также анализирует весь документ, соотнесенный с данными словами, и выдает в результатах поиска именно ту часть текста, в которой содержится ответ на запрос пользователя с учетом контекста всего документа, а не только группы слов, стоящих рядом с искомым. Эта программа распознает такие абстрактные понятия, как “люди” или “здание”, и отображает все слова, входящие в данные категории.
FactSpotter может встраиваться в качестве поискового механизма в различное ПО. Так, о планах его применения уже объявила служба Xerox Litigation Services, которая в будущем году встроит FactSpotter в предназначенный для юристов программный комплекс e-discovery. На стадии следствия, когда приходится просеивать миллионы сообщений электронной почты и других документов, новый инструмент поможет определять отправителя и получателей сообщений и выбирать информацию о событиях и датах. Эти результаты можно будет использовать для восстановления картины событий, из которой станет исходить следствие.
Следует заметить, что при всей значимости подобных решений они редко годятся отечественным пользователям, поскольку ориентируются на западноевропейские языки. Так, исследовательская группа Xerox, создавшая FactSpotter, находится во французском Гренобле, и пока она решала задачи поиска лишь для нескольких европейских языков (английского, голландского, французского, немецкого, итальянского, португальского и испанского). Правда, для описания грамматической системы разработчики создали специальный метаязык, который с целью демонстрации возможности его использования для языков с другой системой письма применила совместная группа Fujitsu-Xerox, описавшая японскую грамматику, однако остается неясным, насколько вообще система Xerox подходит для русского языка: если западноевропейские языки, как и японский, имеют “полуфиксированный” или даже почти полностью фиксированный порядок слов в предложениях, что резко упрощает их грамматический разбор и позволяет в значительной степени его формализовать, то русский, напротив, отличается почти полной свободой построения фраз, усугубляемой сравнительно редким использованием вспомогательных слов-связок.