Электронное слово - с умом и по-русски
Словарь - это моментальный снимок вечно обновляющегося и находящегося в постоянном движении языка. По данным Р. Илсона, в 90% английских семей есть, по крайней мере, один толковый словарь, не говоря о двуязычных и специальных. Словари стали популярнее поваренных книг (70%) и даже Библии (80%). Удивительно, но сегодня электронный словарь уже стоит дешевле печатного. Это при том, что возможности электронного печатному, как говорится, и не снились. Впрочем, будем справедливы, вначале было Слово...
О том, как Слово приобретает электронный вид, я попросил рассказать Игоря Ашманова - кандидата технических наук, выпускника мехмата МГУ, ранее работавшего научным сотрудником ВЦ Академии наук СССР. Сейчас Игорь - директор компании “МедиаЛингва”, разрабатывающей электронный словарь “МультиЛекс”, мультимедийные обучающие программы и поисковые средства для Интернет.
Всего в фирме работает 18 постоянных сотрудников (среди них семь кандидатов наук) - лингвисты, программисты, художники - и 7 - 8 внештатных. Сотрудники фирмы участвовали в разработке системы проверки правописания “ОРФО”, англо-русского электронного словаря “Контекст”, системы оптического распознавания символов “Интуиция”, средства разработки видеоклипов “МедиаМастер”, системы документального поиска “DS_SIMPLE”.
Для поддержки других разработок в фирме “МедиаЛингва” разработана и используется лингвистическая технология, позволяющая анализировать и синтезировать все формы русских и английских слов (машинная морфология). Русская машинная морфология опирается на машинный словарь в 100000 русских слов с ударениями во всех грамматических формах, а английская работает со словарем в 50 тыс. слов. Находится на завершающем этапе разработки немецкая машинная морфология.
ИСТОРИЯ
Начиналось все в ВЦ Академии наук, где мы с женой работали в отделе искусственного интеллекта. Из тусовки, которая там тогда была, едва ли не каждый второй ныне возглавляет какую-нибудь серьезную компьютерную фирму. А Аркадий Барковский (автор известного словаря) и Олег Григорьев работают в США. Именно Григорьев в свое время пообещал начальству сделать программу общения с компьютером на естественном языке, которая отвечала бы, например, на вопрос - "у какого сотрудника в каком отделе какая зарплата". Когда дошло до дела, стало ясно, что это слишком сложно. И решили для начала сделать программу проверки правописания. Мы взялись за работу, а Григорьев договорился с руководством компании “Информатик” о том, что нам будут доплачивать по 150 рублей в месяц за эту работу (как научный сотрудник я получал 120). Делали мы эту систему два года, морфологическую модель я лично переделывал три раза, с каждым разом убеждаясь, что русский язык еще трудней, чем я думал.
В самом конце 1989 г. дома у Григорьева мы показывали нашим боссам из “Информатика” первую версию “ОРФО”. Запущенный нами модуль 25% слов счел неизвестными (и хотя мы использовали самый лучший “Грамматический словарь” А. А. Зализняка, выяснилось, что для машинной проверки правописания в чистом виде он не годится). Но потом все же программа была выпущена и начала хорошо продаваться. После того как “зубры” (Олег Григорьев и еще несколько человек) уехали в Штаты, я, набрав молодежь, стал руководителем проекта “ОРФО”, а также проекта создания электронного словаря “Контекст”. В 1992 г. были выпущены первая версия “ОРФО” для Windows и словарь “Контекст”. Были и конкуренты. Так, фирма “Агама” выпустила программу “Пропись” в среде Windows. Но Microsoft, протестировав российские программы проверки правописания, выбрала “ОРФО”. В 1994 г. фирма “Информатик” заключила с Microsoft контракт, и сейчас во вновь выходящий MS Office97 встраивается та же система “ОРФО”, что и в Office95.
СЛОВАРЬ
Осенью 1995 г. на деньги знакомого бизнесмена мы создали фирму “МедиаЛингва” (он стал ее президентом). Первым нашим проектом был Большой словарь. Дело в том, что пока существует несколько малых англо-русских словарей (таких, как словарь Ахмановой на 20 тыс. слов), три-четыре средних однотомных словаря (типа Мюллера на 50 000 слов) и только один большой - Новый большой англо-русский словарь (НБАРС) в трех томах под редакцией акад. Ю. Д. Апресяна, содержащий 250 тысяч слов и весящий 5(!) килограммов. Он был выпущен издательством “Русский язык” в 1993 г. и является самым большим и самым современным англо-русским словарем в мире. Уникальный словарь этот содержит огромное количество примеров, выражений, толкований.
Мы заключили договор с издательством “Русский язык” на издание электронной версии НБАРС, наняли группу специалистов по распознаванию образов, и осенью 1996 г. электронная версия “МультиЛекс 1.0” на CD-ROM увидела свет. С одной стороны, соблюдена привычная форма: словарные статьи показываются на экране в виде, приближенном к виду статьи печатного словаря. С другой стороны, электронная версия представляет множество новых возможностей: при необходимости обеспечивается перевод в “обе стороны” (с английского языка на русский и обратно), варьируется подробность выдачи информации, предусмотрен поиск некорректно введенных слов.
При переводе русских слов “МультиЛекс” по желанию пользователя выводит найденные словарные статьи либо в алфавитном порядке, либо ранжирует их по степени соответствия запросу. Поиск по примерам работает не только для английских, но и для русских слов и словосочетаний. Огромный набор примеров, приводимых в НБАРС, значительно облегчает перевод русского слова - практически всегда можно подобрать нужный контекст и найти корректный английский термин. Пользователь может ввести даже смешанный запрос (“получить information”) и пример-перевод будет найден.
В следующих версиях (“МультиЛекс 2.0” выходит в марте этого года) появятся дополнительные возможности (типа сворачивания/разворачивания словарных статей), добавится синтез речи - произношение английских слов через звуковую карту. По мере развития набор словарей “МультиЛекс” будет непрерывно пополняться специальными словарями. К концу года появится немецкий “МультиЛекс”, мы купили право на Большой немецко-русский словарь у издательства “Русский язык” и сейчас его сканируем (с помощью программы FineReader). А малый немецкий “МультиЛекс” выходит уже в марте.
КАК ВЫЖИТЬ В РОССИИ?
Одновременно с “МультиЛексом” мы подготовили мультимедийный компакт-диск “Как выжить в России?” (“How to survive in Russia”) для иностранцев, едущих в нашу страну или изучающих русский язык. Диск этот издан в США и содержит такие разделы, как “Русская фонетика” (краткий обзор), “Русская грамматика” (краткий обзор с конструктором предложений), “Ситуации” (полезные советы, озвученные диалоги, разговорники), “Словари” (слова со всеми словоформами и произношением, размеченные картинки-словари). На диске размещено много озвученной лингвистической информации, полезных советов и инструкций (связанных с опасностями, особенностями, обычаями), множество иллюстраций, грамматический конструктор озвученных фраз.
ОТ "ЛИБРЕТТО" ДО "ПИСЬМОВНИКА"
Николай Харин (до перехода в “МедиаЛингва” он заведовал лабораторией в Российском институте систем автоматизированного проектирования и информационных технологий - РИТАП) разработал программу “Следопыт” для нечеткого поиска по запросам на естественном языке (для Word-файлов, текстовых и HTML-документов). Вопросами нечеткого поиска Николай занимался всю жизнь, этому была посвящена его диссертация, поэтому программа получилась “умной”. Если попросить ее найти в документах сочетание “морские просторы”, то она и “просторы моря” тоже найдет. Еще одна любопытная разработка - программа машинного аннотирования текстов “Либретто”. Берется текст, задается коэффициент сжатия, и программа составляет довольно гладкую аннотацию.
Мы надеемся, что будет пользоваться спросом и “Письмовник”, автоматический составитель деловых писем на английском и русском языках. “Письмовник” состоит из трех частей: англо-русский и русско-английский словари (общей и деловой лексики), около 100 различных готовых писем и более 2000 фрагментов (типа ссылки на предыдущее письмо). Имеется тематический рубрикатор - пользователь может быстро “собрать” из заготовок нужное письмо. Параллельно с русско-английской готовится и русско-немецкая версия “Письмовника”.
ПРОБЛЕМЫ
Каждый, кто пользовался поисковыми средствами, знает, что лучше искать не по одному, а по двум и более словам. Дело в том, что отдельное слово может встретиться где угодно, а вероятность совместного вхождения двух или трех нужных слов в ненужный документ гораздо ниже. Поэтому крайне важна возможность задать запрос на естественном языке (часто поиск по запросу на естественном языке также называют нечетким поиском).
Одно и то же слово “акция” может быть изображено как “Акция”, “АКЦИЯ”, с учетом падежей - “акциями”, “акцией”, с учетом переноса - “ак-ция”. А нужно еще учитывать орфографические ошибки (типа “ацкия”). Любому ясно, что во всех этих случаях слово - одно и то же, поэтому все эти модификации должны быть найдены по запросу. На этом проблемы не заканчиваются, слова могут иметь несколько значений, так, слово “ключ” в зависимости от контекста может означать “родник”, “инструмент для запирания двери” или “разгадку”.
КАЧЕСТВО
Точность поиска показывает, какова доля нужных документов в общем числе найденных. Если все выданные по запросу документы “по делу”, точность равна ста процентам. Полнота поиска показывает, какова доля найденных нужных документов в общем количестве нужных (соответствующих запросу) документов. То есть, если имеется 100 документов, содержащих нужную информацию, а по запросу найдено 40 из них, полнота поиска равна 40 процентам.
Ясно, что и точность поиска, и полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от представления пользователя о том, что такое нужная информация. Однако при желании можно вычислить средние значения полноты и точности для конкретной системы, протестировав ее на эталонной базе документов. Очевидно, хорошая поисковая система должна иметь максимально возможные полноту и точность.
ВСЕ - НА РУССКОМ ЯЗЫКЕ
Я думаю, что все наши проектные команды, кроме той, которая занимается “МультиЛексом”, переключатся на создание собственного Интернет-сервера. Мы хотим сделать нетривиальную вещь, дав пользователям целый ряд новых возможностей - типа задания образцов по-русски, перевода образцов, возможности автоматического аннотирования (реферирования) текстов на сервере для организации быстрого просмотра больших объемов информации и т. д.
Стандартные средства поиска работают с русским языком недостаточно аккуратно, не распознают различные формы слов, что пагубно сказывается на полноте и точности поиска. Мы предлагаем средство для организации автоматического поиска английских и русских текстов. Таким образом, вы сможете превратить любое количество текстов в электронную базу данных с быстрым и интеллектуальным доступом.
Очень часто посетитель сервера не знает точно, что именно он ищет. “МедиаЛингва” предлагает программу смыслового поиска, совместимую практически с любой поисковой программой, установленной на сервере. Посетитель может задать запрос на обычном (естественном) языке и получить список документов, упорядоченный по степени соответствия запросу. Найденные документы не обязательно содержат те же самые слова и в том же порядке, они просто “говорят примерно о том же самом”, что и запрос.
Можно сказать, что с помощью поисковых средств, разработанных “МедиаЛингва”, сервер учится разумно отвечать на вопросы. Кроме того, используя эту технологию, можно предоставить англоязычным посетителям сервера доступ к информации на русском языке.
Телефон фирмы “МедиаЛингва”: (095) 115-9752.
Игорь Альтшулер
Качество поиска в море информации можно оценить весьма точно. Для этого достаточно ввести два основных понятия - точность поиска и полнота поиска