Варлам Кешелава

Трудно пользователю...

Любой человек, впервые знакомящийся с Интернет, сомневается, есть ли там информация, которая ему нужна. В Интернет информация, может быть (и скорее всего), есть, но найти ее - задача нетривиальная. Таким образом, необходимо различать два понятия: “есть” и “найти”. Хорошо известные инструменты поиска информации в Интернет были рассмотрены в предыдущих обзорах (PC Week/RE, № 10/97, с. 22; № /97, с. 22). Там же отмечалась высокая эффективность этих инструментов только в случае достаточно медленно изменяющегося информационного пространства.

Особенно значительно различие понятий “есть” и “найти” для быстро изменяющихся данных в Интернет. К таковым относятся все обновления информации на существующих Web-узлах, появление новых и весь поток новостей: новости непрерывно (мониторинг биржевой информации, погоды и т. д. с запаздыванием в секунды), новости ежечасные и ежедневные. Все остальное уже не новости, и если пользователь все-таки нашел эту информацию через неделю - возможно, что это уже бессмысленно. В процессе создания блока “нефтегазовых” новостей на сайте РусИнфОйл (rusinfoil.interrussia.com) выяснилось, что только аннотированный список ежедневных новостей по данной тематике занимает более 20 печатных страниц!!! При этом не учитывались новости общего характера: глобальная и региональная политика, котировки ценных бумаг и биржевая информация.

Специальный опрос 1300 респондентов по всему миру, проведенный в 1997 г. по заказу агентства Reuters Business Information, показал, что половина всех менеджеров жалуется на информационную перегрузку. При этом большинство менеджеров понимают, что для выполнения своих обязанностей они должны обрабатывать еще больше информации, и около 41% из них считают, что процесс поиска и сбора информации отнимает слишком много времени. Более того, 94% респондентов считают Интернет основной виновницей такой ситуации и предрекают дальнейшее ее ухудшение. “Старожилы” Интернет жалуются на обилие “мусорной” (что для одного мусор - для другого может быть целью поиска!) информации, загруженность каналов (полностью согласен) и невозможность найти то, что надо (да, действительно непросто).     

...трудно и поставщику

Все изложенное выше - это мнение пользователя. Существует также оценка проблем со стороны поставщика информационных услуг в Интернет. Поставщики тоже недовольны обилием “мусорной” информации (чужая информация всегда “мусорная”!), они заинтересованы в том, чтобы любой пользователь легко находил их собственный информационный блок и всегда был в курсе последних изменений в нем.

Неорганизованная борьба поставщиков информации за внимание потребителя приводит к нескольким важнейшим последствиям: во-первых, количество представленной в Интернет информации уже превосходит все мыслимые объемы; во-вторых, скорость его возрастания не уменьшается; в-третьих, стихийно создалась индустрия поставки информации через Интернет, которая использует малейшую возможность доставить свою информацию клиенту.

С точки зрения поставщика информации, гораздо важнее регулярность повторных возвращений пользователя на его информационный блок, чем общее число разовых посещений. Каждый поставщик пытается сформировать свой собственный круг подписчиков (виртуальных). Здесь также проявляется существенное различие между постоянной (неизменяющейся) частью информационного материала и его обновляемой частью.

В качестве обновляемой части потребителю могут предложить:

- публикацию интересных рассказов, романов и т. д. с продолжением;

- регулярные обзоры чего-либо;

- часто обновляющийся юмористический раздел (анекдоты, карикатуры...);

- полные тексты популярных газет и журналов, сводки и прогнозы погоды;

- программы телевидения;

- возможность проконсультироваться со специалистом и т. д.

Поставщики могут рассылать информацию по электронной почте, “выталкивать” и “заталкивать” (авторский перевод названий различных способов доставки информации, не требующих от потребителя никаких действий) в компьютер получателя и вообще готовы на все, чтобы “скормить” свою информацию потребителю.     

Самодеятельность создает информационный бардак ...

В связи с тем, что стоимость публикации в Интернет поразительно низка, это удовольствие доступно даже отдельным личностям. Теперь представьте себе библиотекаря, работающего в библиотеке, куда каждый желающий норовит принести свою собственную книжку (брошюру, справочник, рекламный проспект, каталог, манифест, воззвание, полное собрание сочинений собственных анонимок и т. д. и т. п.) и вообще любую писульку, которая, по мнению ее автора, должна осчастливить потомков. Более того, каждый может поставить свой бессмертный труд туда, где ему больше нравится (с точки зрения библиотекаря - куда попало). Последнее приводит к тому, что эта библиотека (Интернет) представляет собой огромное некаталогизированное хранилище информации (свалку - говорят пессимисты).

При этом библиотекарь один, а писателей много, очень много, чрезвычайно много!!! В результате пока несчастный знакомится с содержимым очередной полки хранилища, на всех остальных полках появляется много сотен новых единиц хранения и уходят в небытие старые.

Все системы поиска информации в Интернет (Машины поиска, или Search Engines, так же как Каталоги и т. д., см. обзоры PC Week/RE, № 10/97, с. 22; № 21/97, с. 22) находятся в роли таких библиотекарей. Для выполнения своей задачи в идеале они должны регулярно просматривать всю хранящуюся в Интернет информацию. Нереальность этого вполне очевидна, поэтому различные поисковые системы используют различные способы выбора той части Интернет, которой они уделяют основное внимание.

Самые мощные и оперативные Машины поиска претендуют на охват около 90% узлов Интернет и телеконференций, однако эта оценка представляется весьма завышенной. Большое количество ссылок на уже несуществующие материалы говорит о том, что обновление информации происходит недостаточно оперативно. Таким образом, даже Машины поиска представляют неполную (но полнее нет нигде) и несколько устаревшую информацию.

Вот и создается положение, при котором вероятность существования нужной информации в Интернет растет, а вероятность ее нахождения - падает! Кроме того, невысокая интеллектуальность существующих систем поиска вынуждает пользователя самому просматривать огромные массивы информации в поисках нужной.    

...но делает его бесценным

Несмотря на то, что описано выше, интернетовская самодеятельность приводит по крайней мере к одному крайне важному положительному результату: информация не может быть подвергнута предварительной цензуре ни информационными гигантами, ни корпорациями, ни кем-то еще. Таким образом, современная Интернет представляется уникальным источником информации по трем основным причинам:

- практически все информационные агентства и средства массовой информации представлены в Интернет наряду со специализированными (“виртуальными”) агентствами новостей и отдельными компаниями и персонами, т.е. пользователь может выбирать из многих сотен и тысяч поставщиков информации и ознакомиться с различными мнениями по выбранному вопросу;

- если и до появления Интернет до 80% разведывательной информации можно было собирать из открытых источников, то с появлением Интернет... (мне кажется, комментарии здесь излишни);

- не забудем, что любого человека можно завалить крайне важной информацией в таком объеме, что принимать решения он уже не сможет, а информация в Интернет представлена в электронном виде, что потенциально делает возможным ее автоматизированную обработку.

Мало один раз совершить подвиг, пройдясь по необозримым просторам Интернет и ознакомившись с необходимой информацией. Практически любой активный пользователь оказывается на пути гигантского непрерывного информационного потока.

Таким образом и создается крайняя необходимость оперативно собирать, фильтровать, сортировать и обрабатывать информацию. При этом процесс обработки может быть достаточно сложным, включать отбор по критериям важности, достоверности, повторяемости, соответствия уже накопленной информации и т. д. Особенно велико значение автоматической обработки быстроизменяющейся части информации (потоков новостей), так как никакими другими средствами справиться с уже существующими ее объемами невозможно.

Как обуздать поток информации

Новые узлы. Наиболее отработаны и известны способы, которые используют создатели информационных блоков для того, чтобы заявить о существовании своего детища и облегчить его нахождение потенциальным потребителям. К таковым относятся:

- регистрация на Машинах поиска, что автоматически является заявкой на индексацию, которая будет осуществлена при очередном просмотре Интернет данной машиной;

- регистрация в Каталогах и базах данных, обычно требующая от автора обозначить соответствующий раздел в оглавлении, которому соответствует регистрируемый сайт, и дать его краткое описание;    

-  взаимообмен ссылками с администраторами аналогичных и близких по тематике сайтов.

Естественно, могут (и должны) быть использованы также и все традиционные методы пресса, презентации и всякого рода реклама. Ссылку на свой узел размещают на всех презентационных материалах компании владельца: бланках, плакатах, сувенирах и т. д.

Обновления информации на выбранных узлах. Для слежения за появлением новой информации на любимых сайтах (обновлений или добавлений) можно использовать специальные следящие программы (агенты). Эти программы с заданной периодичностью просматривают обозначенный список Web-страниц, отлавливая все изменения. Результаты предъявляются пользователю, который может целенаправленно знакомиться только с новой информацией. Во всех версиях браузеров фирмы Netscape, начиная с Navigator 3.0, есть механизм слежения за изменениями на всех отмеченных закладками (bookmark) страницах. В различных версиях браузера этот механизм реализован по-разному, но почти нигде не описан: в Navigator 3.0 механизм реализован в виде агента, а в последних версиях Communicator встроен в блок обслуживания системы закладок.

Новости. Службы LISTSERV обеспечивают доставку в электронный почтовый ящик клиента новостей по тем разделам, на которые он предварительно подписался. Подписываешься один раз - новости получаешь ежедневно.

Примерно таким же образом, создав список рассылки (mailing list), состоящий из адресов электронной почты клиентов, можно добиться практически тех же результатов с помощью любой современной программы работы с электронной почтой - надо только иметь что посылать своим подписчикам.

Технологии электронной почты позволяют передать клиенту сборник аннотаций, а собственно заинтересовавшую новость он сможет получить по ссылке. Именно таким образом устроена служба In-Box Direct фирмы Netscape.

Push-технологии. Push-технологии (технологии принудительной доставки или дословно “выталкивания”) появились сравнительно недавно и обеспечивают незамедлительную передачу информации (в основном новостей) с сервера источника на ПК пользователя. Реально большинство программ, принадлежащих к этой группе, использует различные механизмы инициации сеансов передачи информации со стороны клиента и, скорее, “вытягивают” информацию с сервера. Последнее связано с тем, что чаще всего системы информационной безопасности, применяемые в Интернет (межсетевые экраны, брандмауэры и т. д.), запрещают доступ извне.

После соответствующей настройки клиентского ПО системы функционируют, не требуя вмешательства пользователя. Таким образом (с точки зрения потребителя) информация сама появляется в его компьютере.

На рынке уже есть несколько таких продуктов, обладающих различными достоинствами. First!Intranet от Individual, Castanet от Marimba, PointCast от PointCast и BackWeb от BackWeb Technologies.    

Что предлагается в современной Интернет?

А практически ничего! И это при том, что реально почва довольно хорошо подготовлена: еще живы и дееспособны люди, потратившие весьма значительные интеллектуальные усилия на развитие технологий инженерии знаний, и не все забыли о достижениях в области искусственного интеллекта экспертных систем.

Все системы поиска в Интернет предлагают поиск по ключевым словам и их комбинациям, и только наиболее интеллектуальные из них могут переварить запрос вроде: (видеокарты OR sVGA OR “sVGA card”) AND PCI AND “2MB VRAM” AND (S3 OR Matrox NOT Diamond). С гордостью заявляю, что наша скромная “Русская машина поиска” (search.interrussia.com) понимает подобные запросы.

Некоторые машины поиска могут справиться с морфологическим богатством русского языка (ухо - уши, дом - домик), но ни одна не предложит даже просмотреть и отобрать для расширенного запроса синонимы введенного пользователем слова или наиболее часто встречающиеся словосочетания. Последняя возможность предлагается только на Alta Vista (altavista.digital.com) в качестве экспериментальной приправы Live Topics и работает только с английским языком.

На международном рынке ПО можно обнаружить попытки интеллектуализации процесса обработки информации, например Text Server от Oracle или RetrievalWare от Excalibur. Судя по доступным описаниям, системы обрабатывают синонимы и используют некоторые достижения теории семантических сетей и нечеткой (fuzzy) логики.    

Что дальше?

Информационные услуги в Интернет представляют собой самый быстроразвивающийся рынок в современной компьютерной индустрии, однако, как это часто бывает, развитие катится по линии наименьшей новизны. Основной упор делается на использование силовых методов (наращивается вычислительная мощность компьютеров) и изменение пользовательского интерфейса. Типичный пример этого - заявленный недавно Карлом Маламудом (Carl Malamud) проект “Атлас Интернет”, над которым работает Internet Multicasting Service. В результате реализации проекта Интернет можно будет представить в виде атласа, обновляемая база данных будет достигать размера в 100 Тб (!!!) и поддерживаться машиной со 100 Гб оперативной памяти (!!!).

В создавшейся ситуации можно довольно успешно предсказать будущее.              

Прогнозы

Реальный (пессимистический). В игру включатся новые игроки, Машин поиска станет больше, каждая из них будет пытаться самостоятельно освоить просторы Интернет, индивидуальные различия почти сотрутся, свежесть информации всегда будет больным вопросом, качество сервиса не увеличится или будет увеличиваться мучительно медленно.

Нереальный (оптимистический). Мелкие игроки договорятся и разделят Интернет на обозримые фрагменты, когда каждый работает на согласованном с другими участниками участке, вся система имеет согласованный интерфейс. Деление Интернет проводится по языковым признакам или по принадлежности к соответствующей области деятельности (промышленность, отдых, финансы, наука...).

Пользователь запрашивает любого доступного участника, запрос обрабатывают все, ответ получается полный.

Фантастический. Кому-то (имеющему финансовые возможности и понимающему реальную ценность результата) надоест постоянный информационный голод и... будет создан инструмент, позволяющий накапливать, обрабатывать и извлекать крупицы смысла из захлестывающего современного человека потока информации (при условии, что этот смысл там есть).

А может, такие системы существуют? Только ее владельцам не резон нам об этом рассказывать?          

С автором статьи можно связаться по адресу: kesha@interrussia.com.

Версия для печати