Решит ли эту проблему протокол ACAP?
Вопросы охраны контента в Интернете волнуют не только российских Web-издателей (см. PC Week/RE, № 26/2008), но и их коллег из более законопослушных стран. При этом определённые надежды возлагаются на протокол АСАР, рождённый в рамках совместной инициативы Европейского совета по издательскому делу (European Publishers Council), Всемирной газетной ассоциации (World Association of Newspapers, WAN) и Международной ассоциации издателей (International Publishers Association).
Аббревиатура АСАР образована от слов Automated Content Access Protocol, но её буквальный перевод (“протокол автоматизированного доступа к контенту”), на взгляд автора данной заметки, не совсем точно отражает суть дела. Правильнее было бы расшифровывать её как “протокол инструктирования поисковых роботов”. Появление ACAP некоторые эксперты считают одной из форм борьбы издательского бизнеса за своё будущее.
C целью популяризации этого протокола в сентябре в Москву приехал директор проекта ACAP Марк Байд (Mark Bide). На круглом столе, организованном российской Гильдией издателей периодической печати (ГИПП) при поддержке РИА “Новости”, он сообщил собравшимся (представителям печатных и онлайновых СМИ, а также поисковых систем), что в настоящее время проект АСАР поддержали 18 000 изданий и 4100 компаний * с суммарным годовым оборотом 260 млрд. долл.
С кем же борется издательский бизнес? Прежде всего с контентными пиратами. Попробуем пояснить этот тезис. Надо отметить, что в первом приближении издательский бизнес, как традиционный, так и Web-ориентированный, устроен следующим образом: существует творческая редакция, которая умеет создавать оригинальный контент (включающий текстовые материалы, а также, в зависимости от вида издания, фото-, аудио- и видеоинформацию), интересный определённой группе читателей. Аудитория издания является его главным богатством. Именно на внимание этой аудитории и рассчитывают рекламодатели, помещая в данном издании труды своих дизайнеров и маркетологов.
Создание качественного контента (как и создание, например, качественного программного продукта) требует от издателя определённых людских и материальных ресурсов. Чудес не бывает: как правило, чем качественнее контент, тем больше ресурсов требуется для его создания.
Теперь представьте ситуацию. Некто решил издавать дайджест, содержащий наиболее интересные публикации из других изданий. Выпуск такого дайджеста может оказаться весьма прибыльным делом: ведь трудоёмкость поиска уже готовых интересных публикаций значительно ниже трудоёмкости написания оригинальных статей… Понятно, что поставщики оригинального контента поглядывают на издателей дайджестов с некоторым недоверием. Хотя бы потому, что эти дайджесты оттягивают на себя часть рекламы.
Масштабы републикаций весьма велики. Так, например, cовсем недавно мы сообщали, что, по данным компании Webscan Technologies, не менее 38% новостей являются дословными перепечатками с других ресурсов. При этом со ста самых цитируемых онлайн-ресурсов Рунета за первое полугодие 2008 г. было перепечатано порядка 233 тыс. новостей, которые были вторично размещены с различной степенью повторяемости примерно на 18,5 тыс. площадок.
“Мы проводили тестовое исследование на предмет несанкционированного использования контента, — говорит директор по развитию онлайн-проектов ИД “Коммерсантъ” Наталья Кутушева. — Воровство процветает — за одну неделю статьи бумажных изданий и онлайн-редакции ИД “Коммерсантъ”, а также интернет-издания “Газета.ру” были переопубликованы более 1000 раз. В переводе на деньги это означает около 40—50 тыс. долл. прямых потерь”.
Есть люди, которые считают, что бесплатными должны быть не только все программы, но и все публикации в Интернете. То есть всё, что появляется в Cети, может подвергаться неограниченному количеству републикаций. В лучшем случае — с сохранением в том или ином виде ссылки на автора и то издание, в котором соответствующая публикация появилась впервые.
Некоторые юридические вопросы охрана контента в Интернете мы уже рассматривали (см. PC Week/RE, № 26/2008). При этом отмечалось, что согласно нормам российского законодательства, с нарушителей авторских прав можно взыскать компенсацию в размере от 10 тыс. до 5 млн. руб. за каждое нарушение. Однако это требует длительного судебного разбирательства. К тому же достаточно часто нарушения авторских прав в Сети допускаются теми, кто делает это без задней мысли и с самыми благими намерениями (например, многие компании на своих сайтах с удовольствием “развешивают” статьи, в которых упоминается продукция этих компаний, но не всегда упоминают издания, подготовившие эти статьи).
Взаимоотношения издателей и поисковиков (некоторые из которых формируют новостные дайджесты) также не всегда оказываются простыми. Одним словом, в различных аспектах охраны контента в Интернете есть проблемы. А если есть проблемы, то начинают появляться предложения по их решению. Одним из таких решений и является протокол ACAP.
По сути он представляет собой мета-язык, дающий поисковым роботам (их часто называют “пауками”) информацию об условиях доступа и возможности использования тех материалов, в которых они “копаются”. АСАР призван повысить уровень детализации инструкций, на которых основаны правила поведения поисковых систем, когда они встречаются в Сети с контентом того или иного издательства. В настоящее время инструмент, который задает эти правила, — протокол под названием robots.txt — содержит инструкции, которые говорят, можно или нельзя вести поиск по контенту на сайте. Например, если в вашем файле robots.txt есть строка Disallow: /archive/ (“Запретить: / архив”), то робот поисковой системы, зайдя на этот сайт, поймет, что может проиндексировать весь обнаруженный там контент за исключением данных, хранящихся в каталоге под названием “архив”.
Но протокол robots.txt ничего не говорит о том, как можно использовать контент, по которому выполнен поиск. В частности, он не может задать время, в течение которого допускается вести поиск. Не может он сделать и обратное: наложить эмбарго на поиск и показ другим контента прежде, чем наступит определенный срок.
АСАР добавляет к протоколу robots.txt ряд правил (указаний) для поисковиков, индексирующих сайты. Например: инструктирование поисковых роботов о том, какой длины может быть образец текста или когда убирать контент с “отметкой времени”. Он также может требовать, чтобы копия сохраняла стиль и формат изначальной вёрстки и чтобы при любом использовании контента, взятого с сайта, на постороннем сайте указывался его источник или вставлялась обратная ссылка на оригинал. Короче, благодаря АСАР издатели получают шанс контролировать, как поисковики ищут, цитируют и повторно используют их контент.
Важно отметить, что правила ACAP могут быть присвоены любому элементу в кодировке HTML и поэтому могут относиться как целиком к онлайновым изданиям, так и к отдельным статьям, отдельным абзацам и даже к отдельным строчкам. Создатели протокола утверждают, что АСАР не заменяет robots.txt, а надстраивается над ним и может мирно существовать рядом с ним. С точки зрения поисковых систем новые разрешающие метаданные потенциально могут увеличить их нагрузку, поскольку инструкции АСАР можно вставить в любой элемент в HTML-кодировке, что потребует лишних усилий на обработку.
В то же время АСАР, как и robots.txt, — это протокол, а не закон. В Сети вообще нет законов, а есть лишь рекомендации. Поэтому понятно, что протокол АСАР реально начнёт действовать только тогда, когда его правилам станут следовать поисковые системы. Пока что ведущие поисковики (Yahoo!, Google и т. д.) не спешат взять его на вооружение. По мнению Марка Байда, они ждут, когда количество Web-издателей, внедривших этот протокол (т. е. сформировавших с его помощью свою политику по отношению к републикациям), достигнет некоторой критической величины. Во всяком случае, на уже упомянутый круглый стол представители крупнейших отечественных поисковых систем не явились.
Из зарубежных поисковиков под протоколом АСАР пока подписался только один относительно мелкий игрок (Exalead). Впрочем, некоторые заявляют, что Exalead — четвертая по величине поисковая система в мире, но, если вы не живете во Франции, вы о ней, скорее всего, даже не слышали. Суть в том, что в мировом масштабе решающее значение имеют только два игрока (Google и Yahoo!), которые вместе контролируют около 70% поискового рынка.
“Поисковые системы хотят уважать пожелания издателей — в конце концов это их контент, — говорит основатель Google News Бхарат Кришна. — Но мы не телепаты; необходимо, чтобы Web-мастера говорили нам, как они хотят проиндексировать свой контент. Это можно делать с помощью протокола REP (Robots Exclusion Protocol — протокол исключений для роботов), технической спецификации, которая сообщает поисковым роботам, на каком сайте или части сайта нельзя вести поиск, а какие части должны быть видны в результатах поиска. С их помощью Web-мастера могут сформулировать разрешение для робота на просмотр и индексирование их контента. На наш взгляд, все основные “просьбы” АСАР могут выполняться расширениями протокола REP”.
Марк Байд утверждает, что внедрение протокола АСАР любой издатель может начать прямо сейчас. Для этого достаточно зайти на сайт проекта и совершенно бесплатно скачать с него соответствующие скрипты. Если же у Web-издателя есть желание принять участие в совершенствовании этого протокола, то он может стать членом АСАР-сообщества. Стоимость такого членства — 5000 евро в год. Во время круглого стола в РИА “Новости” некоторые издатели выражали опасение, не станет ли в дальнейшем использование протокола АСАР платным? Но Марк Байд заверил собравшихся в том, что использование этого протокола, в скорейшем внедрении которого заинтересованы многие крупнейшие Web-издательства, будет бесплатным всегда.
* Первой протокол ACAP взяла на вооружение британская The Times, которая уже использует его на сайте Times Online.