Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Сети/Серверы/СХД/ЦОД: Статьи Новости компаний Решения

Панорама

Как модульный подход меняет разработку AI-агентов

Разнообразие low-code и no-code решений серьезно упростило создание IT-продуктов, в том числе, и на основе …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

Дмитрий Кузьмин: «Архитектура — это поле, где решается будущее конкурентоспособности компании»

Архитектурные решения инженера-разработчика лежат в основе крупнейших коммерческих платформ, государственных сервисов …

Почему выход новой версии ALD Pro — событие для российского рынка ИТ?

Мажорное обновление ALD Pro версии 3.0 — важный этап в развитии отечественных служб каталога. Релиз включает множество …

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

Web-издатели озаботились проблемой републикаций

PC Week/RE №35 (641) 23 — 29 сентября 2008

Владимир Митин | 12.09.2008

Решит ли эту проблему протокол ACAP?

Вопросы охраны контента в Интернете волнуют не только российских Web-издателей (см. PC Week/RE, № 26/2008), но и их коллег из более законопослушных стран. При этом определённые надежды возлагаются на протокол АСАР, рождённый в рамках совместной инициативы Европейского совета по издательскому делу (European Publishers Council), Всемирной газетной ассоциации (World Association of Newspapers, WAN) и Международной ассоциации издателей (International Publishers Association).

Аббревиатура АСАР образована от слов Automated Content Access Protocol, но её буквальный перевод (“протокол автоматизированного доступа к контенту”), на взгляд автора данной заметки, не совсем точно отражает суть дела. Правильнее было бы расшифровывать её как “протокол инструктирования поисковых роботов”. Появление ACAP некоторые эксперты считают одной из форм борьбы издательского бизнеса за своё будущее.

C целью популяризации этого протокола в сентябре в Москву приехал директор проекта ACAP Марк Байд (Mark Bide). На круглом столе, организованном российской Гильдией издателей периодической печати (ГИПП) при поддержке РИА “Новости”, он сообщил собравшимся (представителям печатных и онлайновых СМИ, а также поисковых систем), что в настоящее время проект АСАР поддержали 18 000 изданий и 4100 компаний ^* с суммарным годовым оборотом 260 млрд. долл.

С кем же борется издательский бизнес? Прежде всего с контентными пиратами. Попробуем пояснить этот тезис. Надо отметить, что в первом приближении издательский бизнес, как традиционный, так и Web-ориентированный, устроен следующим образом: существует творческая редакция, которая умеет создавать оригинальный контент (включающий текстовые материалы, а также, в зависимости от вида издания, фото-, аудио- и видеоинформацию), интересный определённой группе читателей. Аудитория издания является его главным богатством. Именно на внимание этой аудитории и рассчитывают рекламодатели, помещая в данном издании труды своих дизайнеров и маркетологов.

Создание качественного контента (как и создание, например, качественного программного продукта) требует от издателя определённых людских и материальных ресурсов. Чудес не бывает: как правило, чем качественнее контент, тем больше ресурсов требуется для его создания.

Теперь представьте ситуацию. Некто решил издавать дайджест, содержащий наиболее интересные публикации из других изданий. Выпуск такого дайджеста может оказаться весьма прибыльным делом: ведь трудоёмкость поиска уже готовых интересных публикаций значительно ниже трудоёмкости написания оригинальных статей… Понятно, что поставщики оригинального контента поглядывают на издателей дайджестов с некоторым недоверием. Хотя бы потому, что эти дайджесты оттягивают на себя часть рекламы.

Масштабы републикаций весьма велики. Так, например, cовсем недавно мы сообщали, что, по данным компании Webscan Technologies, не менее 38% новостей являются дословными перепечатками с других ресурсов. При этом со ста самых цитируемых онлайн-ресурсов Рунета за первое полугодие 2008 г. было перепечатано порядка 233 тыс. новостей, которые были вторично размещены с различной степенью повторяемости примерно на 18,5 тыс. площадок.

“Мы проводили тестовое исследование на предмет несанкционированного использования контента, — говорит директор по развитию онлайн-проектов ИД “Коммерсантъ” Наталья Кутушева. — Воровство процветает — за одну неделю статьи бумажных изданий и онлайн-редакции ИД “Коммерсантъ”, а также интернет-издания “Газета.ру” были переопубликованы более 1000 раз. В переводе на деньги это означает около 40—50 тыс. долл. прямых потерь”.

Есть люди, которые считают, что бесплатными должны быть не только все программы, но и все публикации в Интернете. То есть всё, что появляется в Cети, может подвергаться неограниченному количеству републикаций. В лучшем случае — с сохранением в том или ином виде ссылки на автора и то издание, в котором соответствующая публикация появилась впервые.

Некоторые юридические вопросы охрана контента в Интернете мы уже рассматривали (см. PC Week/RE, № 26/2008). При этом отмечалось, что согласно нормам российского законодательства, с нарушителей авторских прав можно взыскать компенсацию в размере от 10 тыс. до 5 млн. руб. за каждое нарушение. Однако это требует длительного судебного разбирательства. К тому же достаточно часто нарушения авторских прав в Сети допускаются теми, кто делает это без задней мысли и с самыми благими намерениями (например, многие компании на своих сайтах с удовольствием “развешивают” статьи, в которых упоминается продукция этих компаний, но не всегда упоминают издания, подготовившие эти статьи).

Взаимоотношения издателей и поисковиков (некоторые из которых формируют новостные дайджесты) также не всегда оказываются простыми. Одним словом, в различных аспектах охраны контента в Интернете есть проблемы. А если есть проблемы, то начинают появляться предложения по их решению. Одним из таких решений и является протокол ACAP.

По сути он представляет собой мета-язык, дающий поисковым роботам (их часто называют “пауками”) информацию об условиях доступа и возможности использования тех материалов, в которых они “копаются”. АСАР призван повысить уровень детализации инструкций, на которых основаны правила поведения поисковых систем, когда они встречаются в Сети с контентом того или иного издательства. В настоящее время инструмент, который задает эти правила, — протокол под названием robots.txt — содержит инструкции, которые говорят, можно или нельзя вести поиск по контенту на сайте. Например, если в вашем файле robots.txt есть строка Disallow: /archive/ (“Запретить: / архив”), то робот поисковой системы, зайдя на этот сайт, поймет, что может проиндексировать весь обнаруженный там контент за исключением данных, хранящихся в каталоге под названием “архив”.

Но протокол robots.txt ничего не говорит о том, как можно использовать контент, по которому выполнен поиск. В частности, он не может задать время, в течение которого допускается вести поиск. Не может он сделать и обратное: наложить эмбарго на поиск и показ другим контента прежде, чем наступит определенный срок.

АСАР добавляет к протоколу robots.txt ряд правил (указаний) для поисковиков, индексирующих сайты. Например: инструктирование поисковых роботов о том, какой длины может быть образец текста или когда убирать контент с “отметкой времени”. Он также может требовать, чтобы копия сохраняла стиль и формат изначальной вёрстки и чтобы при любом использовании контента, взятого с сайта, на постороннем сайте указывался его источник или вставлялась обратная ссылка на оригинал. Короче, благодаря АСАР издатели получают шанс контролировать, как поисковики ищут, цитируют и повторно используют их контент.

Важно отметить, что правила ACAP могут быть присвоены любому элементу в кодировке HTML и поэтому могут относиться как целиком к онлайновым изданиям, так и к отдельным статьям, отдельным абзацам и даже к отдельным строчкам. Создатели протокола утверждают, что АСАР не заменяет robots.txt, а надстраивается над ним и может мирно существовать рядом с ним. С точки зрения поисковых систем новые разрешающие метаданные потенциально могут увеличить их нагрузку, поскольку инструкции АСАР можно вставить в любой элемент в HTML-кодировке, что потребует лишних усилий на обработку.

В то же время АСАР, как и robots.txt, — это протокол, а не закон. В Сети вообще нет законов, а есть лишь рекомендации. Поэтому понятно, что протокол АСАР реально начнёт действовать только тогда, когда его правилам станут следовать поисковые системы. Пока что ведущие поисковики (Yahoo!, Google и т. д.) не спешат взять его на вооружение. По мнению Марка Байда, они ждут, когда количество Web-издателей, внедривших этот протокол (т. е. сформировавших с его помощью свою политику по отношению к републикациям), достигнет некоторой критической величины. Во всяком случае, на уже упомянутый круглый стол представители крупнейших отечественных поисковых систем не явились.

Из зарубежных поисковиков под протоколом АСАР пока подписался только один относительно мелкий игрок (Exalead). Впрочем, некоторые заявляют, что Exalead — четвертая по величине поисковая система в мире, но, если вы не живете во Франции, вы о ней, скорее всего, даже не слышали. Суть в том, что в мировом масштабе решающее значение имеют только два игрока (Google и Yahoo!), которые вместе контролируют около 70% поискового рынка.

“Поисковые системы хотят уважать пожелания издателей — в конце концов это их контент, — говорит основатель Google News Бхарат Кришна. — Но мы не телепаты; необходимо, чтобы Web-мастера говорили нам, как они хотят проиндексировать свой контент. Это можно делать с помощью протокола REP (Robots Exclusion Protocol — протокол исключений для роботов), технической спецификации, которая сообщает поисковым роботам, на каком сайте или части сайта нельзя вести поиск, а какие части должны быть видны в результатах поиска. С их помощью Web-мастера могут сформулировать разрешение для робота на просмотр и индексирование их контента. На наш взгляд, все основные “просьбы” АСАР могут выполняться расширениями протокола REP”.

Марк Байд утверждает, что внедрение протокола АСАР любой издатель может начать прямо сейчас. Для этого достаточно зайти на сайт проекта и совершенно бесплатно скачать с него соответствующие скрипты. Если же у Web-издателя есть желание принять участие в совершенствовании этого протокола, то он может стать членом АСАР-сообщества. Стоимость такого членства — 5000 евро в год. Во время круглого стола в РИА “Новости” некоторые издатели выражали опасение, не станет ли в дальнейшем использование протокола АСАР платным? Но Марк Байд заверил собравшихся в том, что использование этого протокола, в скорейшем внедрении которого заинтересованы многие крупнейшие Web-издательства, будет бесплатным всегда.

^* Первой протокол ACAP взяла на вооружение британская The Times, которая уже использует его на сайте Times Online.

Печать

Ссылка на статью: [URL=http://www.pcweek.ru/themes/detail.php?ID=113824]Web-издатели озаботились проблемой републикаций[/URL]

Кроме републикаций, осуществляемых с помощью поисковых роботов, есть републикации, выполненные исключительно вручную. От таких перепечаток протокол ACAP не убережет. Поэтому Web-издателям в любом случае надо грамотно формулировать условия использования своих ресурсов на обычном языке. А не только на машиночитаемом.

Наблюдатель
12.09.2008 19:20:10

Только зарегистрированные пользователи могут оставлять комментарий.

Регистрация
Авторизация

13-й ежегодный Russian Enterprise Content Summit 2026, 11.02.2026

	Интересно

Статьи по теме

Возвращение к “железу”: как ИИ меняет сети

Точно так же, как искусственный интеллект меняет место размещения рабочих нагрузок, он трансформирует и способ …

Стремительный рост цен на флэш-накопители повышает значимость автоматического многоуровневого хранения

Гал Наор, генеральный директор StorONE, объясняет на портале Information Age, что делать организациям в условиях, когда …

Предпосылки для модернизации ЦОДа

Для любого владельца ЦОДа или серверного помещения рано или поздно возникает вопрос о необходимости и целесообразности …

Продление срока службы серверов: стратегии экономии для дата-центров

Кристофер Тоцци, технологический аналитик Fixate.IO, рассказывает на портале Data Center Knowledge о том, как продлить …

Deloitte: в 2026 году корпоративный ИИ вызовет «инфраструктурный суперцикл»

Согласно отчету Deloitte «TMT Predictions 2026», в следующем году движущей силой трансформации предприятий станут агенты …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Web-издатели озаботились проблемой републикаций

Комментарии