Компания Opera, разработчик популярного одноименного браузера, анонсировала поисковый механизм Metadata Analysis and Mining Application (MAMA), написанный на Perl с использованием MySQL. Он не только индексирует содержимое сайта, но и запоминает его структуру и используемые веб-технологии, позволяя отыскивать веб-ресусры как по содержимому, так и по структуре. MAMA дает возможность, например, отобрать сайты с не менее чем тысячью ссылок, узнать статистику использования флеша в Сети или посчитать число ошибок разметки для среднестатистического ресурса. Поисковик поможет организациям по стандартизации понять, как в реальности применяются их рекомендации, а разработчики веб-решений смогут точнее учитывать текущие возможности Сети и технические пристрастия пользователей.

Пока MAMA не запущен в эксплуатацию, однако он уже содержит базу с тремя миллионами проанализированных сайтов, на основе которой Opera предоставила интересную статистику. Так, сервер Apache используется в качестве движка 67,7% сайтов, сервер IIS — в 25,9%. Средний объем веб-документа составляет 16,4 тыс. символов. В десятку самых популярных тегов вошли HEAD, TITLE, HTML, BODY, A, META, IMG, TABLE, TD и TR.

Оказалось, что лишь 4,13% сайтов отвечают всем требованиям консорциума по веб-стандартизации W3C, причем одна из самых частых ошибок — отсутствие заголовка DOCTYPE, подсказывающего браузеру номер текущей версии языка разметки HTML, используемого на сайте. Без него велика вероятность некорректного воспроизведения содержимого страницы.