Под термином Web 3.0 понимают технологии семантического веба, когда содержимое веб-страниц будет сопровождаться метаданными, описывающими смысл представленной информации и в идеальном случае извлекаемыми автоматически. Рынок соответствующих решений составит миллиарды долларов, и хотя подходящие технологии еще только-только созревают, борьба за них разворачивается уже сегодня. Так, в начале года корпорация Microsoft приобрела фирму Powerset, ставшую известной благодаря одноименному поисковому движку для обработки естественных языков (технология лицензирована у лаборатории PARC), который способен понимать запросы, введенные в свободной форме. Менеджеры компании обещают научить свой движок воспринимать каждую фразу Сети.
Еще один схожий ресурс, Twine фирмы Radar Networks, заработал 21 октября. Объединив технологии социальных сетей и формирования рекомендаций, хранилище закладок и ряд других веб-сервисов, он призван существенно упростить поиск нужных сведений в Интернете. Для извлечения крупиц смысла из веб-страниц задействованы технологии искусственного интеллекта, а эксперты окрестили Twine объектно-ориентированой социальной системой.
В обоих этих движках для анализа используются массивы данных Википедии, а Powerset обрабатывает еще и Freebase — открытую базу знаний и фактов обо всем на свете. На днях к ним присоединилась общедоступная система Automatic Linguistic Indexing of Pictures in Real-Time, созданная учеными Пенсильванского университета (США). Она автоматически индексирует содержимое фотографий, выявляя в них “знакомые” объекты. Пользователи могут помочь в этом процессе, вводя подсказки на похожие фотографии или дополняя набор тегов. Система работает с точностью 90%, весьма успешно подбирая похожие по содержанию изображения или выделяя в них известные образы. Например, фотографии-портрету симпатичной девушки с первой страницы сайта alipr.com компьютер присвоил теги “человек женщина животное”.