Накопленные интернет-архивы предоставляют богатый материал для учёных в области общественных наук и экономистов, изучающих временную динамику социальных сетей и рынков. Однако размеры и сложность этих веб-данных как правило предъявляют высокие требования к их обработке. Учитывая это, Корнельский университет (США, шт. Нью-Йорк) разработал семейство программных инструментов для анализа данных. Эти средства являются частью проекта Web Lab, осуществляемого университетом, организацией Internet Archive и рядом других структур. Цель проекта подготовить большую часть архивов таким образом, чтобы ими могли воспользоваться исследователи, не являющиеся экспертами в вычислительной обработке больших объёмов данных.
Один из инструментов называется Web Lab Collaboration Server. Это сервис для крупномасштабного совместного анализа веб-данных. Он демонстрирует, как поддерживать нетехнических пользователей при поиске, извлечении и анализе веб-данных.
Центр по передовым вычислениям (Center for Advanced Computing, CAC) университета периодически через соединение сети TeraGrid Национального научного фонда (NSF) скачивает результаты работы спайдеров (пауков) хранящиеся в БД организации Internet Archive, расположенной в Сан-Франциско. Эти результаты по-английски именуются web crawls, что можно было бы перевести как текущие копии веба. В настоящее время загружено четыре таких полных снимка, содержащих миллиарды страниц.
Однако несмотря на богатство общедоступных данных существует три основных затруднения при создании эффективных и практичных приложений для их анализа:
- настроенные для пользователя (кастомизированные ) наборы данных должны готовиться с помощью вручную модернизированных скриптов для извлечения данных;
- наборы данных должны быть очищены или отформатированы (шаг часто бесполезно повторяемый различными пользователями);
- программы анализа должны быть написаны с учётом преимуществ параллельной обработки, совместно используемой памяти или распределённой обработки и хранения.
Собственно для преодоления этих трудностей и предназначено решение Корнельского университета. Поскольку многие пользователи являются экспертами в областях, не связанных с компьютерными науками, для них был разработан простой и интуитивно понятный графический интерфейс пользователя для сложных задач извлечения и анализа данных, а так как задачи извлечения данных, их очистки и форматирования требуют много времени, то подготовленные для анализа наборы данных помещаются в центральный репозиторий и доступны одновременно многим исследователям. Наконец, для реализации проекта выбрана архитектура SaaS (“ПО как сервис”), что позволяет пользователям получать полностью распределённую обработку через удалённые сервисы. Для продвинутых пользователей разработан соответствующий API. Полное описание данного инструментария приведено в документе www.vldb.org/pvldb/1/1454205.pdf.