Корпорация IBM готовит Web-технологию анализа текстов WebFountain (www.almaden.ibm.com/webfountain), способную выявлять типовые элементы и взаимосвязи в больших объемах неструктурированных текстовых материалов. Для этого применяются всевозможные алгоритмы ИИ: распознавание, обработка естественных языков, самообучение, а также статистические и другие методы. Пока обработан 1 Тб данных Интернета - проиндексировано 3 млрд. Web-страниц, 2 млрд. Web-страниц хранится непосредственно в системе, а добавляется в нее ежедневно 20 млн. новых элементов.
В ближайший год WebFountain охватит всю англоязычную Сеть и ресурсы на 21 национальном языке. Но данная технология позиционируется не как обычная поисковая система, а как платформа по созданию продуктов и услуг в партнерстве с IBM. Клиенты корпорации получат дистанционный доступ к суперкомпьютеру WebFountain, терабайтным хранилищам данных и ПО анализа. Они смогут состыковывать универсальный каталог Сети с собственными корпоративными БД и выполнять глубокие тематические исследования.