В феврале управление директора национальной разведки США ODNI совместно со шпионским агентством информационных исследований IARPA представило Конгрессу отчёт, посвящённый технологиям “раскопки данных”. Сам этот термин расшифровывается как “программа, реализующая аналитические запросы на базе шаблонов и поиск в одной или большем числе БД с целью выявить шаблоны террористической или криминальной деятельности”. При этом первое упоминание слова “шаблон” в данном определении разведчики называют ключевым: оно подразумевает исключение запросов по конкретным физическим лицам или любых других аналитических действий, нарушающих приватность. IARPA уже ведёт в этой сфере ряд проектов, которые, однако, пока плохо подходят под новое определение:
- Knowledge Discovery and Dissemination (KDD) — технология координации доступа к множественным БД различных силовых ведомств и обеспечение их эффективной эксплуатации. В ней реализован ряд оригинальных алгоритмов, но слабо развитые механизмы поиска на базе шаблонов сводят на нет попытки эксплуатации KDD в задачах выявления подозрительной активности;
- Tangram — система, призванная оперативно реагировать на уже известные шаблоны террористической деятельности и генерировать предупреждения о подозрительных ситуациях. К её минусам относят высокую зависимость от качества и полноты введенных данных;
- Video Analysis and Content Extraction (VACE) — проект автоматизации плохо формализуемых видов человеческой деятельности, связанных с изучением видеоматериалов. В VACE реализованы достижения в сферах машинного зрения, позволяющие выявлять и отслеживать заданные объекты, в ряде случаев понимать их поведение, оценивать общий контекст видеосцены, индексировать видеоматериалы и выполнять по ним быстрый поиск. Разработчики обещают со временем состыковать VACE с публичными сетями видеокамер наблюдения, дабы она в полном соответствии с принципом раскопки данных от ODNI автоматически засекала преступное поведение, не имея никакой приватной информации о подозрительной персоне;
- ProAcrive Intelligence (PAINT) —изучает динамику сложных систем применительно к организациям, интересующим разведку (в частности, к террористическим группам). Однако PAINT не умеет напрямую выявлять шаблоны подозрительной активности;
- Reynard — проект, посвящённый специфике человеческой деятельности в виртуальных мирах и онлайновых играх. В перспективе в его рамках планируются эксперименты по обнаружению антисоциального поведения виртуальных существ, управляемых людьми — например, случаев повышенной агрессивности.
Кроме того, IARPA интересуется научными исследованиями в следующих областях: частичное вычисление функций (когда, например, истинный или ложный результат может быть получен до расчётов всех составляющих функции); немонотонная логика (возможность обработки отдельных частей документов с игнорированием присутствующих в них приватных данных); доступ к данным на базе правил; поисковые механизмы, скрывающие от оператора приватные сведения; анонимное сопоставление (различные проверки конкретных граждан косвенными способами, без явного ввода в систему их имён и фамилий); средства распознавания людей, характеризующихся одинаковыми или схожими именами, фамилиями и прозвищами. Теоретические аспекты этих прикладных направлений проработаны достаточно хорошо, однако попытки создать эффективные практические системы пока заканчивались неудачей, отмечают авторы отчета.