Apache Software Foundation (ASF) 17 апреля отметило важную роль открытого ПО, в том числе и развиваемых под патронажем этой организации продуктов, в расследовании Панамских документов — материалов с компрометирующими данными на множество высокопоставленных чиновников.
Всего в Panama Papers фигурирует 11,5 млн. файлов, которые включают в себя финансовую и юридическую документацию, отправленную анонимным источником. Общий объём ставшей доступной общественности информации составляет 2,6 Тб.
В журналистском расследовании приняло участие 400 сотрудников из 100 изданий, расположенных на шести континентах. Анализ документов продолжался целый год и выявил сложную систему криминальных и коррупционных схем, в которых активно использовались офшорные зоны.
В 2017 г. расследование Panama Papers получило Пулитцеровскую премию в категории журналистики. Так высоко экспертное сообщество оценило социальную значимость и масштаб проекта.
Президент ASF Сэм Руби отметил, что основная миссия возглавляемого им фонда заключается в создании ПО для общественного блага. Он гордится тем, что именно разработанные при участии ASF решения сыграли важнейшую роль в расследованиях и поздравил журналистов с заслуженной наградой.
В сообщении ASF перечисляются использовавшиеся в ходе расследования инструменты, созданные при поддержке фонда:
- Tika — тулкит для извлечения метаданных из различных документов;
- Solr — поисковый сервер уровня enterprise;
- PDFBox — приложение для извлечения текста из PDF-файлов;
- POI — решение для извлечения текста из файлов Excel, Word и PowerPoint;
- Commons — инструментарий для разработки приложений для обработки текста.
Также были использованы другие открытые решения: Tesseract-ocr, Blacklight, Jackcess. Все они распространяются на условиях Apache License v2.0.