Открывая очередную конференцию Oracle Big Data & BI Forum, руководитель направления Big Data в Oracle в регионе EMEA Луис Кампос привел ряд впечатляющих примеров практической реализации технологии больших данных. Однако во всех этих примерах было две общие особенности: все проекты были реализованы за рубежом и все они использовали программно-аппаратные платформы Oracle. Указанный акцент, как мне кажется, в определенной степени способствует сохранению настороженно-скептического отношения отечественных компаний к решениям Big Data. Многие считают, что мы в нашей стране еще к подобным новшествам не готовы, а кое-кто подозревает, что проекты по большим данным потребуют и больших затрат на приобретение решений промышленного класса от Oracle. Справедливости ради, следует сказать, что в отличие от прошлогоднего подобного форума на нынешнем появились и первые отечественные примеры проектов Big Data, которые, кстати, рассеяли упомянутые выше подозрения.
Впрочем, примеров таких пока еще очень не много: в результате экспресс-опроса участников конференции выяснилось, что реальный проект ведется только в одной организации и еще в нескольких начаты пилотные проекты. Основная часть аудитории пришла, чтобы познакомиться с технологией больших данных и получить дополнительную информацию. По-прежнему некоторые слушатели просят дать четкое определение Big Data и получают в ответ классическую дефиницию, опирающуюся на так называемые V-факторы (Volume, Velocity, Variaty — большой объем данных, высокая скорость их накопления и изменения и существенное разнообразие типов и форматов). По-прежнему их это определение в чем-то не устраивает, а схоластические споры, по сути, заменяют реальное дело.
Разорвать такой замкнутый круг попыталась директор по исследовательским проектам ФОРСа Ольга Горчинская, которая призвала не заострять внимание на пугающем всех слове “большие”, а попробовать начать решать с помощью технологий Big Data какие-то полезные практические или модельные задачи. Как нетрудно догадаться, именно по этому пути и пошли в ФОРСе. Они решили выявить круг типовых задач Big Data, которые могут представлять практический интерес для российских заказчиков, задач, которые трудно или дорого решать при помощи традиционных инструментов. Пока что такая деятельность находится в нашей стране на стадии экспериментов, а не реальных проектов, но, как считает Ольга Горчинская, аналогичная ситуация наблюдается и за рубежом. Контакты ФОРСа с потенциальными заказчиками показывают, что наибольший интерес технологии Big Data вызывают у банков, телекоммуникационных операторов, риэлторов, а также в ритейле и госсекторе. Наиболее популярны задачи повышения производительности при обработке уже использовавшихся ранее данных и вовлечения в аналитическую обработку новых типов данных.
Одна из таких задач — совместный анализ неструктурированных текстов (в том числе, получаемых из внешних источников) и реляционных данных с целью проведения клиентской аналитики или смыслового поиска. Важно при этом не изобретать собственный велосипед, а широко использовать уже имеющиеся продукты и решения. В частности, в тестовом проекте ФОРСа для поиска текстов в Интернете и извлечения из них понятий и фактов применялись продукты RCO, IQ'MEN, ABBYY FactExtractor и Cloudera Hadoop, а для дальнейшего исследования — Oracle Endeca. На базе указанных решений были построены демо-примеры для управления персоналом, анализа интернет-источников, процессов обучения и экспертной оценки стоимости объектов недвижимости. Любопытно, что во всех упомянутых кейсах объем данных был не таким уж большим, но для их исследования использовались нетрадиционные технологии.
Еще один пример такого рода привел директор ФОРСа по технологиям Андрей Тамбовский. На этот раз решалась вполне реальная задача, вставшая перед сотрудниками дистрибьюторского подразделения компании. За двадцатилетнюю историю в ней накопилось множество контрактов, которые в разное время оформлялись по разным стандартам и хранились в самых разных форматах — от документов Word, Excel и PDF до JPEG-сканов. Организации, покупавшие в свое время ПО через ФОРС, нередко спустя много лет обращаются с просьбой уточнить детали их лицензионных контрактов. Традиционная процедура поиска по ключевым словам в файловых архивах требует много времени и трудозатрат, а иногда, как например, в случае с JPEG-изображениями, попросту не годится.
Для решения указанной задачи все контракты были размещены в Hadoop-кластере, построенном на дешевых x86-серверах (а вовсе не на более дорогом Oracle Big Data Appliance). Распределенный поиск осуществлялся при помощи свободного ПО Cloudera Search, причем попутно сканы документов подвергались OCR-распознаванию. Если по старой технологии с применением Total Commander поиск в 15-Гб архиве занял 2,5 ч, то с помощью Cloudera Search искомые четыре файла были найдены за 1 мин. И это при том, что Total Commander нашел только два файла, не заметив документы в формате .xlxs, и в принципе был не способен искать в графических файлах. Думается, подобные примеры, свидетельствующие о том, что большие данные и большие расходы вовсе не обязательно должны быть логически связаны, делают для популяризации технологий Big Data гораздо больше, чем бесконечные теоретические рассуждения на эту тему.