«БАРС Груп», дочерняя компания Национального Центра Информатизации, реализовала поддержку стека технологий для работы с Big data в собственной платформе бизнес-аналитики Alpha BI 4 поколения.
Большие данные требуют не только новых подходов к построению комплекса технических средств, но в первую очередь пересмотра состава необходимого программного обеспечения. Оно должно обеспечивать решение задач быстрой гарантированной доставки информации в «озеро данных», их отказоустойчивого хранения с возможностью горизонтального масштабирования, а также минимальных временных затрат на обработку сырых первичных фактов и доставку их до конечного потребителя в BI-инструментарии. Для этого в платформе Alpha BI была реализована поддержка хранения данных под управлением файловой системы HDFS, разработаны инструменты доставки, обработки и извлечения показателей из Hadoop. Это открыло возможности для построения хранилищ данных, в миллионы раз превышающих по своим размерам создаваемые ранее на базе реляционных СУБД.
«У заказчиков все чаще возникает задача потоковой обработки часто меняющихся данных и их оперативного анализа, поэтому мы дополнительно реализовали поддержку в Alpha BI in-memory СУБД наряду с традиционными реляционными СУБД и олап-серверами, — прокомментировал заместитель генерального директора „БАРС Груп“ Рустем Ибрагимов. — Это позволило увеличить производительность платформы в тысячи раз за счет использования кэша оперативной памяти вместо обращения к дисковым накопителям».
На текущий момент в платформе бизнес-аналитики Alpha BI реализованы основные инфраструктурные задачи по хранению и обработке Больших данных, продукт начал движение в сторону развития инструментов их продвинутого анализа с использованием методов класса Data Mining, машинного обучения, нейронных сетей на основе активно развиваемых сообществом OpenSource разработчиков библиотек.
По словам представителей компании, подобное развитие платформы — это ответ на вызовы рынка, который переходит к активному решению прикладных задач хранения и обработки больших данных. Все чаще появляются новые проекты по построению высоконагруженных распределенных хранилищ данных различной степени структурированности с формированием real-time аналитики, требующие высокого уровня компетенций по работе с NoSQL, MapReduce, Hadoop и т.п.