Фонд Apache Software Foundation (ASF) объявил, что Sqoop, инструмент, предназначенный для переноса данных между Hadoop и структурированными хранилищами данных, стал проектом высшего уровня.
Apache Sqoop позволяет импортировать данные из корпоративных хранилищ в Hadoop Distributed File System, Apache Hive и HBase.
“Sqoop Project продемонстрировал свою зрелость, покинув инкубатор Apache, — заявил Арвинд Прабхакар, вице-президент Apache Sqoop. — Выполняя работы по перемещению миллиардов строк данных, Sqoop доказывает свою ценность как важного компонента производственных сред”.
По заявлению официальных лиц ASF, Sqoop базируется на инфраструктуре Hadoop и распараллеливает передачу данных для достижения высокой производительности, а также улучшения использования системных и сетевых ресурсов. Вдобавок Sqoop быстро копирует данные из внешних систем в Hadoop, что делает аналитику более эффективной и снижает риск перегрузки внешних систем.
“Подключение к другим базам данных и хранилищам данных критично для эволюции Hadoop в корпоративных решениях, Sqoop играет в этом важную роль, — сказал Дипак Редди, Hadoop Manager в Coupons.com. — Мы широко используем Sqoop для хранения и обмена данными между Hadoop и другими хранилищами данных, такими как Netezza. Мощность Sqoop заключается и в возможности написания запросов свободной формы к структурированным базам данных и перемещения запрошенных данных в Hadoop”.
“Sqoop интегрирован в процесс обработки данных на производственной площадке, — сказал Бохан Чен, директор группы Hadoop Development and Operations в Apollo Group. — Он дал возможность надежного и масштабируемого импорта из реляционных баз данных и экспорта агрегированных результатов в реляционные базы данных”.
С момента появления в инкубаторе Apache в июне 2011-го Sqoop быстро стал ключевым решением для трансфера данных между SQL и Hadoop. Проект предоставляет коннекторы для популярных систем MySQL, PostgreSQL, Oracle, SQL Server и DB2. Также есть возможность разрабатывать высокоскоростные коннекторы для специализированных систем, таких как корпоративные хранилища данных.
Крэйг Линг, директор по бизнес-системам в Tsavo Media, заявил: “Более года назад мы приняли решение использовать Sqoop при экспорте/импорте данных для Hadoop. Он прост и легок в использовании, и теперь члены команды могут работать с данными автономно, максимизируя аналитическую полезность наших репозиториев”.