Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Сети/Серверы/СХД/ЦОД: Статьи Новости компаний Решения

Панорама

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

Кластерные вычисления для больших данных на подходе

Игорь Новиков | 14.03.2016

Матей Захария на Spark Summit East 2016

В феврале в Нью-Йорке состоялась конференция Spark Summit East 2016, посвященная вопросам развития технологий больших данных. Несмотря на инновационность обсуждавшихся тем, многие собравшиеся, как отмечает издание Syncsort, сравнивали ее с конференциями Strata+Hadoop World пятилетней давности. Главной отличительной чертой тех мероприятий была ориентация исключительно на интересы разработчиков без уделения должного внимания вопросам развития в интересах заказчиков.

Сравнение с Hadoop в данном случае неслучайно: последние два года парадигма развития этой платформы явно претерпевает смещение в сторону участия бизнеса. Аналогичную траекторию развития предсказывают и в отношении Apache Spark — эффективного и быстрого фреймворка для обработки больших массивов данных.

Ключевую роль на конференции играла компания Databricks — главный разработчик и коммерческий дистрибутор платформы Apache Spark, официально относящейся к разряду открытых (Open Source) систем для кластерных вычислений.

Spark 2.0

Матей Захария, технический директор Databricks и один из главных разработчиков Apache Spark, рассказал о трех основных изменениях, которые появились в новой версии Spark 2.0. Первое из них — это наращивание интеграции Spark с проектом Tungsten для устранения одного из основных ограничений фреймворка: недостаточной эффективности работы с памятью Java-приложений. Второе улучшение касается существенного прогресса в наращивании возможностей Spark по обработке потоков данных в реальном времени. Третье улучшение — это унификация структурированных данных, представленных в различных API для Spark, с формированием единого интерфейса, что значительно упрощает работу с фреймворком.

Особое внимание Захария обратил на растущую важность потоковой обработки данных в реальном времени. Он отметил, что нарастает потребность в четком соблюдении режима обработки в реальном времени в сочетании с генерацией запросов для пакетного и интерактивного взаимодействия. Платформа Spark, по мнению Захария, очень хорошо приспособлена для реализации подобных задач. Это достигается, в частности, за счет сочетания «структурированной потоковой модели расчетов» и технологии ETL (Extract, Transform, Load), что в итоге дает отличные результаты. Напомним, что ETL относится к технологиям обработки корпоративного класса, использующих механизм приведения данных к единым справочникам с целью их параллельной загрузки из разнородных учетных систем.

Spark Community Edition

Другим важным вопросом, который был поднят в докладе Захария, стала подготовка к выпуску бесплатной версии платформы Spark. Она получит название Community Edition и в настоящее время уже доступна в бета-версии.

Назначение новой версии — предоставить разработчикам бесплатный инструмент, с помощью которого они смогут ознакомить заказчиков со своей системой и в дальнейшем легко переместить ее на облачную платформу (Databricks), работающую в формате подписки.

Появление версии Community Edition поможет лучше разобраться, как работает Spark-система. В ней будет присутствовать комплект образовательных ресурсов, которые помогут получить навыки работы с большими данными через Apache Spark. В режиме онлайн будет доступен также образовательный ресурс MOOC.

Apache Arrow

Дальнейшие планы работ Databricks по развитию Spark связывают с интеграцией развиваемой платформы с Apache Arrow — одним из главных проектов последнего времени, который ведет Apache Software Foundation. Вектор развития Apache на основе Arrow направлен в сторону устранения эффекта параллелизма (появления параллельных, неупорядоченных потоков данных) в буфере памяти Intel-процессоров.

Суть разработки Apache Arrow состоит в трансформации данных, перемещаемых в память, переходе от ее построчной разметки к модели извлечения по столбцам. По оценкам экспертов, внедрение Arrow позволит в будущем поднять скорость выполнения запросов к большим данным в десятки, а возможно, даже в сотни раз при выполнении вычислений, связанных с анализом или извлечением данных.

В целом конференция показала, что предприятия проявляют высокую заинтересованность в использовании всех корпоративных данных, собираемых с помощью Интернета вещей, мобильных и стационарных систем. Как отметила Тендю Йогуртши, руководитель подразделения больших данных компании Syncsort, «организации хотят иметь универсальнаый информационный массив (хаб), через который можно было бы иметь доступ абослютно ко всем данным предприятия».

Печать Печать без изображений

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Кластерные вычисления для больших данных на подходе

Матей Захария на Spark Summit East 2016

Spark 2.0

Spark Community Edition

Apache Arrow

Комментарии