Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Как извлечь максимальную пользу из “больших данных”

PC Week/RE №6 (791) 13 марта 2012

Хоссейн Эсламболчи | 07.02.2012

“Большие данные” стали реальностью для любого ИТ-подразделения, работа которого заключается в том, чтобы быстрым, простым и эффективным способом представлять компании информацию о ее клиентах, перспективах и рынках. Основная трудность — решить эту задачу с учетом ограничений на капитальные и текущие затраты. А хорошей новостью является то, что имеются два взаимосвязанных фактора: невиданное прежде богатство данных, возникающих в результате транзакций и взаимодействий, и новый уровень технологических инноваций, направленных на снижение расходов.

Facebook, Twitter, видео и рост обмена сообщениями дают нам прочную основу для быстрого получения результатов и уточнения прогнозов развития рынка. Автоматизация предприятий достигла такого уровня, когда машины и сенсоры ежедневно порождают терабайты информации, которую необходимо собирать, хранить и анализировать.

Производители средств управления данными находятся на подъеме, что иллюстрирует распространение открытого ПО Apache Hadoop. Теперь складывается инфраструктура на базе Hadoop, которая свяжет массу структурированных и неструктурированных данных, будет масштабироваться при небольших затратах и позволит быстро получать сведения о рынках. Обеспечат ли Hadoop и соответствующая экосистема новые возможности с точки зрения гибкости, безопасности и простоты использования?

Сегодня руководитель ИТ-подразделения, который намерен извлечь пользу из сверхбольших объемов разнородных данных, должен руководствоваться следующими соображениями технического порядка.

Сосуществование с другими СУБД и средами управления данными. Речь идет о стандартных реляционных средах (например, Oracle) и аналитических хранилищах данных (скажем, Teradata). Предостережение: перемещение и интеграция данных необходимы, но они повышают капитальные затраты на различные инструменты извлечения данных, их преобразования и загрузки (ETL). Кроме того, при этом увеличиваются операционные расходы.
Хранение и оборудование. Инновационные технологии компрессии и дедупликации имеют важнейшее значение для решения проблемы больших данных. Здесь достигнут значительный прогресс, и теперь мы имеем многоуровневую компрессию, которая позволяет сокращать объем до 40 крат по сравнению с “сырыми” данными. Но важно учитывать, какая часть этих сжатых данных может потребовать восстановления и как это отразится на объеме хранения. Например, если вы ожидаете, что после восстановления данных он вырастет на 30%, то, наверное, не стоит использовать компрессию.
Запросы и аналитика. Не все данные одинаковы. Поэтому диапазон запросов и бизнес-аналитики меняется в широких пределах в зависимости от конкретной ситуации. Обязательно следует иметь нужные инструменты для работы. Во многих случаях для получения необходимой информации будет достаточно быстрого ответа на SQL-запрос. В других глубокий аналитический запрос требует инструментов бизнес-интеллекта, обладающего всем спектром возможностей использования приборной доски и визуализации. Развертывание адекватного набора патентованных технологий наряду с открытым ПО Hadoop поможет вашей организации полностью реализовать потенциал быстрой аналитики, не допуская взвинчивания операционных расходов.
Масштабирование и управляемость. Когда организации решают проблему разнородности баз данных и аналитических сред, возможность масштабирования по горизонтали и вертикали имеет большое значение. Легкость масштабирования по горизонтали стала причиной быстрого распространения Hadoop на предприятиях. Ключевое значение имеет массово-параллельная обработка на кластерах из обычных недорогих серверов. В отличие от других вариантов управления данными она не требует от сотрудников специальных навыков. А это непосредственно отражается на ваших инвестициях в ИТ-ресурсы.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Как извлечь максимальную пользу из “больших данных”

Комментарии