Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Управление "большими данными": шесть операционных проблем

PC Week/RE №7 (792) 20 марта 2012

Джон Паркинсон | 07.02.2012

Когда я только начинал работать с приложениями для обработки “больших данных” (т. е. когда имеется много данных о чем-то или о ком-то или имеются данные о многих вещах и многих людях), “большое” на самом деле означало еще довольно малое.

Однажды я создал систему для современного трёхсоткоечного госпиталя, которая хранила всё (включая записи о полумиллионе пациентов) в менее чем 10-Гб (да-да, именно так!) высокопроизводительном дисковом хранилище.

Интересно, что современные относительно большие хранилища ненамного (возможно, вдвое) быстрее, чем те, которыми я располагал в 80-е. Просто в них хранится больше данных и снижена стоимость хранения в расчете на один бит. При этом некоторые операционные проблемы не решены.

Во-первых, остается проблемой качество данных. Чем больше данных вы аккумулируете, тем труднее хранить все в порядке. Мы изобрели новые направления (управление мастер-данными) и инструменты для работы с проблемами “входящего мусора — исходящего мусора”, но легче не стало. Располагая действительно большими массивами накопленных со временем данных, вы должны обеспечивать “мусор на входе — золото на выходе” и предотвращать противоположные ситуации (“золото на входе — мусор на выходе”).
Во-вторых, адекватное описание данных (метаданные) имеет решающее значение. Методика работы с данными (и даже методика хранения) требует знания того, сколько данных будет храниться, как быстро будет расти их объем и как часто они будут меняться. Запрос, который хорошо справляется с поиском сотни строк из миллиона, может не справиться с таблицей из ста миллиардов строк. Имеет значение, как вы фиксируете и отслеживаете ошибки. Ведение журнала изменений и аудит также важны, если данные часто изменяются.
В-третьих, интерпретация — это по-прежнему скорее искусство, чем наука, или наука, доступная только небольшому количеству подготовленных специалистов. Чтобы нивелировать этот фактор, разработчики были вынуждены создать эффективные фильтры и распознаватели структур, которые могут просеять горы данных и найти (возможно, неожиданные) релевантные структуры.
В-четвертых, визуализация данных. Критически важное значение имеет представление результатов в легко читаемой форме. От информации мало проку, если вы не можете понять результаты работы аналитика или аналитической программы. Теория дизайна визуализации не нова, но подобно многим вещам, требующим глубокого понимания капризов человеческого познания, трудна в практической реализации.
В-пятых, обычно приходится выбирать между режимами просмотра данных в реальном времени (что означает необходимость постоянного пересчета при изменении данных) и ретроспективным (наиболее распространенный способ для аналитики на базе кубов). В последнем случае результаты аналитики — всегда слегка устаревшие.
В-шестых, как вы узнаете заранее, на каком временном промежутке ценны или релевантны данные? Сбор, хранение, анализ и создание запасных копий стоит денег. Вместо типичного подхода “хранить все всегда” нужно иметь политику хранения данных и применять её.

Не лучше ли взяться за легкую часть задачи и хранить только то, что вам действительно нужно? В конце концов, возможно, кто-то уже хранит остальную часть информации для вас.

Печать

Ссылка на статью: [URL=http://www.pcweek.ru/themes/detail.php?ID=136715]Управление “большими данными": шесть операционных проблем[/URL]

Тема интересная, но статья слишком маленькая для того, что бы быть полезной.

Федор
07.02.2012 15:14:59

может редакторы их специально урезают для сайта, чтобы все бежали оформлять подписку на газету? %)

Путин-вор,Прохоров-марионетка
13.02.2012 01:57:06

Только зарегистрированные пользователи могут оставлять комментарий.

Регистрация
Авторизация

13-й ежегодный Russian Enterprise Content Summit 2026, 11.02.2026

	Интересно

Статьи по теме

Тренды развития Process Mining в России

Подготовленное порталом ProcessMi независимое исследование рынка Process Mining позволяет говорить, что в 2025 году …

Продуктовой разработке пора уходить с Jira

ERP в 2026 году: агентный подход

Агентный искусственный интеллект превращает системы планирования ресурсов предприятия (ERP) в интеллектуальную рабочую силу …

От цифровизации к интеллекту: как ИИ меняет корпоративные рабочие процессы

То, что десятилетия назад начиналось как оцифровка документов и автоматизация простых процессов, превратилось …

Парадокс автоматизации: почему команды безопасности боятся собственных инструментов

Парадокс автоматизации, при котором более быстрые инструменты не используются из-за их чрезмерной опасности …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Управление "большими данными": шесть операционных проблем

Комментарии