Отсеивать или сэмплировать данные — все равно что выбрасывать 500 кусочков из головоломки, состоящей из 1000 деталей, пишет на портале The New Stack Эбби Росс, руководитель отдела канального маркетинга компании Hydrolix.

Данные стоят целое состояние. Средняя стоимость хранения 1 терабайта составляет около 3351 долл. в год, а в 2025 г. объем неструктурированных данных, как ожидается, достигнет 175 миллиардов терабайт. Это объясняет, почему более многие инженеры говорят, что их компании выбрасывают данные, чтобы сократить расходы.

Другие компании делают выборку данных, получая, храня и анализируя только половину того, что поступает из приложений и инфраструктуры. В любом случае, отказ от хранения всех данных чреват последствиями, которые могут сказаться на финансовых показателях компании.

Отсеивать или сэмплировать данные — все равно что выбрасывать 500 кусочков из головоломки, состоящей из 1000 деталей. Да, вы можете получить некое представление об изображении в пазле, но вы не можете увидеть полную картину. А полная картина нужна, например, чтобы по-настоящему воспользоваться данными наблюдаемости для прогнозирования потенциальных инцидентов до их возникновения и обеспечения надлежащей работы приложений и инфраструктуры. В противном случае вы рискуете получить опасные последствия:

1. Неразрешенные киберугрозы. Чтобы обнаружить и пресечь медленные атаки, такие как целевые (APT), следователи должны проанализировать ситуацию за много месяцев или даже лет, чтобы понять, что произошло, какова была первопричина, кто пострадал, с чего все началось и т. д.

Но если данные выбрасываются, возрастает вероятность того, что все эти детали не будут получены. Это все равно что выплеснуть вместе с водой и младенца. Важная информация может пропасть, оставив пробелы в цепочке атак, которые невозможно заполнить. Это означает, что расследователи могут не найти и не устранить первопричину, что увеличивает риск продолжения атаки, или же на соединение точек потребуется больше времени, что оставляет открытое окно для новых атак.

2. Вопросы соответствия нормативным требованиям. Нормативно-правовое регулирование включает в себя обязательное хранение данных журналов для обеспечения безопасности, аудита и юридических целей.

В США, например, закон Сарбейнса-Оксли (SOX) требует от компаний вести подробные журналы для аудита и финансовой отчетности. Закон Грэмма-Лича-Блайли (GLBA) требует от финансовых учреждений обеспечивать безопасность данных клиентов, что предполагает хранение журналов для отслеживания доступа и изменений. Стандарт безопасности данных индустрии платежных карт (PCI DSS) требует хранить журналы не менее одного года. Закон о переносимости и подотчетности медицинского страхования (HIPAA) требует, чтобы медицинские организации регистрировали и отслеживали доступ к электронной защищенной медицинской информации. Если компании не выполняют требования по хранению данных, им грозят крупные штрафы и другие наказания.

3. Неточные ИИ-модели. Чтобы предсказать, когда конечные пользователи будут испытывать проблемы с производительностью, особенно когда речь идет о потоковом видео и веб-приложениях, компании могут использовать ИИ для обнаружения аномалий. Однако для обучения таких моделей необходимы данные.

Исторические данные нужны, чтобы модели могли выявить закономерности, определить, что нормально, а что ненормально, и чтобы точно настроить эти модели, чтобы они могли обнаруживать проблемы с производительностью на основе прошлых показателей поведения. Например, компаниям необходимо уметь предсказывать, когда возникнут проблемы с производительностью, чтобы перенаправить трафик, например, в другую сеть доставки контента (CDN). Без данных, которые раскрывают предупреждающие признаки, модели не смогут сделать такие прогнозы.

4. Неэффективное использование ресурсов. Что если вы используете 1000 серверов, а вам нужно только 750? Как вы узнаете об этом? Проанализировав данные журналов облачных сервисов, вы сможете увидеть, где вам нужно увеличить ресурсы и насколько эффективно работают эти серверы. Не имея представления о том, как работают ваши службы, вы можете запускать их на контейнерах, которые имеют избыточное резервирование.

Или вы можете не заметить проблему в службе, например ошибку, вызывающую тайм-ауты и многократные повторные попытки, что приводит к чрезмерным расходам на вычисления. Вам нужен доступ к данным журнала, чтобы понять причину сбоев и понять, где вам может понадобиться больше или меньше ресурсов. Другими словами, вы не сможете обнаружить проблемного ребенка, не наблюдая за всеми детьми.

Сбор, хранение и анализ всех данных — это ключевой момент для поддержания здоровой, функциональной и безопасной инфраструктуры. Если вы сохраните все свои данные, вы сможете избежать этих последствий. Но хранить их нужно так, чтобы не нарушить бюджет. Управляемые сервисы наблюдаемости делают это возможным.