Никогда еще проблемы больших данных — как их хранить, как ими управлять, как администрировать и использовать — не были столь актуальны, в первую очередь из-за стремительного роста применения искусственного интеллекта. Что принесут нам большие данные в новом году? Своими прогнозами на эту тему делятся опрошенные порталом Datanami эксперты.
Дэйв Стоукс, технологический евангелист компании Percona, провайдера баз данных, предвидит рост интереса к векторным базам данных. Однако он не продлится бесконечно. «Векторные базы данных станут новым горячим предметом обсуждения для многих, но через несколько лет они будут поглощены реляционными базами данных, — полагает он. — Каждые 10 или около того лет объявляется, что некая „новая“ технология баз данных станет концом реляционных баз данных, и разработчики вскакивают на эту волну, только чтобы вновь обнаружить, что реляционная модель чрезвычайно гибкая, и поставщики реляционных баз данных могут легко адаптировать новые технологии в свои продукты».
Существование разрозненных хранилищ данных по-прежнему является проблемой для инженеров по данным. Но, по словам Молли Пресли, старшего вице-президента по маркетингу компании Hammerspace,
Большинство данных, которые мы храним, являются неструктурированными. По мере накопления они становятся настоящей проблемой, но
По данным Forrester, объем неструктурированных данных, которыми управляют предприятия, удвоится в 2024 г., что открывает новые потенциально прибыльные возможности для ИИ. «Руководители по всему миру, принимающие решения в области данных и аналитики, говорят, что только 27% управляемых их организациями данных являются неструктурированными, — отмечает аналитическая группа. — Генеративный ИИ удвоит этот показатель, поскольку компании будут внедрять более разговорный опыт для клиентов и сотрудников. Предприятия будут пытаться хранить, анализировать и осмысливать этот поток неструктурированных данных. Эта тенденция проявится в области конвейеров данных, где 80% новых конвейеров, созданных в 2024 г., будут предназначены для сбора, обработки и хранения неструктурированных данных».
По словам Джеффа Хеллера, вице-президента по технологиям и операциям компании Faction, в 2024 г. многие предприятия по всему миру будут внедрять архитектуру «данные в первую очередь» («data-first»), чтобы упростить свои стратегии управления данными. «Компании переживают смену парадигмы: они либо выбирают одно облако, либо меняют архитектуру для удовлетворения своих потребностей, — говорит он. — В
По словам Киарана Дайнеса, директора по продуктам компании Matillion, специализирующейся на конвейерах данных, ИИ-революция затрагивает все сферы жизни, в том числе и управление большими данными. «За последнее десятилетие роль инженера по данным радикально расширилась, — говорит он. —
Насколько высоко вы цените инженеров по данным? По словам Джеффа Холлана, директора по управлению продуктами компании Snowflake, в 2024 г. вы будете ценить их еще больше. «Было много разговоров о том, что ИИ заменит роль инженера по данным, — говорит он. — Это не тот случай, и на самом деле их знания и опыт в области данных будут важны как никогда — просто в новых и иных формах. Чтобы идти в ногу с развивающимся ландшафтом, инженеры по данным должны понимать, как генеративный ИИ добавляет ценность. Созданные и управляемые ими конвейеры данных, станут, возможно, первым местом, где организации смогут установить связь с большими языковыми моделями (LLM) для извлечения выгоды. Именно инженеры по данным будут понимать, как использовать модель и подключить ее к конвейеру данных, чтобы автоматизировать процесс извлечения ценности. Они также должны будут контролировать и понимать работу ИИ».
Вам может казаться, что ваши данные вышли из-под контроля, когда ими управляет сторонняя компания в облаке. По прогнозам Питера Шафтона, технического директора компании Ngrok,
Термин «интеллектуальное управление данными» («data intelligence») уже несколько лет используется для обозначения набора инструментов, которые организации используют для оперирования своими данными. По словам Джима Лиддла, директора по инновациям компании Nasuni, следующие 12 месяцев станут решающими для этой концепции. «Шокирующее количество компаний хранят огромные объемы данных просто потому, что не знают, что в них содержится и нужны ли они им, — говорит он. — Являются ли данные точными и актуальными? Правильно ли они классифицированы и доступны для поиска? Соответствуют ли они требованиям? Содержат ли они персонально идентифицируемую информацию, защищенную медицинскую информацию или другую конфиденциальную информацию? Доступны ли они по требованию или архивированы? В наступающем году компаниям придется адаптироваться к требованиям к качеству, управлению, доступу и хранению данных, предъявляемым ИИ, прежде чем они смогут приступить к реализации программ цифровой трансформации или усовершенствованиям, которые обеспечат им желаемое конкурентное преимущество».
Если вы не сможете обеспечить качество и целостность своих данных, то можете попрощаться с планами на генеративный ИИ, говорит Армон Петросян, генеральный директор и соучредитель компании Coalesce. «В 2024 г. в технологическом ландшафте произойдет трансформационный сдвиг: данные превратятся из ценного актива в источник жизненной силы процветающих предприятий, — говорит он. — Организациям, которые упускают из виду качество, целостность и происхождение данных, будет сложно не только принимать обоснованные решения, но и реализовывать весь потенциал генеративного ИИ, LLM и MО-приложений и сценариев использования. По моим прогнозам, в будущем году организациям, пренебрегающим созданием надежных основ и стратегий работы с данными, будет все сложнее оставаться на плаву в стремительно развивающейся технологической отрасли. Те, кто не сумеют адаптироваться и уделить первостепенное внимание основам работы с данными, будут испытывать трудности в конкурентной борьбе и даже рискуют не выжить».
Проблема отслеживания родословной данных также остается актуальной. В 2024 г. на помощь придет блокчейн, прогнозирует Ешвант Мумманени, главный инженер по облачным технологиям Altair. «Поскольку модели ИИ/МО играют ключевую роль в принятии важнейших решений, независимо от того, контролируются ли они человеком или полностью автономны, происхождение/родословная модели становится критически важным аспектом, — говорит он. — Лежащая в основе блокчейна технология, обеспечивающая неизменяемость записей, цифровые идентификаторы, подписи и проверки с помощью криптографии, станет ключевым аспектом корпоративного ИИ для обеспечения подтверждения подлинности моделей».
Еще один тренд в области больших данных, который будет расти, как кристаллы льда в холодную зимнюю ночь, это синтетические данные, считает Спирос Потамитис, старший менеджер по аналитическим продуктам компании SAS. «Синтетические данные получат широкое распространение, поскольку организации сталкиваются с ужесточением нормативных требований, а трансграничный обмен конфиденциальными данными становится все более сложным, — говорит он. — Синтетические данные могут с высокой точностью передавать статистические свойства исходного источника данных, что позволяет преодолевать нормативные барьеры и открывать инновации для организаций».
В 2023 г. «сетка данных» (data mesh) как бы отошла на второй план по сравнению с другими технологическими трендами (в первую очередь генеративным ИИ), но в