Корпорация IBM разработала новый подход к хранению данных, известный как принцип когнитивного хранения, при котором компьютер можно научить отличать данные, представляющие большую ценность, от менее важных данных. По сути, такая концепция помогает компьютерам научиться понимать, что необходимо помнить, а что можно и забыть, говорят представители IBM.
В недавней записи в корпоративном блоге, а также в новой статье, опубликованной на днях в журнале IEEE journal Computer, исследователи IBM Джованни Керубини, Йенс Йелитто и Винод Венкатесан представили свою концепцию когнитивного хранения данных. Так как данный проект IBM находится на стадии исследований, он еще не доступен широкой публике, однако компания заявила, что это может произойти совсем скоро.
Принцип действия когнитивной системы хранения заключается в учете различий между тем, что человеческий мозг классифицирует как воспоминания, и тем, что он определяет как информацию. По мнению IBM, такая дифференциация поможет определиться с тем, что нужно хранить, где это хранить и в течение какого времени.
«С учетом повышения стоимости электроэнергии и взрывного роста объемов больших данных, в особенности генерируемых Интернетом вещей, эта задача стала весьма насущной, так как ее решение позволит существенно сэкономить на емкости запоминающих устройств, что, в свою очередь, приведет к снижению затрат на носители данных и уменьшению энергопотребления», — говорится на сайте IBM.
Согласно IBM, идея основывается на использовании количественного показателя, известного как ценность данных, который аналогичен показателю, применяемому для определения ценности предмета искусства — обычно считается, что чем выше спрос и раритетнее предмет, тем выше его ценность, а значит, и строже требования к его сохранности.
«Концепция когнитивного хранения выходит за рамки существующих подходов не только потому, что она фокусируется на самих данных и принимает во внимание их нагрузочные характеристики, но и потому, что она вводит понятие ценности данных в качестве решающего фактора для конфигурирования и организации хранилищ, размещения данных, защиты информации и управления жизненным циклом данных, — говорят в своей статье исследователи IBM. — Эта концепция позволяет нам разрабатывать гибкую и динамичную систему, способную более эффективно хранить данные благодаря тому, что она предполагает высокий уровень резервирования лишь для самых важных данных, а также экономит место на носителях вследствие сокращения объемов хранения менее важной информации и с меньшей степенью резервирования. Помимо определения частоты использования данных и их нагрузочных характеристик, показатель ценности данных также можно использовать для определения уровня предоставляемого сервиса».
IBM приводит следующий пример: допустим, если тысяча работников каждый день обращается к одним и тем же файлам, то ценность этого набора данных, скорее всего, довольно высока. Когнитивная система хранения примет этот факт во внимание и будет хранить эти файлы на быстродействующих устройствах, скажем, на флеш-накопителях. К тому же, добавляет IBM, система также будет автоматически создавать множественные резервные копии этих файлов. Наконец, можно поставить дополнительную защиту на эти файлы, чтобы доступ к ним можно было получить только после авторизации, говорится в статье на сайте.
Напротив, редко запрашиваемые массивы данных вроде PDF-файлов с налоговой отчетностью
«Мы думаем, что большие данные можно считать новейшим мировым природным ресурсом, поэтому ценность данных меняется так же, как колеблется цена, скажем, на драгоценные металлы, — говорит Винод Венкатесан, специалист по обработке данных подразделения IBM Research. — Однако трудность заключается в правильном определении ценности. Если цены на золото моделируются на основе анализа финансовых рынков, то каким образом можно определить ценность электронной таблицы внутри организации?»
Для определения этой ценности IBM отследила характер и частоту обращений к данным. Исследователи также добавили к данным мета-тэги, чтобы помочь обучить систему понимать контекст использования данных. Например, астроном может пометить тэгом набор данных, поступающих из галактики Андромеды, как крайне важный или, наоборот, малозначительный. Кстати, именно астрономия вдохновила ученых IBM на выработку принципа когнитивного хранения, говорится в публикации.
Тем не менее, как пишут в своей статье исследователи из IBM, «перспективы внедрения когнитивного хранения будут зависеть от способности ученых, специализирующихся на хранении и обработке информации, сформулировать принципы определения такого размытого понятия, как ценность данных, а также от появления файловых и запоминающих систем, по-настоящему ориентированных на данные. Зарождающаяся отрасль инфономики, предоставляющая систему мер для оценки экономической пользы от информации, может стать многообещающим подходом к определению ценности данных в контексте их пользы для бизнеса. Однако возможно ли сформулировать более широкое определение ценности данных, которое бы принимало во внимание такие аспекты, как субъективное восприятие ценности данных, их контекст и культурная зависимость, их актуальность по времени, а также вопросы эксклюзивности данных и их добросовестного использования?»
Кроме того, с точки зрения Чарльза Кинга, главного аналитика фирмы Pund-IT, система когнитивного хранения от IBM использует непрерывный автоматический анализ поведения пользователя с целью классифицировать данные как «горячие» (то есть нуждающиеся в обслуживании с помощью высокопроизводительных систем хранения и носителей данных) или «холодные» (то есть такие, которые можно архивировать в малозатратных массивах, не требующих высокой производительности).
«Получается, что если большое (растущее) количество сотрудников или клиентов читает отчет или скачивает конкретный файл, то когнитивная система будет держать его наготове, — говорит Кинг. — После того, как его популярность спадет, его можно будет направить в хранилище, которое можно сравнить с камерой глубокой заморозки. По существу, IBM стремится найти замену привычным многоуровневым техническим решениям хранения данных, которые обычно применяют систему параметров и классификации данных, жестко задаваемых администратором хранилища. Взамен компания предлагает когнитивное решение, восприимчивое к поведению и предпочтениям конечного пользователя и быстро на них реагирующее, которое можно запрограммировать на „вывод данных из эксплуатации“ в соответствии с заранее заданными критериями. Это довольно интересный подход, эффективно использующий как многолетние научные наработки IBM в области хранения данных, так и растущий когнитивный капитал компании».