Фирма MetaMatrix и корпорация IBM активно разрабатывают технологии виртуальных баз данных. Тем самым они собираются помочь ИТ-менеджерам развязать узлы, возникающие при попытке деловых пользователей подключиться к разрозненным источникам данных.
Нью-йоркская MetaMatrix представила в апреле версию 3.1 своей системы интеграции информации и управления данными. Это ПО абстрагирует источники данных в виртуальную базу интегрированной информации - реляционных СУБД, плоских файлов, Web-узлов, сообщений электронной почты и пр., - позволяя производить двусторонние транзакции между консолидированными таким образом информационными массивами. Система обеспечивает доставку данных в приложения, построенные на базе Web-сервисов, а пользователи получают возможность создавать XML-документы, собирающие данные из широкого спектра источников.
MetaMatrix 3.1 указывает на физические источники информации в виртуальной базе данных
Версия 3.1 отличается от своих предшественниц расширенной серверной инфраструктурой, обеспечивающей подключение практически к любому типу информационных источников. Кроме того, доступ к механизмам запросов и интерфейсам производится теперь посредством SOAP (Simple Object Access Protocol - простой протокол доступа к объектам), Java Database Connectivity, ODBC и Java.
В апреле пришло и еще одно сходное сообщение. Корпорация IBM объявила, что в сотрудничестве с канадским биологическим исследовательским центром ведет разработку информационной системы с применением виртуальной БД. Здесь виртуализация хранения также помогает интегрировать информацию из разнообразных баз данных, форматов плоских файлов и других источников. В основу механизма iQ Engine, создаваемого совместными усилиями с iCapture Center (Ванкувер, пров. Британская Колумбия), положены СУБД IBM DB2 и технология интеграции DiscoveryLink.
В рамках проекта IBM уже дополняет DiscoveryLink упаковщиком данных - первым из своей серии устройств, предназначенных для стандартных форматов файлов, широко используемых в биомедицине. Новый упаковщик преобразует операторы SQL в вид, позволяющий обрабатывать файлы формата BLAST (Basic Local Alignment Search Tool - базовый поисковый инструментарий с локальной группировкой), предложенного учеными для хранения информации о протеинах и ДНК.
С помощью упаковщика BLAST исследователи смогут извлекать информацию из общедоступных БД наподобие GenBank - базы данных генетических последовательностей, которую ведет Национальный институт здравоохранения США. Полученные таким образом сведения можно будет сопоставлять с реляционными данными в DB2 и других СУБД, а также сохранять в РСУБД.
Проблемой использования DiscoveryLink для хранения больших микромассивов нуклеотидов занимается директор Центра сердечно-сосудистой биологической информации и моделирования Университета Джона Хопкинса (Балтимор, шт. Мэриленд) профессор биомедицинской инженерии и информатики Раймонд Уинслоу. Ранее для обращения к подобным наборам данных ему приходилось писать специализированные запросы SQL.
По словам этого специалиста, на сегодняшний день имеется множество форматов биомедицинских файлов, которые еще только предстоит интегрировать с технологией реляционных СУБД. Если ученые смогут протянуть друг другу руки через океаны скрытых в подобных файлах данных, результат может оказаться ошеломляющим. “Анализ таких наборов данных поможет выявить новые структуры, указывающие на то или иное заболевание, - предсказывает Уинслоу. - А путь к анализу столь гигантских наборов данных как раз и прокладывает информационный инструментарий наподобие DiscoveryLink”.