Недавно компания SAP провела в Москве круглый стол, посвященный применению облаков и технологий Big Data, где в качестве примера были представлены результаты ее двухлетнего совместного проекта со Свободным университетом Берлина по ранней диагностике онкологических заболеваний, осуществляемой на программно-аппаратной in-memory-платформе SAP HANA. Доклад биоинформатика из указанного университета Тима Конрада вызвал двойственные чувства: с одной стороны — очень интересная и многообещающая методология, с другой — довольно сомнительное, на мой взгляд, отнесение ее к категории Big Data.
В основе метода, который пока находится на стадии R&D, лежит масс-спектрометрический анализ крови, показывающий детальное распределение по массе белков в крови исследуемого пациента: интенсивность каждой линии масс-спектра пропорциональна концентрации данного вида молекул. Исследования показали, что спектрограммы людей, склонных к заболеванию той или иной формой рака, отличаются от спектрограмм людей здоровых. Собственно, для выявления этих отличий и нахождения значимых шаблонов и применяется SAP HANA. Задача осложняется зашумленностью результатов первичных измерений и необходимостью обрабатывать огромные массивы наблюдений с целью выявления статистически значимых закономерностей. Сопоставляя выделенные шаблоны с результатами клинических наблюдений, можно провести классификацию спектрограмм и отнести их к одному из трех “сигналов светофора” (вероятности последующего заболевания). По словам Тима Конрада, первые результаты весьма многообещающи: уже сегодня таким способом можно выявить первые признаки заболевания пятью формами рака на том этапе, когда рентгеноскопия еще ничего не обнаруживает.
Любопытно, что первые расчеты выполнялись на игровой приставке PlayStation, и вызвано это было тем, что обычные десктопные процессоры справлялись с данной задачей хуже, чем процессор PlayStation, который по производительности был эквивалентен пяти десктопным. Тем не менее узким местом стал обмен данными с дисковой подсистемой. По словам Тима Конрада, из одного часа, необходимого для проведения анализа, 45 минут уходило на загрузку данных с диска. Перенос всех обрабатываемых данных в оперативную память SAP HANA позволил увеличить производительность в 30 раз.
Мне показалось, что анализируемые данные не очень хорошо описываются реляционной моделью БД (пусть и с поколоночным хранением), применяемой в СУБД HANA. Когда я попытался уточнить у Тима Конрада, так ли это и какие механизмы HANA используются при обработке спектрограмм, он ответил, что наряду с Database Engine в SAP HANA содержится и набор библиотек для высокопроизводительных вычислений в оперативной памяти Calculation Engine, которые в основном и обеспечили упомянутый выигрыш в производительности. Любопытна в этом отношении конфигурация системы SAP HANA, используемая в данной работе. Программно-аппаратный комплекс содержит 160 процессоров (именно процессоров, а не ядер) и имеет ОЗУ объемом 2 Тб, а для хранения архивов используется 50-Тб дисковая СХД. Это, конечно, не суперкомпьютер, но и не стандартный сервер БД. Скорее его можно охарактеризовать как машину для высокопроизводительных вычислений. Можно ли говорить, что здесь используются технологии Big Data? На мой взгляд, нет. Но это нисколько не умаляет значимость подобных исследований для медицины, а кроме того, свидетельствует о новых возможностях применения SAP HANA для решения нестандартных задач.