В ближайшие годы каждый биолог должен будет знать программирование, а сама биология практически полностью превратится в биоинформатику, полагают российские эксперты. Давайте поближе познакомимся с одним из самых перспективных направлений этой науки, связанным с расшифровкой геномных кодов.
Краткий ликбез
Зачем надо изучать геномы живых существ? Сфер применений тут огромное количество — например, анализ больных клеток человека и малоизвестных бактерий, да и вся молекулярная диагностика, когда самого лучшего доктора Хауса заменит абсолютно точный компьютер. Но сейчас для диагностики заболевания подобными цифровыми способами надо исследовать миллионы клеток, а это требует слишком большого времени, и результаты диагностики подчас приходят слишком поздно. Существуют и фундаментальные вопросы — крайне интересно, скажем, познать биологические схемы контроля производства белков, своеобразные метамеханизмы, функционирующие “поверх” клетки. Важно понять и принципы организации разметки генетического кода (разделения его на смысловые и завершающие последовательности). С возрастом эта разметка “стирается” — в частности, смысловые последовательности становятся завершающими, что сбивает механизм синтеза белка в процессе считывания разметки, фактически вызывая процесс старения.
Некоторые важные события в современной биологии происходят буквально на наших глазах. Так, ещё совсем недавно было непонятно принципиальное назначение большей части ДНК — фактически 97% её считалось “генетическим мусором” (junk DNA); точнее, гены в ней просто отсутствуют. В конце 2012-го в журнале Nature была опубликована статья, показавшая, как существенная часть этого “мусора” (чуть ли не 80%) напрямую влияет на активность генов, которая сильно зависит от своего контекста, “мусорного” окружения.
Процесс чтения последовательности ДНК (так называемое секвенирование) и последующая сборка, осуществляемая компьютерными программами — геномными ассемблерами, во многом аналогичен восстановлению книги, разорванной на множество перемешанных кусочков, складыванию гигантского паззла из миллиардов частиц и т. п. Основная проблема заключается в том, что целиком прочитать структуру ДНК невозможно — только ее отдельные фрагменты, так называемые “риды” (от английского read). В зависимости от длины “ридов” применяются разные алгоритмы построения модели ДНК. Незадача усугубляется тем, что и в самих “ридах” нередки ошибки. Последние алгоритмические наработки, например, базируются на парных графах де Брёйна, однако остаются проблемы с неоднозначностью сборки конечной модели. Трудность секвенирования ДНК ещё и в том, что для такого процесса требуется существенное количество её “клонов”, а в лабораторных условиях клонировать многие бактерии невозможно.
Для комбинирования “ридов” существует множество программ, однако работают они долго. Между тем растут длины получаемых биологами “ридов” для различных ДНК — соответственно можно повысить качество сборки, но и потребность в ресурсах при этом вырастает очень сильно. Так, китайцы расшифровали ДНК панды за месяц работы кластера с сотнями гигабайтов ОЗУ. В среднем же стоимость секвенирования человеческой ДНК сегодня составляет тысячи долларов, причем расшифровку на суперкомпьютере можно выполнить всего за сутки.
С развитием геномных ассемблеров нового поколения и цена, и время снизятся на пару порядков. Возможно, текущие недостатки нынешних технологий и одновременно весьма заманчивые перспективы подтолкнули отечественных инженеров к созданию еще одного ассемблера в области, где уже присутствуют сильные игроки.
Биоинформатика по-питерски
Над темой секвенирования ДНК в России трудится ряд исследовательских структур: Лаборатория эволюционной геномики МГУ, Медико-генетический научный центр РАМН, Институт общей генетики имени Н. И. Вавилова РАН, Лаборатория "Алгоритмы сборки геномных последовательностей" Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики, Лаборатория алгоритмической биологии Санкт-Петербургского Академического университета, созданная, в частности, при поддержке Жореса Алфёрова. Потенциально они могут помочь в постижении эволюции видов и создании лекарств нового поколения.
Петербургская компания JetBrains известна инструментарием для программистов, а один из её основателей, Сергей Дмитриев, по-прежнему принимающий корпоративные решения стратегического характера, в настоящее время сосредоточился на научной работе в сфере биоинформатики. При его поддержке создана биологическая лаборатория JetBrains, которая среди прочего пытается понять фундаментальные принципы организации геномных разметок, а также намерена выполнить реверс-инжиниринг генетического “мусора”. Развивает эта структура и профильные студенческие проекты, поддерживает международный проект по биоинформационным исследованиям и разработкам GeneStack.com.
В марте 2013-го лаборатория провела семинар, посвященный текущим достижениям в сфере геномного секвенирования. Краткое введение слушателей в биоинформатику прочитал Николай Вяххи из лаборатории алгоритмической биологии СПбАУ РАН. Он полагает, что практически все биологи через пять лет будут знать программирование, так как спрос на подобных специалистов очень высок. Его коллеги Антон Банкевич и Сергей Нурк подробно рассказали о задаче секвенирования и сборки генома, о геномном ассемблере SPAdes, а Олег Шпынов из JetBrains BioLabs пояснил связь механизмов эпигенетических модификаций с биоинформатикой.
Ассемблер Saint Petersburg Assembler (SPAdes), созданный в университетской лаборатории под руководством профессора Калифорнийского университета (США) Павла Певзнера, достигает определенного баланса между качеством результата и эффективностью работы. В частности, был придуман оригинальный метод хеширования без коллизий (для каждого ключа по определенному алгоритму выдается уникальный набор значений с целью дальнейшей индексации). В итоге при хранении парного графа де Брёйна каждую его вершину удается “закодировать” символическим значением в 2,7 бита. И уже в 2012-м SPAdes показывал скоростные результаты, недоступные ни одному другому сборщику! Сам ассемблер поставляется свободно в исходных кодах (где-то под 100 тыс. строк кода на С++).
Перспективы туманны
Интенсивно развивают биоинформатику США и Китай, причем фактически совместными усилиями. Китайские специалисты пока выполняют во многом рутинную работу, подготавливая, например, “сырые” данные для дальнейшей обработки в США. При этом объемы информации столь велики, что наработки пересылаются почтой на жестких дисках, ресурсов Сети не хватает. А вот российские биолаборатории из-за непродуманной политики финансирования мегагрантов, возможно, скоро закроются и уже в нынешнем году переедут на Запад, полагает профессор Певзнер. Остается рассчитывать только на частную поддержку — наподобие биоинформационного проекта JetBrains.
Полная видеозапись питерского семинара, собравшего около сотни молодых специалистов, будет выложена на lektorium.tv. Там же можно найти и материалы декабрьского семинара “Почему геномный ассемблер нельзя написать за выходные?”, в которых рассказывается об основных принципах построения таких ассемблеров и предлагается разработать оригинальный геномный сборщик — например, в рамках дипломной работы.