Российские ученые из Института искусственного интеллекта AIRI обучили нейросеть самой полной сборке генома человека и опубликовали ее в открытом доступе, это расширит возможности генетических, биологических и медицинских исследований, сообщили в институте.
Такие нейросетевые модели могут применяться для разных задач, в том числе для определения влияния мутаций на работу генов, поиска участков генома, классификации живых организмов на основе данных секвенирования, сообщили в институте, передает ТАСС.
На данный момент в мире есть модели для последовательностей белков, но для последовательностей ДНК общий доступ есть только к одной модели ученых из США, она носит название DNABERT.
«Наша модель — первая языковая модель для ДНК, обученная на самой полной версии генома человека — T2T-CHM13, которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в шесть раз длиннее, чем DNABERT. Тестирование полученной ДНК-модели на одной из задач генетики — предсказании последовательностей, способных „включать“ гены (промоутеров), — уже показало результаты, превосходящие аналогичные с использованием DNABERT», — пояснила глава научной группы «Биоинформатика» института Ольга Кардымон.
Модель получила название GENA_LM, ее опубликовали в открытом доступе. Это даст биологам возможность использовать ее в научных публикациях. В дальнейшем планируется расширить возможности модели.
К ней могут добавить версии, ориентированные на решение прикладных задач, в том числе для предсказания изменений интенсивности работы генов. Это нужно для понимания механизмов возникновения генетических заболеваний или появления злокачественных клеток.
Ученые из России и нескольких зарубежных стран завершили проект по полной расшифровке генома человека и представили результаты 31 марта 2022 года. По мнению авторов работы, эту расшифровку можно считать эталонным образцом, применимым в медико-генетических лабораториях для поиска мутаций.