Исследователи обнаружили в геноме эволюционные следы появления новых белков
Российские ученые создали алгоритм для поиска тандемных повторов — небольших повторяющихся одинаковых участков в аминокислотных последовательностях. Программа получила название Method to Search for Highly Divergent Tandem Repeats (MSHDTR) и позволила проследить образование многих белков путем множественных тандемных дупликаций. Статья опубликована в журнале International Journal of Molecular Sciences.Тандемные повторы длиной от двух до нескольких десятков аминокислот встречаются в примерно 25% белков и кодируют вторичную или третичную структуру. Существует много программных продуктов и серверов для обнаружения повторов в аминокислотных последовательностях. Они дают довольно точные результаты, предсказывая начало и конец таких повторяющихся аминокислотных мотивов, но плохо определяют повторы с большим количеством вставок и замен аминокислот.«Эволюционное происхождение новых генов и соответствующих им белков давно интересует исследователей. Одним из способов происхождения генов и белков может быть тандемная дупликация, или удвоение, какого-либо фрагмента ДНК. После такого процесса тандемные повторы в белках могут сильно измениться из-за накопления замен аминокислот, их вставок и делеций. Этот процесс эволюционных изменений необходим для улучшения функциональной активности вновь созданного белка. В результате периодический мотив во всей либо в значительной части аминокислотной последовательности может быть сильно размытым. Данная работа направлена на поиск таких тандемных мотивов в аминокислотных последовательностях. Мы разработали метод поиска высокодивергентных тандемных повторов, которые могут содержать в среднем до 4,4 замен на одну аминокислоту, тогда как чувствительность всех остальных методов ограничена примерно 2,5 заменами», — рассказал руководитель исследования Евгений Коротков из ФИЦ Биотехнологии РАН.Программа MSHDTR учитывает пары соседних аминокислотных остатков, образующих связи. Кроме того, она группирует аминокислоты как полярные, неполярные, ароматические, положительно или отрицательно заряженные и представляет последовательности в белке в виде пяти символов (количество групп) вместо 20 (примерное количество видов аминокислот). Такой метод признает за тандемные повторы участки, содержащие аминокислоты из одной группы в нужном порядке. Это сделано потому, что вероятность замены аминокислоты в тандемном повторе на другую той же группы выше, чем на иную аминокислоту из другой группы.Проверив MSHDTR на базе данных Swiss-Prot, ученые обнаружили более 15 тыс. новых белков с тандемными повторами. При этом 14 тыс. последовательностей оказались высокодивергентными — они содержали много замен и вставок и были практически невидимыми для других методов. Фактически авторы нашли следы создания белков из повторов различной длины.Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Facebook и Twitter.