Сколько у нас генов?

После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалась непростой. Точное число неизвестно до сих пор, и все же оценки становятся все более достоверными.

«Геном человека» завершен, поиск генов продолжается

В 1977 году Фредерик Сэнгер разработал метод определения нуклеотидной последовательности ДНК (секвенирования), который используется и по сей день. В 1995 году был расшифрован первый геном бактерии Haemophilis influenza, в 1996 году — геном эукариотической клетки (Saccharomyces cerevisiae), а в 1998 году— геном нематоды Caenorhabditis elegans. Конечно, на рубеже тысячелетий все с нетерпением ждали результатов проекта «Геном человека», который продолжался с 1990 по 2003 год. Его задачей было определение нуклеотидной последовательности ДНК человека и — главное! — локализация человеческих генов (изначально предполагалось, что их около 100 000). Биомедицинская наука вот-вот должна была получить бесценный инструмент: полный список генов, необходимых для расшифровки молекулярных механизмов возникновения и развития тяжелых болезней — рака, шизофрении, деменции и многих других. О подготовке «черновой» версии генома человека торжественно объявили летом 2000 года, опубликована она была в 2001-м. «Геном человека» официально завершил свою работу в 2003 году и 27 мая 2004 года опубликовал полную последовательность генома.

«Полной» ее можно было назвать с некоторыми оговорками. Прежде всего, секвенировалась только ДНК в составе эухроматина, то есть такая ДНК, которая между делениями клетки пребывает в неплотно упакованном состоянии. Примерно 8% человеческого генома — это гетерохроматин, компактно уложенная ДНК, она приходится в основном на районы центромер и теломер (то есть концов хромосом и участков, к которым прикрепляются нити веретена деления). С другой стороны, эти 8% ДНК и менее интересны, чем остальные 92, поскольку они крайне слабо транскрибируются, то есть содержат относительно мало генов. (Напомним, что транскрипция — это синтез РНК на матрице ДНК, а что дальше происходит с РНК, разберем чуть позже.) К тому же они богаты повторами, что затрудняет сборку непрерывной последовательности из прочтенных фрагментов. «Белые пятна» в геноме человека продолжают заполнять до сих пор: на начало 2019 года разрывов все еще больше 500, и в основном это те же центромерные и концевые области хромосом. Те, кому интересно, как продвигается дело, могут следить за процессом в Сети, на сайте международной организации, которая занимается эталонными геномами, — Genome Reference Consortium.

Считалось, что секвенирование генома человека позволит определить локализацию каждого гена и их общее количество. Однако сегодня существует несколько баз данных генов, которые в значительной мере отличаются друг от друга.

С генами, кодирующими белки, удалось достичь некоторой ясности. Их оказалось гораздо меньше 100 000. В 2010 году по инициативе Организации по изучению протеома человека запущен одноименный проект — «Протеом человека», который должен составить полный список человеческих белков.

Какие факты позволяют утверждать, что определенный участок генома — это ген белка? Возможно, у нас есть белок, последовательность аминокислот в котором соответствует последовательности нуклеотидных триплетов в этом участке, и (или) имеются другие доказательства. Например, известна матричная РНК (мРНК) — молекула РНК, которая синтезируется в ходе транскрипции на матрице ДНК и, в свою очередь, становится матрицей для белка. Кстати, одна и та же мРНК может кодировать несколько белков за счет альтернативного сплайсинга — различных вариантов сшивания ее кодирующих участков. Вообще, белков у человека больше, чем белок-кодирующих генов. В рамках проекта «Протеом человека» предполагается идентифицировать и охарактеризовать не менее одного белка, считываемого с каждого гена, описать однонуклеотидные полиморфизмы (отличия в одну «букву») в этих генах, атакже варианты сплайсинга мРНК и посттрансляционной модификации белков.

Однако есть и другие способы. Сейчас довольно много известно о том, какими признаками должны обладать гены белка, и существуют программы, которые ищут их в компьютере, с помощью анализа генома. Подсказкой может служить и то, что гены разных видов эукариот в силу общности эволюционного происхождения сходны между собой (гомологичны), и если мы видим последовательность, которая у другого живого существа кодировала белок, — возможно, она кодирует белок и у человека.

Данные, полученные в рамках проекта «Протеом человека», представлены в аннотированных базах знаний, таких как nextProt. Белки делятся на пять групп, по достоверности наших сведений об их существовании — РЕ, 2, 3, 4, 5 (РЕ означает protein existence). В марте 2019 года nextProt содержала информацию о 17694 белках, существование которых экспериментально подтверждено, 1548 белках, для которых известны мРНК, 510 — определенных на основании гомологии с другими белками, 71 белке, предсказанном по последовательности ДНК, без других доказательств, и 576 сомнительных белках, относительно которых неясно, существуют они или нет.

Особый интерес вызывают белки, чье существование экспериментально не доказано, — так называемые потерянные белки. К этой категории относят все вышеперечисленные группы, кроме первой либо первой и последней. Для выявления и характеристики таких белков создан ресурс MissingProteinPedia.

Не только белки

Но белками все не исчерпывается. Проект «Геном человека» показал, что кроме матричных, транспортных и рибосомных РНК существует еще множество типов РНК, не менее важных для жизни.

РНК подразделяются на некодирующие РНК (нкРНК), которые не транслируются в белки, и кодирующие, или матричные РНК (мРНК), служащие матрицей для синтеза белков. У некодирующих РНК более сложная классификация. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК известны нам из школьных учебников — это рибосомные РНК (рРНК) и транспортные РНК (тРНК). Молекулы рРНК составляют основу рибосомы — молекулярной машины, которая и строит белок на матричной РНК (проводит трансляцию). Последовательность из трех нуклеотидов в мРНК указывает, какую аминокислоту следуют включить в белок. Молекулы тРНК приносят указанные аминокислоты на рибосомы в ходе трансляции.

Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют важные функции. По сравнению с генами белков, длина которых обычно измеряется в килобазах — тысячах пар нуклеотидов, а точнее, в десятках и сотнях тысяч пар, они совсем маленькие (что не облегчает поиск их генов). Но рычажку «вкл-выкл» и не надо быть большим.

Таким образом, прежде чем ответить на вопрос: «Сколько у нас генов?», необходимо понять, что «ген» может кодировать не только белок. Собственно, это ясно уже давно. Основное внимание проекта «Геном человека» было направлено на белок-кодирующие гены. Однако уже в первом докладе о геноме, опубликованном в 2001 году, сказано, что «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом», хотя на тот момент было известно лишь около 706 генов нкРНК.

Стивен Зальцберг из Университета Джонса Хопкинса в своей статье, посвященной как раз проблеме подсчета человеческих генов, дает следующее определение: «Ген — любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок». Это определение включает как гены некодирующих РНК, таки белок-кодирующие гены, но исключает псевдогены — нефункциональные остатки структурных генов, утратившие способность кодировать белок.

Публикация проекта «Геном человека» 2001 года оценила количество белок-кодирующих генов в 31 000, а группа под, руководством Крейга Вентера (которая успешно соперничала с международным проектом), назвала «точное» число 26 588. В 2004 году, после завершения официального проекта предполагаемое число белок-кодирующих генов снизилось до 24 000. Каталог человеческих генов Emsembl (версия 34а) на тот момент включал 22 287 белок-кодирующих генов и 34 214 транскриптов. Скорее всего, мы не ошибемся, если скажем, что генов, кодирующих белки, у человека около 20 000 или чуть больше. Но что с генами РНК?

Новое секвенирование и базы данных

Исследовать многообразие РНК не так просто по многим причинам, от их высокой лабильности до малых размеров. Однако появление высокопроизводительных методов параллельного секвенирования (когда миллионы фрагментов ДНК из одного образца читаются одновременно), оно же секвенирование нового поколения, значительно ускорило поиск функциональных участков генома.

Различные платформы для NGS позволяют читать от миллиона до десятков миллиардов коротких последовательностей (отсеквенированные «за один проход» участки называют ридами, от английского read) длиной 50-600 нуклеотидов каждая. К наиболее популярным платформам относятся Illumina и IonTorrent, и все больше внимания привлекают к себе платформы для секвенирования единичных молекул — Pacific Biosciences, нанопоровое секвенирование Oxford Nanopore, Helicos Biosciences HeliScope (компания Helicos объявлена банкротом, но технология лицензирована другим компаниям). Последним не нужно нарабатывать много копий ДНК для секвенирования — они действительно работают с отдельными молекулами! Другой их важный плюс в том, что они позволяют прочитывать значительно более длинные риды, до 10-60 тысяч нуклеотидов. Именно благодаря этому качеству, например, метод нанопорового секвенирования с успехом применили для секвенирования богатого повторами центромерного участка У-хромосомы человека.

Кроме того, появились методы секвенирования РНК — сначала через создание ДНК-копий, а потом и прямые. Изначально они создавались для количественного определения экспрессии генов, но также способствовали обнаружению ранее не известных РНК, как кодирующих, так и не кодирующих.

Благодаря методам М5 базы данных генов и других РНК всего за десятилетие резко выросли, и каталоги генов человека теперь содержат больше генов РНК, чем генов белков. Кроме того, секвенирование РНК позволило установить, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции происходят гораздо чаще, чем полагали, и затрагивают до 95% человеческих генов. Следовательно, даже когда мы узнаем местоположение всех генов в геноме, нужно будет выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или просто представляют собой ошибки сплайсинга.

Задача по составлению каталога всех генов по-прежнему не решена. В последние 15 лет только две исследовательские группы составляют, корректируют и пополняют список генов: RefSeq и Ensembl/Gencode. Первая поддерживается Национальным центром биотехнологической информации при Национальных институтах здравоохранения США, вторая — Европейской молекулярно-биологической лабораторией. Кстати, Gencode — подпроект консорциума ENCODE, «масштабной научной экспедиции в пустыни генома, не кодирующего белки» (см. «Химию и жизнь», 2012, 10). В этих каталогах есть сотни различий по белок-кодирующим генам, тысячи — по генам длинных некодирующих РНК; имеются существенные расхождения и в других группах.

В 2017 году сотрудники Университета Джонса Хопкинса под руководством Стивена Зальцберга создали еще одну базу данных генов человека — CHESS. Они использовали данные глубокого секвенирования РНК, чтобы заново получить информацию о всех продуктах транскрипции в разнообразных тканях

человеческого организма, и отмечают, что существенно пополнили списки генов. Примечательно, что новая база включает все белок-кодирующие гены, поэтому пользователям CHESS не нужно решать, какую базу данных они предпочитают. Создатели CHESS отмечают, что более обширная база с большей вероятностью содержит последовательности, ошибочно отнесенные к генам, но лучше потом удалить такую последовательность, чем пропустить существующий ген.

Итак, все еще неизвестно, сколько всего генов у человека. Существуют проблемы, затрудняющие получение точного ответа. Например, многие гены (особенно гены incRNA), видимо, имеют высокую тканеспецифичность. Во всех клетках один и тот же геном, однако в разных тканях транскрибируются различные гены, не только белков, но и регуляторных РНК. А значит, пока ученые подробно не исследуют все типы клеток человека, они не могут быть уверены, что обнаружили все человеческие гены. И все же сегодня знания о человеческих генах значительно обширнее, чем в начале проекта «Геном человека», а технологии совершеннее. Это дает надежду на то, что в скором времени мы узнаем точный ответ на поставленный вопрос. А пока ограничимся приблизительными данными: чуть более 20 тысяч генов белков, а вместе с генами РНК — возможно, 200—300 тысяч, но, может быть, и меньше.

Ю.Е. Макарова, кафедра биотехнологии Сеченовского университета, Москва

Сколько у нас генов?

ОСТАВИТЬ КОММЕНТАРИЙ

Оставить комментарий от имени гостя

Комментарии

Закрепленные

Понравившиеся