Содержание
Содержание
Предисловие ........................................................................................... 5
От издательства ..................................................................................... 6
Глава 1. Естественная история генома человека ............................... 7
Общая характеристика генома .................................................... 7
Что такое ген? ............................................................................. 15
Повторяющаяся ДНК ................................................................ 21
Тандемно повторяющиеся последовательности .............. 22
Диспергированные повторяющиеся
последовательности ............................................................ 24
Хроматин ..................................................................................... 27
Экспрессия генов........................................................................ 29
Транскрипция ..................................................................... 29
Созревание (процессинг) РНК ......................................... 34
Трансляция .......................................................................... 39
Краткое содержание главы 1 ..................................................... 48
Глава 2. Механизмы мутаций: как изменяется геном человека ........ 50
Спонтанные мутации ................................................................. 50
Мутации, возникающие при репликации ДНК .............. 51
Влияние изменений в последовательности
оснований на экспрессию генов ....................................... 58
Мутации, вызываемые мобильными генетическими
элементами .......................................................................... 65
Мутации вследствие ошибок рекомбинации................... 66
Хромосомные мутации ...................................................... 69
Индуцированные мутации ......................................................... 77
Скорость (темпы) мутирования у человека ............................. 82
Метод 1. Полимеразная цепная реакция ................................. 84
Краткое содержание главы 2 ..................................................... 87
Глава 3. Генетические болезни: последствия мутаций ................... 89
Менделевское наследование аутосомных генов ...................... 89
Менделевское наследование генов в X- и Y-хромосомах ...... 103
От Менделя к генам ................................................................. 109
Анализ сцепления ............................................................. 115
Позиционный анализ ....................................................... 120
За пределами менделизма: сложное наследование ............... 122
Геномный импринтинг ............................................................ 131
Краткое содержание главы 3 ................................................... 137
Глава 4. Геном человека и практическая медицина ..................... 140
Генетический скрининг ........................................................... 141
Генетический скрининг взрослых .................................. 146
Этические и юридические аспекты генетического
скрининга .......................................................................... 155
Лечение генетических нарушений .......................................... 157
Лечебное питание (диетотерапия) .................................. 157
Белковая заместительная терапия .................................. 159
Клеточная и тканевая заместительная терапия ............. 165
Генная терапия ................................................................. 170
Фармакогеномика ............................................................. 178
Метод 2. Анализ генов и их экспрессии с помощью
биочипов .................................................................................... 181
Краткое содержание главы 4 ................................................... 183
Глава 5. Геном митохондрий и митохондриевые патологии ....... 185
Митохондриевые генетические болезни ................................ 194
Болезни, приписываемые мутациям в мтДНК ............. 194
Митохондриевые болезни и мутации
в ядерной ДНК ................................................................. 201
Митохондрии и старение ................................................. 205
Лечение митохондриевых болезней ................................ 206
Краткое содержание главы 5 ................................................... 207
Глава 6. Генетические основы рака ................................................ 209
Онкогены ................................................................................... 213
Гены–супрессоры опухолей .................................................... 224
Нарушения регуляции роста ................................................... 231
Клеточный цикл ............................................................... 231
Программируемая гибель клетки .................................... 233
Источники нестабильности генома ........................................ 235
Колоректальный рак ........................................................ 236
Рак молочной железы ...................................................... 240
Рак с дефектами сохранности ДНК ............................... 242
Эпигенетические изменения при раке ........................... 244
Краткое содержание главы 6 ................................................... 247
Глава 7. Геном человека и биология развития .............................. 249
Генетика внутриутробного развития ...................................... 254
Факторы транскрипции и раннее развитие ................... 255
Органогенез ....................................................................... 260
Сложное наследование пороков развития ..................... 265
Геномные нарушения ....................................................... 269
Генетика старения .................................................................... 271
Взгляд в будущее ...................................................................... 274
Метод 3. Конструирование трансгенных мышей .................. 276
Краткое содержание главы 7 ................................................... 278
Литература ......................................................................................... 280
Ресурсы Интернета ............................................................................ 281
Приложение ....................................................................................... 283
Предисловие
«Как работает геном человека» является краткой сводкой основных фактов о генах человека, о том, как они экспрессируются, как мутации приводят к простым или сложным нарушениям, и о том, как быстрые достижения в нашем понимании генома человека влияют на практическую медицину. Эта книга будет полезна людям, занимающимся науками о здоровье на всех уровнях, от студентов до состоявшихся профессионалов, которые хотели бы расширить свои знания о генетике человека без особых затрат времени. «Как работает геном человека» окажется также хорошим дополнительным учебным пособием для тех разнообразных университетских курсов, где основной текст с недостаточной глубиной освещает генетику человека.
Эта книга предполагает, что Вы уже прошли вводные университетские курсы по биологии или, по крайней мере, Вы знаете основные факты о генах, ДНК, белках и т. п. Если Вы не уверены, что эта книга именно то, что Вам нужно, то попытайтесь проверить себя с помощью следующего короткого теста:
1. Законы Менделя были написаны 2500 лет тому назад мистиками Среднего Востока, которые жили в пещерах.
2. Уотсон и Крик – это пара известных комиков, которые снимались во многих кинокомедиях в 1940-1950-е годы.
3. АТФ – это ведущая телекоммуникационная компания.
4. Хромосомы различаются цветом, например, X-хромосома – розовая, а Y-хромосома – голубая.
5. Мейоз – это болезнь, передающаяся половым путем.
Если Вы задумались на несколько миллисекунд, засомневавшись в ложности этих утверждений, то Вы можете не читать эту книгу. Если же Вы на все 100% справились с этим тестом, то Вы можете заглянуть в конец каждой главы и прочитать их резюме. Если Вы решите, что уже много раз читали основные сведения о генах и их экспрессии, изложенных в Лекции 1, - не беда: просто пропустите то, с чем хорошо знакомы и переходите к тем разделам, которые хотелось бы познать или освежить в памяти. Вполне возможно, что Вы найдете здесь много полезного для себя.
ОТ ИЗДАТЕЛЬСТВА
Автор, редакторы и издательство предприняли максимум усилий, чтобы представить по возможности корректную информации. Однако они не несут ответственность за ошибки, упущения или любые другие недочеты, относящиеся к использованию читателями содержания данной книги и к использованию описанных в книге продуктов. В тексте упоминаются и обсуждаются лекарственные препараты и другие медицинские средства, которые могут иметь регулируемое FDA (Food and Drug Administration) ограниченное применение исключительно для лабораторных исследований и клинических испытаний. Информация о лекарствах, представленная в тексте, извлечена из литературных источников, недавно опубликованных данных и отчетах о фармакологических испытаниях. Исследователи, практики-клиницисты и органы государственного контроля и регулирования часто меняют принятые в данной области стандарты. Когда принимается решение использовать какое-либо лекарство в клинике, то за определение того, каков в настоящее время статус данного лекарства в FDA, ответственность несут врач или читатель-пользователь. Для этого они обязаны проверить, соответствует ли содержимое упаковки ее описанию, прочитать инструкцию по применению данного лекарства, рекомендации по дозировкам, предостережения и противопоказания и оценить приемлемость использования данного продукта. Это особенно важно в случаях с новыми или редко используемыми лекарствами.
Лекция
1
Естественная история генома человека
Мы живем в эру захватывающего дух прогресса в области генетики человека. Эта эра – эра геномики - время, когда последовательность ДНК в геноме человека определена почти полностью, время, когда анализируется роль тысяч генов человека в норме и при болезнях. Наступает время, когда изучение небольших вариаций во многих генах приведет нас к индивидуализированной медицине, время, когда будут выявлены генетические основы большинства врожденных аномалий и время, когда сравнение генов человека и приматов выявит генетические основы человеческой уникальности. Это есть время постоянного эмоционального возбуждения и для тех, кто участвует в открытиях непосредственно, и для тех, кто участвует опосредованно, применяя бурный поток новых знаний к врачебным сферам деятельности.
ОБЩАЯ ХАРАКТЕРИСТИКА ГЕНОМА
Слово геном относится к общему содержанию ДНК у данного вида, включая гены и всю остальную ДНК. Однако геном есть нечто большее, чем выражение для обозначения количества ДНК; когда мы говорим о геноме, в действительности мы мыслим в терминах информационного содержания. Содержание ДНК в клетках человека является достаточно стандартным для млекопитающих и составляет примерно 3 миллиарда пар нуклеотидов в зародышевых (половых) клетках (гаплоидный геном) или примерно 6 миллиардов пар нуклеотидов в большинстве соматических клеток (диплоидный геном) . Последний эквивалентен примерно шести пикограммам (6•10-12 г) ДНК, что составляет примерно долю в 10-12 от массы соли в чайной ложке. Размер генома у слона и мыши примерно такой же, поэтому тот факт, что мы способны общаться и писать на тысячах языков, создавать компьютеры, посылать ракеты в глубины космоса и заниматься всякого рода познавательной деятельностью, чего не могут достичь другие млекопитающие, должен быть следствием различий в относительно небольшой части нашей ДНК. Идентификация генетических основ уникальности нашей человеческой анатомии, физиологии, поведения и познавательных способностей будет одним из величайших научных приключений XXI века. Но прежде всего мы должны завершить каталогизацию генов человека и понять, как они участвуют в нормальном развитии и обмене веществ (метаболизме). Эта информация, дополненная исчерпывающим каталогом нормальных и аномальных генетических вариантов, основательно повлияют на клиническую медицину.
Как генетический материал ДНК была идентифицирована в 1944 г., когда Эвери , МакЛеод и МакКарти показали, что фенотип бактерии можно изменить, если клетки одного штамма обработать ДНК другого штамма, но не его белком или РНК. В 1953 г. Уотсон и Крик вывели двухспиральную структуру ДНК, в которой пары оснований A=T (аденин-тимин) и G≡C (гуанин-цитозин) расположены между нитями, и такая молекулярная модель разом объяснила как кодирование генетической информации, так и репликацию генетического материала.
За долго до того, как ДНК была признана генетическим материалом, с помощью светового микроскопа были изучены хромосомы, благодаря тому преимуществу, что в метафазе – центральной стадии митотического деления клетки – хромосомы сильно конденсированы и физически отделены друг от друга. На заре цитогенетики было множество недоразумений касательно общего числа хромосом в клетках человека. Не так-то легко было получить метафазную пластинку хорошего качества (т. е. такой разброс хромосом на предметном стекле, чтобы хромосомы из одной клетки были бы видны отделено друг от друга) . В те времена хромосомы на препаратах выглядели как довольно бесформенные темные сгустки и часто перекрывали друг друга. Известный цитолог Теофилус Пейнтер (Theophilus Shickel Painter [1889-1969]), изучая сперматоциты, пришел в 1923 г. к выводу, что у человека 48 хромосом. Эта цифра не подвергалась сомнению почти 30 лет. Много позже был разработан метод получения разбухших клеток в гипотонических растворах (растворах с низкой ионной силой), а другие исследователи открыли вещества, способные блокировать деление клеток (при выращивании их в культуре) на стадии метафазы, и таким образом сильно упростилось получение большого количества необходимого экспериментального материала. Эти два технических новшества резко повысили качество хромосомных препаратов, и с их использованием в 1956 г. ученые получили несомненные доказательства того, что истинное число хромосом у человека 46. Наш диплоидный геном оформлен в виде 23 пар хромосом, размер которых варьирует от 45 миллионов пар нуклеотидов до примерно 280 миллионов пар нуклеотидов. Их них 22 пары – аутосомы и одна пара – половые хромосомы .
Более подробная классификация, которую разработали в 1940-х – 1950-х гг., была основана на расположении центромеры - хромосомной структуры, к которой присоединяются нити митотического веретена. Центромеры могут располагаться либо примерно посередине хромосомы (метацетрические), либо заметно ближе к одному из концов хромосомы, чем к другому (субметацентрические), или очень близко к одному из концов (акроцентрические). Хромосомы человека группировали на семь классов, согласно их размеру и расположению центромеры.
Значительный прогресс был достигнут в 1960 г., когда были разработаны методы окрашивания, которые позволяют выявлять чередующиеся светлые и окрашенные поперечные полосы (диски, «бэнды») в метафазных хромосомах. Наиболее часто используется система окрашивания, разработанная Гимзой . Его имя теперь увековечено в названии самих окрашенных дисков, которые принято сокращенно называть G-дисками, а сам метод – G-методом (дифференциального окрашивания хромосом). Рисунок («паттерн») окрашивания оказывается специфичным для каждой хромосомы, и это позволяет вполне однозначно идентифицировать все хромосомы в метафазной пластинке. Физическая природа темного и светлого окрашивания полос до конца не выяснена, но имеет место определенная корреляция с составом генов. Темные G-диски относительно более богаты парами оснований A=T (аденин-тимин), в них довольно мало генов и они позднее других реплицируются в клеточном цикле. Светлые G-диски более обогащены парами оснований G≡C (гуанин-цитозин), содержат большую часть генов и реплицируются раньше – в S-фазе клеточного цикла (основная стадия репликации ДНК). Общее содержание GC в геноме человека составляет 41%, но оно явно неравномерно: темные G-диски содержат примерно 37% GC, а светлые – около 45%. Увы, мы до сих пор не знаем, имеют ли эти различия в составе эволюционное или функциональное значение.
В 1971 г. в Париже собрался комитет экспертов, который рекомендовал приписывать хромосомам номера, начиная с № 1- для наибольшей хромосомы и кончая № 22 - для наименьшей хромосомы. Однако цитологическая техника все еще оставалась до некоторой степени неопределенной, и потому была допущена небольшая ошибка: наибольший номер 22 был приписан предпоследней из самых малых хромосоме. В действительности же наименьшей является хромосома 21. Парижская конференция ввела также систему нумерации дисков и буквенные обозначения: p – для короткого плеча каждой хромосомы и q – для длинного плеча. Половые хромосомы не нумеруются; они обозначаются как X- и Y хромосомы. Самки млекопитающих имеют две X-хромосомы, а самцы имеют одну X- и одну Y-хромосому. X-хромосома имеет средний размер и содержит среднее число генов. Y хромосома довольно маленькая; она содержит совсем мало генов, некоторые из которых необходимы для развития организма мужского пола, но в основном она представлена гетерохроматином – протяженными участками повторяющихся и высоко конденсированных последовательностей, которые не кодируют никаких белков.
Полный набор хромосом человека называется кариотипом. Обычно нормальный кариотип человека принято обозначать как 46,XY – для мужчин и 46,XX – для женщин. С некоторыми аномальными кариотипами вы ознакомитесь в Лекции 2. Результат анализа метафазной пластинки после окрашивания по G-методу (или какому-либо иному методу) можно наглядно представить в виде упорядоченной диаграммы, которая называется идиограммой или кариограммой . Идиограмма кариотипа человека представлена ниже (Рис. 1-2).
В 1970-е – 1980-е гг. в генетике преобладало построение и изучение генетических карт. Одним из плодотворных подходов было создание гибридных клеток, которые содержали полный геном грызуна (мыши или крысы) и одну или несколько хромосом человека. Когда у такого клеточного гибрида удавалось идентифицировать специфический продукт гена человека или ферментативную активность, то можно было заключить, какая из хромосом содержит соответствующий ген. Впоследствии бурное развитие технологии рекомбинантных ДНК сделало возможным клонировать гены человека. Благодаря этому стало возможным производить в клетках микроорганизмов неограниченное количество небольших участков (фрагментов) генома человека. В сочетании с разнообразными новыми физическими методами и традиционными методами генетики клонирование невероятно повысило мощь генетического картирования и анализа.
Решающим достижением молекулярной генетики стала разработка методов секвенироования ДНК в 1977 г. До этого момента возможность интенсивного изучения генома человека и молекулярных основ генетических болезней казались безнадежным делом. К середине 80-х гг. секвенирование ДНК было столь существенно улучшено, что стало возможным практическое осуществление крупномасштабных проектов по секвенированию геномов различных видов. Группа ученых, участвующих в реализации биологической программы Министерства Энергетики США, нацеленной на изучение скорости мутирования у человека (см. Лекцию 2), осознали, что теперь появилась возможность изучать мутации на молекулярном уровне. Однако для поиска и изучения мутаций на уровне ДНК необходимо знать также исходную (нормальную) последовательность ДНК. Так было положено начало Проекту «Геном Человека», который официально стартовал осенью 1990 г. благодаря совместным усилиям Министерства Энергетики и Национальных Институтов Здоровья , которые, помимо других организационных мероприятий, учредили для этого специальный Национальный Институт Исследования Генома Человека . Проект вскорости стал международным, в который, наравне с США, наиболее значительный вклад внесли также ученые из 16 институтов Великобритании, Франции, Германии, Японии и Китая. Эти страны образовали Международный консорциум по секвенированию генома человека.
Главной целью Проекта «Геном Человека» было секвенировать все 3 миллиарда пар нуклеотидов в гаплоидном геноме человека и идентифицировать все гены. Отчет о главном прогрессе в этой области был опубликован в 2001 г. К этому времени было секвенировано примерно 90% генома, но значительная часть всей последовательности оставалась все еще в виде фрагментов длиной в несколько тысяч пар нуклеотидов. Очевидно, что это сильно ограничивает пользу от таких данных. Это аналогично тому, как если бы все предложения в этой книге были бы написаны на отдельных обрывках бумаги и, после того, как в книжном магазине вы заплатили за книгу, вы получили бы мешок с этими обрывками, перемешанными в случайном порядке. Из такой «книги» вы вряд ли бы многое узнали о генетике человека!
В следующие два года почти все такие бреши были заполнены, и о завершении практически всей последовательности было объявлено в апреле 2003 г. - подходящая дата, чтобы отпраздновать 50-летний юбилей модели структуры ДНК Уотсона и Крика! Около 99% районов, содержащих гены, были секвенированы с точностью 99,99%. Пока еще остается менее 400 брешей, и в среднем непрерывные участки составляют более 27 миллионов пар нуклеотидов, а общий размер генома, как уже говорилось, составляет примерно 3,2 миллиарда пар нуклеотидов . Неожиданным результатом оказалось то, что общее число генов у человека находится в пределах от 30000 до 35000, что намного меньше, чем предполагалось ранее, и всего в два раза больше, чем число генов у плодовой мушки дрозофилы или у микроскопического круглого червя (почвенной нематоды) .
Завершение секвенирования генома человека является важной вехой в генетике человека, но это отнюдь не означает, что мы знаем функции всех этих генов. Анализ функции тысяч генов в норме и при болезнях будет гораздо более сложным проектом, чем секвенирование генома. Сейчас планируется использовать фундаментальные данные о последовательности генома разнообразными путями, о чем будет рассказано в следующих лекциях данной книги. Здесь же достаточно сказать, что наличие полной последовательности генома человека открывает возможности понять биологию человека и его болезни на таком уровне, о котором нельзя было даже вообразить всего лишь несколько лет.
ЧТО ЕСТЬ ГЕН?
Ген определяется как участок ДНК, который транскрибируется в РНК-копию одной из нитей ДНК (этот процесс будет описан далее в этой лекции). Большинство генов являются участками ДНК, которые несут информацию о последовательности аминокислотных остатков в белке, однако некоторые гены кодируют только РНК. Фактически все метаболические функции живых клеток опосредуются белками, но в то же время другие белки образуют множество внутриклеточных и внеклеточных структур. Со всеми генами связаны регуляторные последовательности ДНК, которые являются такими участками, к которым присоединяются белки, определяющие, будет ли ген экспрессирован в данное время и в данном месте. Некоторые генетики называют такие регуляторные последовательности тоже генами.
Рис. 1-3 поможет освежить Вашу память относительно основных элементов структуры ДНК. В окнах A и B показаны структуры четырех оснований: двух пуринов - аденина (A) и гуанина (G) и двух пиримидинов - тимина (T) и цитозина (С). В окне С показана общая структура нуклеотида, который является фундаментальной единицей, из которых собираются и ДНК и РНК. Заметьте, что символы 5' и 3', которые обозначают концы полинуклеотидной цепи, являются номерами атомов углерода в остатке сахара в составе нуклеотида. Первый нуклеотид в начале полинуклеотидной цепи имеет 5'-фосфатный остаток, а последний нуклеотид в конце цепи имеет 3'-гидроксильную группу. В окне D показана двухспиральная структура ДНК, нити которой удерживаются вместе водородными связями между парами оснований (A=T или G≡C). Лентообразные линии серого цвета символизируют сахарофосфатный остов, к которому присоединены основания. На этом же рисунке схематически показан также процесс транскрипции (синтеза комплементарной нити РНК), который мы обсудим далее в этой лекции.
Прежде чем углубиться в структуру гена, следует указать на некоторые терминологические и аббревиатурные несуразности. Поскольку элементарными единицами ДНК (или РНК) являются нуклеотиды, то длину двунитевых последовательностей ДНК (или РНК) логично выражать в парах нуклеотидов, сокращенно п.н. Но иногда, следуя англоязычной традиции, используют словосочетание пары оснований и используют сокращение – п.о. Тысячу пар нуклеотидов обычно обозначают как т.п.н. Но иногда неоправданно используется лабораторный жаргон, являющимся калькой с английского: «килобаза» (kilobase) и сокращение kb – вместо т.п.н., а также Mb - «мегабаза» (megabase) - вместо миллиона пар нуклеотидов и Gb - «гигабаза» (gigabase) - вместо миллиарда пар нуклеотидов. Длину однонитевых ДНК и РНК измеряют, естественно, не парами, а просто числом нуклеотидов (или оснований). «Начало» каждой последовательности ДНК или РНК обозначается как 5' (читается как «пять-штрих»), а окончание – 3' («три-штрих»). Эти номера соответствуют структуре нуклеотидов (см. Рис. 1 3 С) и тому, каким путем они собираются в нити ДНК или РНК (см. Лекцию 2).
Типичный ген человека состоит из чередования экзонов и интронов. Экзоны являются участками ДНК, которые будут представлены в зрелой матричной РНК (мРНК), которая образуется в процессе экспрессии гена. Большинство экзонов содержат информацию о последовательности аминокислот – элементарных единиц белков. Кроме этого, в начале и в конце мРНК находятся такие экзоны, которые не кодируют последовательность аминокислот, но могут содержать различные типы регуляторной информации. Интроны же являются такими участками генов, которые расположены между экзонами и отсутствуют в зрелых мРНК. Отношение числа экзонов к числу интронов варьирует достаточно широко. Лишь небольшое количество генов не содержат интронов, в то же время есть гены, в которых интроны составляют более 95% их длины. Функция интронов и их эволюционное возникновение до сих пор не до конца поняты, но принято считать, что наличие генов, сконструированных из ряда коротких кодирующих последовательностей (экзонов) обеспечивают эволюционную пластичность. На Рис. 1-4 схематически представлена экзон-интронная структура двух хорошо изученных генов, которые кодируют α- и β полипептидные цепи глобиновой части гемоглобина.
Согласно отчету Консорциума по секвенированию в среднем ген человека содержит 27 т.п.н. Если мы помножим 27 т.п.н. на 30000 генов, то мы получим, что гены человека занимают 0,8 млн.п.н., т. е. примерно лишь одну четверть от всего генома. Консорциум по секвенированию сообщает нам еще некоторые интересные количественные данные о генах человека. Среднее число экзонов, приходящееся на один ген равно примерно 8 (соответственно среднее число интронов в гене должно быть равно 7). Средний размер экзона составляет 145 п.н., а средний размер интрона – 3365 п.н. Легко сосчитать, что в среднем экзоны составляют менее 5% от общей длины гена. В среднем суммарная длина кодирующих экзонов ДНК в одном гене составляет 1340 п.н.; этого достаточно, чтобы образовать белок длиной в 447 аминокислотных остатков. Однако, имеет место громадная вариабельность в размере генов, числе интронов, размере кодируемых белков и т. п. Размер наибольшего из известных генов превышает 2,4 млн.п.н., известны интроны длиной более 30 т.п.н., а некоторые белки содержат более 3000 аминокислотных остатков.
Упомянутая оценка числа генов в пределах 30 000-35 000 была получена путем компьютерного анализа геномных последовательностей. Сначала подсчитали число известных генов (что, естественно, было достаточно легко сделать) и к нему добавили число генов, наличие которых можно было предсказать из оценок числа возможных экзонов, числа сопряженных экзон-интронных последовательностей и некоторых других характеристик. Понятно, что число предсказанных генов довольно неопределенно, поскольку, с одной стороны, некоторые гены компьютер может не распознать, а с другой стороны, компьютер может ошибочно предсказать гены, которые в реальности не существуют.
Один из способов обнаруживать неизвестные гены заключается в установлении сходства с последовательностью известного гена. Многие белок-кодирующие гены образуют семейства, которые представляют собой группы генов, имеющих значительное сходство в своих последовательностях. Основным событием, приводящим к появлению семейств генов, является дупликация гена, которая может случайно возникать вследствие ошибок репликации и рекомбинации ДНК (см. Лекция 2). Когда образуются две копии гена, одна из копий может мутировать таким образом, что образуется несколько измененный ген, который будет кодировать белок со свойствами, слегка отличными от оригинала. Если различия, приобретенные новым белком, придадут ему некоторые преимущества, то процесс отбора может увековечить их в последующих поколениях. Вследствие последующих ошибок в ходе репликации или рекомбинации число таких по разному измененных копий генов может разрастись, и в результате получится мультигенное семейство и, кроме того, они могут рассредоточиться по геному на отдаленные расстояния.
Классическим примером генных семейств у человека является кластер генов β-глобина на хромосоме 11 и генов α-глобина на хромосоме 16. Их схема представлена на Рис. 1-5.
Обратите внимание на наличие псевдогенов в каждом кластере (они обозначены греческой буквой ψ). Псевдогены образуются из дуплицированных генов, одна из копий которых приобретает такие мутации, которые делают невозможным ее экспрессию. Известны многие другие генные семейства, число членов в которых исчисляется десятками; примерами являются семейства генов для актинов, миозинов, аполипопротеинов, гистонов и иммуноглобулинов. Когда анализируются удаленные друг от друга семейства, то многие из них можно назвать сверхсемействами, потому что они насчитывают сотни членов.
Давайте теперь вычислим еще одно интересное число. Какая доля генома человека содержит информацию для кодирования белков? Помножив 1340 п.н. на 30 000 генов, мы получаем, что за кодирование белков отвечают 40 200 000 п.н. Поделив это число на размер гаплоидного генома человека (3,2 млрд.п.н.), мы приходим к выводу, что только 1,25% нашего генома несут информацию о кодировании белков. Эти числа приблизительны, так что не удивляйтесь, если в других источниках вы встретите несколько отличные от этих числа. Важно то, что лишь очень малая доля человеческой ДНК кодирует белки.
Что же представляет собой остальная часть генома? Мы знаем, что 20-25% занимают интроны, но большая часть остальной ДНК является межгенной ДНК. Значительную часть межгенной ДНК составляют регуляторные последовательности, которые мы сейчас обсудим. Существует несколько групп генов, которые не кодируют белки; продуктами таких генов являются РНК, которые играют важную роль во многих клеточных процессах и структурах. Иногда из них образуются нуклеопротеиновые структуры, иногда они участвуют нацеливают ферменты на другие РНК. В этой книге я буду неоднократно упоминать специфические классы функционально активных некодирующих РНК. Кроме того, некоторые части генома играют структурную роль. Тем не менее, у нас нет никакого очевидного объяснения, почему так много ДНК не участвует непосредственно ни в качестве структуры для генов, ни в любых других функциях. Некоторое понимание проблемы «избытка» ДНК можно получить, взглянув на геном с несколько иной стороны. Что мы сейчас и сделаем.
ПОВТОРЯЮЩАЯСЯ ДНК
В любом сложном геноме ДНК можно подразделить на два типа: однокопийную ДНК (т. е. последовательности, представленные в гаплоидном геноме единственными экземплярами) и повторяющуюся ДНК (последовательности, представленные в гаплоидном геноме многократно). Примерно 50% генома человека представляют собой повторяющуюся ДНК. Популярным термином для большинства повторяющейся ДНК и для некоторых однокопийных ДНК, которые не являются частью генов, является «мусорная (junk) ДНК». Да, скорее всего, в настоящее время наши геномы содержат некоторое количество ДНК, которая не несет никакой функции и может вполне законно считаться мусорной, но чем больше мы узнаем о геномах и о регуляции экспрессии генов, тем больше мы открываем новых функций для ДНК, о которых раньше мы не имели никакого представления. Кроме того, значительная часть ДНК, которая в настоящее время явно не используется, определенно является запасным материалом для эволюции генома. Таким образом, если мыслить о биологических видах как о динамических сущностях, изменяющихся (эволюционирующих) во времени, то вполне возможно, что «мусора» в их геномах не так уж и много.
Различают два класса повторяющейся ДНК: (1) тандемно повторяющиеся последовательности (повторы), которые расположены друг за другом «голова к хвосту», и (2) диспергированные повторы, которые разбросаны по всему геному, причем чаще всего они бывают представлены одной копией в данном месте (сайте).
Тандемно повторяющиеся последовательности
Основным классом тандемно повторяющихся последовательностей является центромерная ДНК. Наиболее распространенным тип центромерной ДНК называется альфоидной (alphoid) ДНК, повторяющиеся единицы которой имеют длину примерно в 170 п.н. Эти единицы образуют ряды, длина которых варьирует от 250 т.п.н. до 5 млн.п.н., и они составляют не менее 3% генома. Внутри одного ряда повторы не идентичны, они немного различаются, и между хромосомами эти различия еще больше. Центромерная ДНК образует центромеры, сложные структуры, которые кроме ДНК содержат белки нескольких типов, к которым присоединяются нити веретена в процессе деления клетки.
Тандемно повторяющиеся последовательности найдены также в теломерах, которые расположены на концах каждой хромосомы. У человека теломерными последовательностями являются GGGTTA; в разных хромосомах они повторяются от 250 до 1500 раз. В последние годы теломерная ДНК стала предметом пристального внимания исследователей в связи с тем, что была обнаружена связь между укорочением теломер и старением. Я не буду здесь детально обсуждать этот вопрос, скажу только, что основная идея состоит в том, что укорочение теломер является одним из последствий процесса репликации ДНК, который происходит перед каждым актом клеточного деления . Если такое продолжается достаточно долго, то теломерные последовательности элиминируются, и станут повреждаться прилежащие к ним гены. В результате клетка может умереть или перестать делиться. Такое происходит в большинстве нормальных соматических клетках, и поэтому в организме или в клеточной культуре они имеют ограниченную способность к размножению. Однако, в зародышевых (половых) клетках, стволовых клетках и разнообразных раковых клетках имеется фермент теломераза, способный восстанавливать теломерные последовательности, которые в его отсутствие укорачиваются при каждом акте репликации ДНК. Теломераза является необычным ферментом, у которого имеются два компонента: РНК и белок; при этом РНК служит матрицей для восстановления утраченных теломерных повторов. Рис. 1-6 показывает в общих чертах, как осуществляется этот процесс.
Некоторые другие классы тандемно повторяющихся последовательностей являются генами для некодирующих РНК. Одними из наиболее известных из них являются гены для рибосомной РНК (рРНК). В геноме человека имеются пять групп таких генов, каждая из которых содержит около 60 копий. Они расположены в коротких плечах акроцентрических хромосом 13, 14, 15, 21 и 22. Эти кластеры для рРНК вместе с некоторыми дополнительными участками ДНК называются ядрышковыми организаторами, потому что ядрышко может быть образовано каждым их них. Ядрышки расположены в клеточном ядре и являются фабриками по сборке рибосом. Существует более 80 типов рибосомных белков. Они синтезируются в цитоплазме и мигрируют в ядро, где они связываются с рРНК, которая синтезируется в ядрышке. В каждом ядрышке накапливается также множество других белков, где они принимают участие в сборке рибосом. Кроме того, в сборке рибосом участвуют небольшие некодирующие РНК нескольких типов. В хромосоме 1 расположен еще один кластер тандемно повторяющихся генов для 5S-рРНК, которая также является важным компонентом рибосом.
Диспергированные повторяющиеся последовательности
Диспергированные повторяющиеся последовательности чаще всего разбросаны по геному по отдельности, а не кластерами. Согласно размеру их подразделяют на две группы: длинные диспергированные элементы, обозначаемые как LINE (Long INterspersed Elements), и короткие диспергированные элементы, обозначаемые как SINE (Short INterspersed Elements). Оба класса являются подвижными (мобильными) генетическими элементами, которые называются ретротранспозонами. Полностью функционирующий ретротранспозон способен размножать либо сам себя, либо родственные последовательности, как это будет описано в следующем абзаце. Ретротранспозоны могут возникать как ретровирусы, которые мы рассмотрим в Лекциях 4 и 6.
Одним из важнейших классов диспергированных повторяющихся последовательностей является LINE-1 или группа L1, которая представлена в геноме человека в количестве до 500 000 копий и составляет примерно 15% от всего генома. Большинство элементов L1 являются укороченными копиями полноценных единиц, длина которых составляет около 5000 п.н., но несколько тысяч элементов L1 имеют полную длину. Только 40-50 из них функционально активны, т. е. они кодируют несколько белков, которые способны вызывать транспозицию либо самого элемента L1, либо некоторых других мобильных элементов. Элементы L1 несут два гена (называемых открытыми рамками считывания – ORF; см. Рис. 1 7). ORF1 кодирует белок, связывающийся с нуклеиновыми кислотами (р40), ORF2 кодирует и обратную транскриптазу (фермент, который использует мРНК как матрицу и создает комплементарную ей одноцепочечную ДНК-копию, кДНК) и эндонуклеазу, которая производит надрезы в геномной ДНК, куда может встраиваться новая кДНК.
Когда мРНК из элемента L1 транслируется, то образующиеся белки обычно связываются непосредственно со своей мРНК. Такой комплекс белка с РНК перемещается в ядро, где эндонуклеаза разрезает одну из цепей ДНК, и в результате образуется свободный конец. Обратная транскриптаза использует этот свободный конец в качестве затравки и создает ДНК-копию мРНК элемента L1. В конце концов образуется вторая цепь кДНК и двунитевая молекула встраивается в хромосому на место однонитевого разрыва. Мы до сих пор не знаем, почему только часть элемента L1 является наиболее частым продуктом ретротранспозиции.
Считается, что обратная транскриптаза ответственна также за образование процессированных псевдогенов, которые являются ДНК-копиями мРНК и которые встраиваются в места, не родственные (не гомологичные) исходному гену, из которого произошла скопированная мРНК. Процессированные псевдогены не содержат интронов и обычно не способны экспрессироваться в виде полипептидов (хотя иногда и случаются исключения). Происходит это либо из-за того, что они не имеют регуляторных последовательностей, либо потому что они содержат мутации. Псевдогены (как процессированные, так и обычные) довольно распространены и в геноме человека составляют 0,5-1%. Например, секвенирование хромосомы 22 выявило 134 псевдогена.
Наибольший класс элементов SINE состоит из последовательностей Alu (название происходит от названия фермента рестрикции Alu I, эндонуклеазы, которая расщепляет ДНК в местах нахождения специфичных коротких последовательностей и может использоваться для вырезания последовательностей Alu из геномной ДНК). В геноме человека находится примерно миллион последовательностей Alu, которые составляют примерно 10-12% всей ДНК. Длина основной единицы составляет примерно 300 п.н., но в классе Alu существует много различных последовательностей. В основном они находятся между генами и внутри интронов, но изредка они могут быть включены в мРНК. Последовательности Alu не кодируют белков и поэтому они не способны сами перемещаться из одного места в другое. Однако, многие последовательности Alu транскрибируются и на их концах существуют некоторые короткие последовательности, подобные РНК у элементов L1. Поэтому распространено мнение, что ферменты, которые производятся элементами L1, участвуют в ретротранспозиции последовательностей Alu, хотя окончательные доказательства этому все еще не получены.
Встраивание (инсерция) нового мобильного элемента в ДНК потенциально способно нарушить функцию гена и, действительно, у человека известно более 30 примеров ретротранспозиций, вызывающих болезни. Более того, присутствие столь большого числа копий родственных последовательностей делает возможным потерять или дуплицировать генетический материал во время мейоза (как это будет описано в Лекции 2), и в результате также могут возникать аномальные фенотипы. Возникает вопрос, почему же наши геномы не избавятся от таких опасных участков ДНК, кажущихся бесполезными? Ответ возможно заключается в их необходимости для эволюционной пластичности. Повторяющиеся последовательности в ДНК являются важным источником ремоделирования генома . Это станет яснее, когда мы будем обсуждать механизмы геномных изменений в следующей лекции.
ХРОМАТИН
Длина и ширина у линейной молекулы ДНК размером со среднюю хромосому человека (примерно 140 млн.п.н.) столь несоизмеримы, что их соотношение даже трудно себе представить зрительно. Аналогии со спагетти или с женскими волосами до пят совершено неадекватны. Представим себе садовый шланг с наружным диаметром в один дюйм; если он будет пропорционален длине средней хромосомы, то такой шланг растянется на 350 миль! В реальных единицах измерений 140 млн.п.н. будут иметь длину более 47 000 микрометров, при этом 46 хромосом должны поместиться в ядре, диаметр которого в большинстве клеток человека не превышает 10 микрометров. Возможности запутывания и случайных разрывов при этом очевидны. Упаковка (компактизация) ДНК и защита ее от разрывов достигается посредством ДНК-связывающих белков.
У всех эукариот ДНК связана с большим количеством разнообразных белков, и их комплекс называется хроматином. Некоторые из этих белков играют структурную роль. Многие другие появляются и исчезают в процессе экспрессии генов. Основной структурной единицей хроматина является нуклеосома – комплекс ДНК с белками, который состоит из 8 гистонов и участка ДНК размером в 200 п.н. Гистоны являются основными (положительно заряженными) белками, которые представлены пятью основными видами. Ядро (сердцевина) нуклеосомы содержит по две молекулы гистонов 2A, 2B, 3 и 4. Они образуют частицы в форме диска, на которые намотаны примерно два витка спирали ДНК таким образом, что примерно 150 п.н. связаны с нуклеосомой, а другие 50 п.н. находятся между двумя соседними нуклеосомами (Рис. 1-8). В результате нить ДНК уплотняется (конденсируется) примерно в 6-7 раз. Гистон 1 присоединен к внешней стороне октамерного комплекса ДНК с гистонами. Возможно он служит для стабилизации комплекса и для того, чтобы помогать присоединению ДНК к октамеру
Электронно-микроскопические исследования хроматина выявляют существование следующего уровня сворачивания – волокна диаметром в 30 нанометров (нм), которые обеспечивают последующее 6-7-кратное уплотнение. Точная структура таких 30 нанометровых волокон in vivo все еще не определена, потому что в процессе приготовления образцов для электронной микроскопии могут нарушиться структуры, которые существуют внутри клеток. Были предложены самые разнообразные структуры, такие как соленоиды, ленты и сложные узлы. Сверх того, выявляются структуры еще более высокого порядка типа петель, вытягивающихся из матрикса хромосомы. Петли по-видимому состоят из 30-нанометровых волокон или из неких еще более плотно скрученных форм; их длина варьирует в пределах от 30 до 90 т.п.н. Микроскопические исследования клеток различных организмов показывают, что такие петли образуются в местах активной экспрессии генов.
ЭКСПРЕССИЯ ГЕНОВ
Экспрессия гена есть процесс преобразования («перевода») последовательности нуклеотидов в ДНК в последовательность аминокислотных остатков в полипептиде. Для этого процесса требуются три основных стадии: транскрипция гена в РНК, процессинг начального транскрипта в матричную РНК (мРНК) и трансляция мРНК в полипептид. У Вас наверняка есть основные представления об основных классах макромолекул, которые участвуют в этом процессе, и нижеследующее краткое изложение призвано лишь освежить Вашу память. По прочтении этих разделов Вы сможете лучше понять возможные клинические последствия: любая реакция, в которой участвуют белки или РНК, может быть либо нарушена, либо модифицирована мутацией в ДНК. Конкретная генетическая болезнь может быть результатом отклонения от нормы на любой стадии экспрессии гена.
Транскрипция
Транскрипция есть процесс копирования участка ДНК в виде комплементарной ему ДНК. РНК является линейным полимером, который формируется из четырех нуклеотидов (нуклеозидтрифосфатов): ATP (АТФ), UTP (УТФ), GTP (ГТФ) и CTP (ЦТФ). И в случае образования (синтеза) ДНК, и в случае синтеза РНК каждый новый нуклеотид в растущей цепи присоединяется к 3'-гидроксильной группе углеводной части предыдущего нуклеотида с последующим высвобождением двух концевых фосфатных остатков нового нуклеотида (в 5'-положении). В качестве углевода (сахара) в состав РНК входит рибоза, а в состав ДНК – дезоксирибоза. РНК и ДНК различаются еще тем, что в состав РНК входит U (У – урацил), а в состав ДНК входит 5-метилурацил, называемый тимином (T), и тем, что транскрипты РНК являются однонитевыми (хотя в разных местах одной и той же цепи могут встречаться участки комплементарных последовательностей, которые способны образовывать небольшие двунитевые районы, скрученные в спираль, вследствие спаривания оснований в таких районах). Образование молекулы РНК на матрице ДНК схематически показано на Рис. 1-3 D.
Транскрипция осуществляется ферментами РНК-полимеразами. У бактерий имеется всего лишь один тип РНК-полимеразы, но у человека, как и у всех прокариот, имеется три класса РНК-полимераз: Pol I транскрибирует гены для больших рибосомных РНК; Pol II транскрибирует гены, которые кодируют белки и некоторые небольшие некодирующие малые ядерные РНК (мяРНК – snurps, snRNA); Pol III транскрибирует гены для транспортных РНК (тРНК), 5S-рРНК и множество других некодирующих РНК. Каждый из этих ферментов является сложным белковым комплексом, состоящим из нескольких или многих полипептидов .
РНК-полимеразы связываются с промоторами на ДНК, которые могут быть короткими последовательностями в 40 п.н., но часто бывают в несколько раз большими. Промоторы обычно расположены очень близко к началу (т. е. 5'-концу) гена. У млекопитающих промоторы, с которыми соединяются Pol I, обычно располагаются против хода транскрипции («вверх по течению» - upstream) на расстоянии 25 п.н. от сайта ее инициации. Они могут содержать несколько последовательностей, наиболее общей из которых является TATA-бокс (бокс Хогнесса), типичной для которого является последовательность TATAAAA. Сродство промоторов к РНК-полимеразе различается на несколько порядков и для регуляции транскрипции в клетках человека требуются еще другие белки – транскрипционные факторы, которые повышают или снижают вероятность присоединения РНК-полимеразы к ДНК и инициации синтеза цепи РНК. Существует много общих факторов транскрипции, которые являются белками, отличными от РНК-полимераз, но необходимыми для транскрипции большинства генов. Например, группа общих факторов транскрипции, называемых TFII, необходима для присоединения Pol II к промотору и для образования активного преинициаторного комплекса, готового начать транскрипцию. Его сборка обычно происходит в порядке DABpolFEH, где прописные буквы обозначают субъединицы TFII, и он включает несколько десятков полипептидов.
Последовательности ДНК, к которым присоединяются РНК-полимеразы в комплексе с соответствующими регуляторными белками, называются цис-регуляторными зонами; это означает, что они расположены рядом с контролируемым геном и на той же хромосоме. Гены, которые кодируют регуляторные белки, обычно не имеют топологической близости с генами, которые они регулируют. Такие белки называются транс-активными факторами. Цис-регуляторные зоны содержат также сайты для связывания с несколькими различными белками, которые регулируют экспрессию генов в клетках разного типа или на различных стадиях развития. Идентифицированы сотни специфических факторов транскрипции, и поэтому не удивительно, что мутации в генах, которые кодируют эти белки, могут приводить к генетическим болезням.
Кроме описанных выше основных преинициаторных комплексов, необходимых для транскрипции, для полноценной активности генов обычно нужны еще и специфические факторы транскрипции. Другой термин для специфических факторов транскрипции – активаторы. Цис-активные последовательности, к которым присоединяются активаторы, называются энхансерами («усилителями»). Присоединение активаторов к энхансерам может многократно повысить частоту транскрипции. Размер энхансеров варьирует от 50 до 1500 п.н. и они могут располагаться «против течения» (5'), «по течению» (3') или внутри гена. Иногда энхансер может быть удален от гена на расстояние от нескольких п.н. до многих тысяч п.н. Специальные эксперименты показали, что большинство энхансеров способны сохранять свою функцию, даже если их перенести на новое место (но на той же хромосоме), и что их 5' или 3'-ориентация не имеет значения. По-видимому, если только активатор способен присоединиться к энхансеру, то они выполнят свою функцию в очень широких топологических пределах. Механизм действия энхансеров все еще изучается и действительно очень сложен, но один важный момент состоит в том, что когда соответствующие белки соединяются с энхансером, то изменяется конфигурация хроматина в области прилежащего гена. Если энхансер удален от промотора на расстояние в сотни п.н. (и более), то такое изменение конфигурации может привести к образованию хроматиновых петель таким образом, что белки, присоединенные к энхансеру способны взаимодействовать непосредственно с белками, присоединенными к промотору. Обнаружены, однако и другие возможности. Например, получено доказательство того, что некоторые белки, присоединенные к энхансеру, не могут контактировать непосредственно с основным транскрипционным комплексом. Сначала они взаимодействуют с другими белками, называемыми медиаторами, которые затем помогают удерживать компоненты основного комплекса около промотора (Рис.1-9).
Для многих метаболических процессов существуют равносильные противоположные процессы, аналогичным образом обстоит дело и с регуляцией транскрипции. В ДНК существуют цис-активные сайленсерные последовательности, которые препятствуют транскрипции специфичных генов. Одна из гипотез о функции сайленсеров («глушителей») состоит в том, что когда белок-репрессор связан с промотором, он вызывает такое локальное сворачивание хроматина, которое делает промотор около близлежащего гена недоступным для РНК-полимеразы. Удивительно, но некоторые элементы ДНК могут быть либо энхансерами, либо сайленсерами в зависимости от того, какая молекула присоединяется к ним. Хорошо известным примером является элемент ответа на тиреоидный гормон. Он функционирует как сайленсер, когда рецептор тиреоидного гормона связывается с ним в отсутствие гормона, но действует как энхансер, когда к этому элементу присоединяется рецептор в комплексе с гормоном.
Недавно открыты последовательности ДНК, которые назвали изоляторами. Они метят границы в хроматине, за пределы которых не может распространяться действие энхансеров и сайленсеров. Механизм их действия еще плохо изучен, но одной из возможностей может быть присоединение специфических белков к изоляторам или к неким коротким структурам в ядре, что приводит к образованию петель в хроматине. Эта теория постулирует также, что комплекс белка с промотором в одной петле не может взаимодействовать с подобным комплексом в другой петле; однако убедительная модель еще разработана.
Вторая функция изолирующих элементов состоит в том, чтобы предотвратить растягивание гетерохроматина – высоко конденсированного хроматина, в котором транскрипция полностью подавлена, – в тех его областях, где присутствуют активные гены. Принципиально способность гетерохроматина подавлять транскрипцию известна уже почти сто лет, когда пионеры генетики открыли эффект положения у плодовой мушки дрозофилы. Этим термином было обозначено явление, когда способность гена «выражаться» (экспрессироваться) зависит от его положения в геноме. Более того, возможен нестабильный (мозаичный) тип эффекта положения, при котором время и место экспрессии гена может варьировать от одной ткани или органа к другим в зависимости от пространственных взаимоотношений между генами в гетерохроматине . Эффекты положения являются одними из возможных последствий перестроек хромосом (см. Лекцию 2).
Некоторые гены содержат множественные цис-регуляторные элементы (промоторы, энхансеры и т. д.). Они позволяют экспрессии генов варьировать от одной ткани к другой, или от одной стадии развития к другой (см. Лекцию 7), в зависимости от того, какие транскрипционные факторы доступны в тот или иной момент времени или в том или ином месте и с какими регуляторными элементами они способны взаимодействовать. Другим важным источником вариабельности генной экспрессии является процессинг (созревание) РНК, о котором мы поговорим в следующем разделе.
Созревание (процессинг) РНК
У прокариот первичными транскриптами гена является матричная РНК, но у эукариот это не так. Как уже отмечалось в данной лекции, почти во всех генах человека и в их первичных транскриптах между каждыми двумя экзонами (которые становятся частями зрелой мРНК) находятся интроны (которые отсутствуют в мРНК). Интроны называют также промежуточными (intervening) последовательностями, а экзоны – экспрессируемыми последовательностями. У низших эукариот интронов в основном немного и они небольшие; у млекопитающих (и, естественно, у человека тоже) большинство генов содержат большое количество интронов, и их размер варьирует от нескольких десятков до нескольких тысяч нуклеотидов. Каким же образом клетка так обрабатывает первичный транскрипт, что из него удаляются интроны?
Удаление интронов и воссоединение соседних экзонов называется сплайсингом (сращиванием, стыковкой) РНК. Решающими для сплайсинга во вновь синтезируемой РНК являются три типа коротких нуклеотидных последовательностей. А именно: консервативная (консенсусная) последовательность на 5'-конце интрона, консервативная последовательность на 3'-конце интрона, и сайт ветвления (брэнч-сайт), находящийся на расстоянии примерно в 30 нуклеотидов от 3'-конца интрона непосредственно у последовательности из 8-10 пиримидинов (цитозина или урацила), расположенной против хода трансляции. Консервативная последовательность на 5'-конце интрона на его границе с экзоном почти всегда содержит динуклеотид GU, в то время как консервативная последовательность на границе с его 3'-концом почти всегда содержит динуклеотид AG. Состав остальных частей этих консервативных последовательностей варьирует значительно. В случае с млекопитающими их наиболее распространенные мотивы можно изобразить так:
5'-экзон-AG|GUAAGU-интрон-UACUAAC-(N)30-(Y)11NCAG|G-3'-экзон
Здесь вертикальные линии отображают границы интрона; N обозначает любое из четырех оснований: A, U, G или C; Y обозначает любой из двух пиримидинов: U или C; подчеркнут сайт ветвления и в нем жирным курсивом выделен предпоследний нуклеотид A, который способен образовывать необычную 2'-5'-межнуклеотидную связь); (N)30 и (Y)11 обозначают последовательности из 30 и 11 нуклеотидов, соответственно. Отлично видно правило GU..AG, которое утверждает, что у всех интронов ядерных структурных генов, кодирующих белки, на левой границе интрона всегда находится динуклеотид GU, а на правой – AG (выделены жирным шрифтом).
Как показано на Рис. 1-10, первый этап сплайсинга заключается в том, что предпоследний нуклеотид A в сайте ветвления вступает в контакт с нуклеотидом G на 5'-конце, в месте контакта между этими A и G образуется необычная межнуклеотидная 2'-5'-связь, одновременно точно по границе между экзоном и интроном образуется разрыв и освобождается 3'-конец 5'-экзона (называемый донорным экзоном). В результате образования указанной ковалентной связи между A и G формируется петля типа «лассо». На втором этапе сплайсинга 3'-гидроксильная группа (3'-OH) донорного экзона атакует фосфодиэфирную связь на 3'-конце интрона (акцепторный сайт сплайсинга), разрывает ее и соединяет вместе оба экзона. Эти реакции катализируются самой РНК, и получается, что РНК функционирует как фермент, называемый рибозимом, но она действует не в одиночку.
В действительности для сплайсинга РНК требуется участие сложного комплекса малых ядерных РНК (мяРНК) и белков, которые образуют частицы, называемые сплайсосомами.
Сплайсосома является динамическим образованием; каждая из мяРНК, которые участвуют в ее работе, существуют некоторое время в виде индивидуальных комплексов с белками (рибонуклеопротеиновых частиц), обозначаемых как мяРНП. Сборка сплайсосомы начинается с присоединения частицы мяРНП-U1 к 5'-сайту сплайсинга, сопровождаемого связыванием мяРНП-U2 с сайтом ветвления. Связанные вместе мяРНП U6 и мяРНП-U4 присоединяются к мяРНП-U2, после этого мяРНП-U4 отделяется от мяРНП U6, которая замещается на мяРНП-U1. Частица мяРНП-U5 принуждает последний нуклеотид 5'-экзона приблизиться к первому нуклеотиду 3'-экзона и облегчает объединение двух экзонов после вырезания интрона.
Основным источником изменчивости в экспрессии генов является альтернативный сплайсинг, который варьирует от одного типа клеток к другому и от одной стадии развития к другой. Недавние исследования по экспрессии генома человека указывают, что по меньшей мере 40% всех генов подвержены альтернативному сплайсингу, и эта цифра может оказаться преуменьшенной. В простейшем случае один экзон может присутствовать, а может и отсутствовать в зрелой мРНК (Рис. 1-11). Мы до сих пор не располагаем подробностями о механизмах, которые приводят к «выпадениям» экзонов, но ясно, что это распространенное явление при экспрессии генов.
Возможны также такие варианты сплайсинга, когда исключается только часть экзона, и варианты, когда включается часть интрона. Существуют такие белки, взаимодействующие с РНК, которые должны связываться с сайтом сплайсинга до того, как к нему присоединится частица мяРНП-U1, и запускать сборку сплайсосомы. Сейчас еще не ясно, сколько существует таких белков. Скорее всего контроль альтернативного сплайсинга является функцией РНК-связывающих белков (факторов сплайсинга), которые влияют на осуществление сплайсинга специфических интронов. Кандидатом на эту роль может быть группа РНК-связывающих белков, называемых SR-белками (потому что они богаты серином [S] и аргинином [R]). Например, было показано, что один из членов этой группы, SC35, обладает относительно высокой специфичностью в отношении сплайсинга предшественника мРНК для β-глобина. Можно ожидать, что в ближайшие годы мы получим гораздо больше информации об этом виде контроля процессинга РНК. Очевидно, что если существуют геноспецифичные факторы сплайсинга, то они могут служить существенным источником мутаций, сопутствующих генетическим болезням, поскольку они суть изменения в тех последовательностях ДНК, которые влияют на узнавание сигналов сплайсинга аппаратом процессинга (Лекция 2).
Недавно было подсчитано, что для некоторых генов с большим числом экзонов путем альтернативного сплайсинга теоретически возможно получить тысячи и даже миллионы транскриптов с одного и того же гена, но это всего лишь упражнение в сенсационности: нет никаких доказательств столь обильной изменчивости. Несомненно однако, что транскриптóм – полный набор транскриптов, производимых клеткой, - превышает число экспрессируемых генов.
В процессе созревания РНК подвергается двум типам модификации: так называемому кэпированию 5'-конца и полиаденилированию 3'-конца. Кэпирование является одной из самых ранних модификаций растущих цепей РНК и происходит после полимеризации ее первых 20-30 нуклеотидов. В этот момент ее первый нуклеотид (с помощью фермента гуанилилтрансферазы) «кэпируется» путем присоединения GMP за счет образования необычной связи 5'-5' между рибозами. В результате нуклеотид кэп-группы оказывается в обратной ориентации по отношению к остальным нуклеотидам мРНК. После этого (с помощью фермента РНК-гуанил-7-метилтрансферазы) происходит метилирование азота в 7 м положении (N-7) гуанина, а иногда дополнительная метильная группа присоединяется еще и к рибозе следующего нуклеотида (в положении 2'-O). Кэп необходим для правильного сплайсинга первого интрона в про-мРНК, для связывания мРНК с рибосомами посредством специального кэп-связывающего белка и для транспорта мРНК в цитоплазму. Кроме того, кэп обеспечивает стабильность мРНК, защищая ее от действия нуклеаз.
Когда синтез первичного транскрипта (про-мРНК) завершен, то на расстоянии примерно 20 нуклеотидов в направлении к 3'-концу от гексануклеотидной последовательности 5'-AAУAAA-3' происходит его разрезание специфической эндонуклеазой и к новому 3'-концу присоединяется от 100 до 300 остатков АМФ с помощью специального фермента поли-А-полимеразы. «Хвост» поли-А необходим для эффективного удаления последнего интрона (но он не влияет на удаление других интронов). Кроме того, хвост поли-А является важным регулятором стабильности мРНК, он защищает 3'-конец от гидролиза, поскольку покрыт поли-А-связывающими белками. В цитоплазме мРНК постепенно деградирует, и когда хвост поли-А удаляется, деградация ускоряется. Каждый вид мРНК имеет поли А хвост определенной длины, и в значительной степени время жизни мРНК коррелирует с длиной поли-А-хвоста. Если у предшественника мРНК имеется несколько сайтов для полиаденилирования, то это оказывается дополнительным источником расширения кодирующего потенциала индивидуальных генов у эукариот .
Трансляция
Слово трансляция (перевод) сразу наводит на мысль о превращении информации, выраженной на одном языке, в информацию, выраженную на другом языке, и это именно то, что происходит в процессе экспрессии генов. Информация на языке нуклеиновых кислот хранится в ДНК в виде последовательностей нуклеотидов; она переписывается на диалект РНК и затем переводится на язык белков, использующий последовательности аминокислот. Последовательности аминокислот, соединенных пептидными связями, называют либо полипептидами, либо белками. Процесс трансляции мРНК называют также синтезом белка, хотя, строго говоря, его следовало бы называть синтезом полипептидов. Когда мы хотим подчеркнуть, что функциональный белок состоит из продуктов более чем одного гена, то мы можем сказать, что белок P состоит из N полипептидов (например, РНК- и ДНК-полимеразы являются белками, котоые содержат несколько полипептидов).
Основными компонентами, вовлеченными в процесс трансляции являются мРНК, рибосомы, тРНК и группа белков, известных как трансляционные факторы. Только что я описал процесс образования мРНК из первичных РНК-транскриптов в эукариотических клетках. Рибосомы часто называют фабриками для синтеза белков. Они являются сложными макромолекулярными образованиями, содержащими несколько молекул РНК и десятки белков. Транспортные РНК (тРНК) являются группой из примерно 30 небольших молекул РНК, которые отличаются двумя существенными свойствами. Первое: каждый тип тРНК может нести на своем 3'-конце специфическую аминокислоту. Аминокислоты присоединяются к тРНК группой ферментов, называемых аминоацил-тРНК-трансферазами. Второе: каждая тРНК содержит последовательность из трех нуклеотидов, называемую антикодоном, которая расположена примерно в середине тРНК. Антикодон комплементарен одному из кодонов, каждому из которых соответствует одна из аминокислот согласно генетическому коду (см. таблицу генетического кода в Лекции 2, Таблица 2-1).
Трансляционными факторами являются белки, которые участвуют в каждой стадии синтеза белка. Имеются три основных класса трансляционных факторов: факторы инициации, факторы элонгации и факторы терминации. Здесь мы наиболее подробно рассмотрим факторы инициации. Элонгация растущего полипептида включает в себя присоединение двух молекул тРНК к рибосоме путем спаривания оснований их антикодонов с комплементарными триплетами (кодонами) на мРНК. Аминокислоты, принесенные каждой тРНК, затем сближаются друг к другу, таким образом, что они могут ковалентно связаться, образуя пептидную связь. Удивительным фактом оказалось то, что образование пептидной связи очевидно катализируется одной их рибосомных РНК, а не каким-либо из десятков рибосомных белков.
При образовании пептидной связи одна из тРНК освобождается от своей аминокислоты. Эта тРНК покидает рибосому, а мРНК и оставшаяся тРНК перемещаются на рибосоме на расстояние в один кодон. Тем самым освобождается сайт связывания для следующей тРНК, которая должна иметь антикодон, комплементарный следующему кодону на мРНК. Этот процесс повторяется снова и снова до тех пор, пока не завершится синтез данного полипептида.
Окончание (терминация) синтеза белка у эукариот осуществляется двумя белками (факторами освобождения): фактор eRF1 узнает любой из трех стоп-кодонов, а eRF3 является ферментом гуанозинтрифосфатазой (ГТФ-азой), которая связана с рибосомами и обеспечивает энергией процесс высвобождения вновь синтезированного полипептида.
Регуляция белкового синтеза осуществляется сложным образом. Существуют два типа контроля трансляции: общий и специфический. В общем контроле участвуют оба конца мРНК. Один набор факторов инициации присоединяется к метилированному гуанину на 5'-конце, т. е. к кэпу, о котором речь шла выше. В результате он соединяется с малой единицей рибосомы. Связывание кэпа может регулироваться многими другими белками. Белки другой группы присоединяются к полиаденилатной последовательности (поли А) на 3'-конце мРНК, а в некоторых случаях – к последовательностям в 3'-концевой нетранслируемой области (3' UTR – 3' untranslated region) вблизи от поли-А. Неожиданным выводом из недавних исследований является то, что активно транслируемая мРНК оказалась циркулярной вследствие белок-белкового взаимодействия на обоих концах мРНК. Когда мРНК транслируется неактивно, то поли-А становится доступной для экзонуклеаз, которые укорачивают ее и способствуют полной деградации молекулы.
Важнейшим моментом в регуляции синтеза специфических белков является инициация полипептидной цепи, которая всегда начинается с кодона для метионина - AUG. В некоторых мРНК инициирующий кодон оказывается спрятанным внутри петель, или в других структурах, образованных внутримолекулярным спариванием оснований, и в таких случаях для того, чтобы осуществилась трансляция, требуется участие других макромолекул. В некоторых случаях регуляторными молекулами являются белки, но в других ими являются малые некодирующие РНК. Регуляция трансляции может быть и негативной, например, вследствие того, что синтезируемый полипептид связывается с собственной мРНК и таким образом блокирует дальнейший синтез.
Примером контроля трансляции структурами внутри 5'-концевой нетранслируемой области (5' UTR) может служить мРНК для ферритина человека, белка, который участвует в запасании железа. Эта область содержит последовательность примерно в 30 нуклеотидов, которая образует вторичную структуру типа «стебель с петлей» (шпильку) за счет спаривания оснований в стебле. Такая структура оказывается железочувствительным элементом (iron response element – IRE). Когда клетка нуждается в железе (и поэтому не нуждается в ферритине), тогда к IRE присоединяется белок, который препятствует инициации трансляции. Когда же в клетке создается избыток железа, тогда регуляторный белок, отделяясь от IRE на мРНК, связывается с железом, и тем самым запускается синтез ферритина.
Регуляция содержания железа в клетке сопровождается также изменениями в стабильности мРНК для рецептора трансферрина. Трансферрин – это белок, который разносит железо по всему организму. Когда он связывается с рецептором на поверхности клеток, тогда железо может проникать внутрь клетки. Таким образом, если снабжение клеток железом низкое, то клеткам нужно больше молекул рецептора трансферрина. В данном случае мРНК наследственно нестабильна. Она содержит пять элементов IRE в своей длинной 3' UTR, и когда регуляторный белок присоединяется к некоторым из этих IRE, он стабилизирует мРНК. Если снабжение железом возрастает, то железо связывает белок-регулятор, вызывая его отделение от элементов IRE. В результате мРНК для трансферрина становится доступной для специфической эндонуклеазы, которая расщепляет ее на расстоянии примерно 1 т.п.н. от 3'-конца, и тогда происходит ее дальнейшая деградация .
Еще одним способом регуляции трансляции является фосфорилирование белков. Примером могут служить ретикулоциты, предшественники красных кровяных клеток (эритроцитов), которые почти исключительно вырабатывают гемоглобин. Если их обеспечение гемом ограничено, то ретикулоциты подавляют синтез α- и β-глобинов посредством фермента киназы, которую называют гем-контролирующими репрессором (HCR). Когда HCR фосфорилирует eIF2 , то это препятствует связыванию тРНК-FMet с малой (40S) субъединицей рибосомы, и синтез белка не может происходить.
Совсем недавно открыта новый вид регуляции трансляции, который опосредуется очень короткими РНК, называемыми микро-РНК (миРНК), средняя длина которых составляет всего 21 нуклеотид. Изначально они входят в состав больших транскриптов, из которых образуются куски длиной 60-70 нуклеотидов, которые образуют двухцепочечные шпилечные структуры. В цитоплазме петля и часть шпильки удаляются с помощью РНКазы под названием Dicer (игрок в кости). Потом каким-то пока непонятным способом формируется однонитевая миРНК, которая образует комплекс с некоторыми белками. Затем часть миРНК по-видимому спаривается с комплементарной последовательностью на 3'-конце специфической мРНК и тем самым подавляет трансляцию.
Мы еще не знаем сколь широко распространен этот вид регуляции трансляции у человека, но, основываясь на результатах, полученных для нематоды C. Elegans, вполне возможно, что он важен в процессах развития и дифференцировки (см. Лекцию 7). Микро-РНК подобны другому классу молекул, известных как малые (или короткие) интерферирующие РНК (миРНК или киРНК) . Некоторые из них участвуют в уничтожении вирусов. Происходит это посредством спаривания с РНК-мишенью и образования участков двухцепочечной РНК (дцРНК). Такие участки разрушаются с помощью специфичной РНКазы, которая одновременно является частью рибонуклеопротеинового комплекса RISC (RNA-induced silencing complex), участвующего в выключении («глушении», «замолкании») экспрессии генов, индуцированного РНК. Этот процесс, известный как РНК-интерференция (РНКи), используется теперь в сочетании с синтетическими двунитевыми РНК для разработки новых способов лечения генетических болезней (см. Лекцию 4). Заметьте, что обозначение РНКи относится к процессу, а не к какому-либо классу молекул РНК.
Приведенные примеры показывают, что как и в с случае с синтезом РНК, синтез белка предоставляет массу возможностей для мутаций в генах, которые кодируют регуляторные молекулы, и тем самым может изменяться экспрессия совершенно нормального гена. Сложности на этом не кончаются, потому что многие белки подвергаются посттрансляционной модификации. Таковые включают присоединение различных молекул сахара (углевода), жирных кислот и удаление небольших групп аминокислот (обычно на N конце белка), которые часто связаны с субклеточной или внеклеточной локализацией белка. Другим важным классом пост-трансляционной модификации, о котором мы уже упоминали, является присоединение фосфатных групп с помощью протеинкиназ, или их удаление с помощью протеинфосфатаз. Этим часто определяется каталитическая активность белка и (или) его взаимодействие с другими белками.
Сложность процессов транскрипции, процессинга РНК, трансляции и посттрансляционных модификаций приводит к выводу о том, что продуктом одного гена может быть более одного полипептида. Таким образом, протеом – полный комплект белков, вырабатываемых данной клеткой, - значительно превосходит число экспрессирующихся в клетке генов. Многие лаборатории сейчас заняты разработкой таких методов для анализа протеомов, которые позволят в одном опыте количественно определять сотни и тысячи полипептидов. Протеомный анализ окажет существенное влияние как на клиническую практику, так и на фундаментальные исследования, потому что фенотип определяется прежде всего белками. Мутированные гены и искаженно процессированные РНК сами по себе не делают человека больным; к заболеванию приводят неактивные или поврежденные белки, которые эти гены кодируют. Основные источники мутаций, их механизмы и влияние на экспрессию генов будут описаны в следующей лекции
КРАТКОЕ СОДЕРЖАНИЕ ПЕРВОЙ ЛЕКЦИИ
В этой лекции мы рассмотрели общие свойства генома человека: его размер и организацию в 23 пары хромосом, число генов, которые он содержит, и внутренняя организация генов. В рамках проекта «Геном человека» осуществлено практически полное секвенирование генома человека. Вы узнали, что вследствие дупликации генов создались генные семейства – группы генов, которые являются родственными по происхождению; некоторые из них приобрели новые функции, в то время как другие стали неактивными псевдогенами. Реализация Проекта «Геном человека» показала, что почти половина генома человека содержит повторяющиеся последовательности, количество которых варьирует от нескольких до миллиона копий. Наиболее распространенные повторяющиеся последовательности (LINE и SINE) являются ретротранспозонами, или производными от них, некоторые из которых могут увеличиваться в числе с помощью обратной транскрипции своих собственных мРНК и включения соответствующих кДНК в новые места геномной ДНК. Процессированные псевдогены часто возникают путем ретротранспозиции мРНК других генов. Все эти повторяющиеся последовательности являются зернами для перемалывания в эволюционной мельнице.
В лекции были описаны также основные особенности структурной организации хромосом. Комплексы участков ДНК длиной 200 п.н. с октамером гистонов образуют нуклеосомы, из которых собирается хроматин.
Мы рассмотрели также основные этапы экспрессии генов, каковыми являются: (1) синтез РНК, (2) созревание (процессинг) РНК, в ходе которого из начального транскрипта образуется мРНК и (3) трансляция мРНК в белок. Мы подчеркивали, что все стадии экспрессии генов и их регуляция требуют участия многих других молекул. Все такие функции могут подвергаться мутациям в генах как для РНК, так и в генах для белков, и это может приводить к разнообразным наследственным аномалиям.
«Как работает геном человека» является краткой сводкой основных фактов о генах человека, о том, как они экспрессируются, как мутации приводят к простым или сложным нарушениям, и о том, как быстрые достижения в нашем понимании генома человека влияют на практическую медицину. Эта книга будет полезна людям, занимающимся науками о здоровье на всех уровнях, от студентов до состоявшихся профессионалов, которые хотели бы расширить свои знания о генетике человека без особых затрат времени. «Как работает геном человека» окажется также хорошим дополнительным учебным пособием для тех разнообразных университетских курсов, где основной текст с недостаточной глубиной освещает генетику человека.
Эта книга предполагает, что Вы уже прошли вводные университетские курсы по биологии или, по крайней мере, Вы знаете основные факты о генах, ДНК, белках и т. п. Если Вы не уверены, что эта книга именно то, что Вам нужно, то попытайтесь проверить себя с помощью следующего короткого теста:
1. Законы Менделя были написаны 2500 лет тому назад мистиками Среднего Востока, которые жили в пещерах.
2. Уотсон и Крик – это пара известных комиков, которые снимались во многих кинокомедиях в 1940-1950-е годы.
3. АТФ – это ведущая телекоммуникационная компания.
4. Хромосомы различаются цветом, например, X-хромосома – розовая, а Y-хромосома – голубая.
5. Мейоз – это болезнь, передающаяся половым путем.
Если Вы задумались на несколько миллисекунд, засомневавшись в ложности этих утверждений, то Вы можете не читать эту книгу. Если же Вы на все 100% справились с этим тестом, то Вы можете заглянуть в конец каждой главы и прочитать их резюме. Если Вы решите, что уже много раз читали основные сведения о генах и их экспрессии, изложенных в Лекции 1, - не беда: просто пропустите то, с чем хорошо знакомы и переходите к тем разделам, которые хотелось бы познать или освежить в памяти. Вполне возможно, что Вы найдете здесь много полезного для себя.
ОТ ИЗДАТЕЛЬСТВА
Автор, редакторы и издательство предприняли максимум усилий, чтобы представить по возможности корректную информации. Однако они не несут ответственность за ошибки, упущения или любые другие недочеты, относящиеся к использованию читателями содержания данной книги и к использованию описанных в книге продуктов. В тексте упоминаются и обсуждаются лекарственные препараты и другие медицинские средства, которые могут иметь регулируемое FDA (Food and Drug Administration) ограниченное применение исключительно для лабораторных исследований и клинических испытаний. Информация о лекарствах, представленная в тексте, извлечена из литературных источников, недавно опубликованных данных и отчетах о фармакологических испытаниях. Исследователи, практики-клиницисты и органы государственного контроля и регулирования часто меняют принятые в данной области стандарты. Когда принимается решение использовать какое-либо лекарство в клинике, то за определение того, каков в настоящее время статус данного лекарства в FDA, ответственность несут врач или читатель-пользователь. Для этого они обязаны проверить, соответствует ли содержимое упаковки ее описанию, прочитать инструкцию по применению данного лекарства, рекомендации по дозировкам, предостережения и противопоказания и оценить приемлемость использования данного продукта. Это особенно важно в случаях с новыми или редко используемыми лекарствами.
Лекция
1
Естественная история генома человека
Мы живем в эру захватывающего дух прогресса в области генетики человека. Эта эра – эра геномики - время, когда последовательность ДНК в геноме человека определена почти полностью, время, когда анализируется роль тысяч генов человека в норме и при болезнях. Наступает время, когда изучение небольших вариаций во многих генах приведет нас к индивидуализированной медицине, время, когда будут выявлены генетические основы большинства врожденных аномалий и время, когда сравнение генов человека и приматов выявит генетические основы человеческой уникальности. Это есть время постоянного эмоционального возбуждения и для тех, кто участвует в открытиях непосредственно, и для тех, кто участвует опосредованно, применяя бурный поток новых знаний к врачебным сферам деятельности.
ОБЩАЯ ХАРАКТЕРИСТИКА ГЕНОМА
Слово геном относится к общему содержанию ДНК у данного вида, включая гены и всю остальную ДНК. Однако геном есть нечто большее, чем выражение для обозначения количества ДНК; когда мы говорим о геноме, в действительности мы мыслим в терминах информационного содержания. Содержание ДНК в клетках человека является достаточно стандартным для млекопитающих и составляет примерно 3 миллиарда пар нуклеотидов в зародышевых (половых) клетках (гаплоидный геном) или примерно 6 миллиардов пар нуклеотидов в большинстве соматических клеток (диплоидный геном) . Последний эквивалентен примерно шести пикограммам (6•10-12 г) ДНК, что составляет примерно долю в 10-12 от массы соли в чайной ложке. Размер генома у слона и мыши примерно такой же, поэтому тот факт, что мы способны общаться и писать на тысячах языков, создавать компьютеры, посылать ракеты в глубины космоса и заниматься всякого рода познавательной деятельностью, чего не могут достичь другие млекопитающие, должен быть следствием различий в относительно небольшой части нашей ДНК. Идентификация генетических основ уникальности нашей человеческой анатомии, физиологии, поведения и познавательных способностей будет одним из величайших научных приключений XXI века. Но прежде всего мы должны завершить каталогизацию генов человека и понять, как они участвуют в нормальном развитии и обмене веществ (метаболизме). Эта информация, дополненная исчерпывающим каталогом нормальных и аномальных генетических вариантов, основательно повлияют на клиническую медицину.
Как генетический материал ДНК была идентифицирована в 1944 г., когда Эвери , МакЛеод и МакКарти показали, что фенотип бактерии можно изменить, если клетки одного штамма обработать ДНК другого штамма, но не его белком или РНК. В 1953 г. Уотсон и Крик вывели двухспиральную структуру ДНК, в которой пары оснований A=T (аденин-тимин) и G≡C (гуанин-цитозин) расположены между нитями, и такая молекулярная модель разом объяснила как кодирование генетической информации, так и репликацию генетического материала.
За долго до того, как ДНК была признана генетическим материалом, с помощью светового микроскопа были изучены хромосомы, благодаря тому преимуществу, что в метафазе – центральной стадии митотического деления клетки – хромосомы сильно конденсированы и физически отделены друг от друга. На заре цитогенетики было множество недоразумений касательно общего числа хромосом в клетках человека. Не так-то легко было получить метафазную пластинку хорошего качества (т. е. такой разброс хромосом на предметном стекле, чтобы хромосомы из одной клетки были бы видны отделено друг от друга) . В те времена хромосомы на препаратах выглядели как довольно бесформенные темные сгустки и часто перекрывали друг друга. Известный цитолог Теофилус Пейнтер (Theophilus Shickel Painter [1889-1969]), изучая сперматоциты, пришел в 1923 г. к выводу, что у человека 48 хромосом. Эта цифра не подвергалась сомнению почти 30 лет. Много позже был разработан метод получения разбухших клеток в гипотонических растворах (растворах с низкой ионной силой), а другие исследователи открыли вещества, способные блокировать деление клеток (при выращивании их в культуре) на стадии метафазы, и таким образом сильно упростилось получение большого количества необходимого экспериментального материала. Эти два технических новшества резко повысили качество хромосомных препаратов, и с их использованием в 1956 г. ученые получили несомненные доказательства того, что истинное число хромосом у человека 46. Наш диплоидный геном оформлен в виде 23 пар хромосом, размер которых варьирует от 45 миллионов пар нуклеотидов до примерно 280 миллионов пар нуклеотидов. Их них 22 пары – аутосомы и одна пара – половые хромосомы .
Более подробная классификация, которую разработали в 1940-х – 1950-х гг., была основана на расположении центромеры - хромосомной структуры, к которой присоединяются нити митотического веретена. Центромеры могут располагаться либо примерно посередине хромосомы (метацетрические), либо заметно ближе к одному из концов хромосомы, чем к другому (субметацентрические), или очень близко к одному из концов (акроцентрические). Хромосомы человека группировали на семь классов, согласно их размеру и расположению центромеры.
Значительный прогресс был достигнут в 1960 г., когда были разработаны методы окрашивания, которые позволяют выявлять чередующиеся светлые и окрашенные поперечные полосы (диски, «бэнды») в метафазных хромосомах. Наиболее часто используется система окрашивания, разработанная Гимзой . Его имя теперь увековечено в названии самих окрашенных дисков, которые принято сокращенно называть G-дисками, а сам метод – G-методом (дифференциального окрашивания хромосом). Рисунок («паттерн») окрашивания оказывается специфичным для каждой хромосомы, и это позволяет вполне однозначно идентифицировать все хромосомы в метафазной пластинке. Физическая природа темного и светлого окрашивания полос до конца не выяснена, но имеет место определенная корреляция с составом генов. Темные G-диски относительно более богаты парами оснований A=T (аденин-тимин), в них довольно мало генов и они позднее других реплицируются в клеточном цикле. Светлые G-диски более обогащены парами оснований G≡C (гуанин-цитозин), содержат большую часть генов и реплицируются раньше – в S-фазе клеточного цикла (основная стадия репликации ДНК). Общее содержание GC в геноме человека составляет 41%, но оно явно неравномерно: темные G-диски содержат примерно 37% GC, а светлые – около 45%. Увы, мы до сих пор не знаем, имеют ли эти различия в составе эволюционное или функциональное значение.
В 1971 г. в Париже собрался комитет экспертов, который рекомендовал приписывать хромосомам номера, начиная с № 1- для наибольшей хромосомы и кончая № 22 - для наименьшей хромосомы. Однако цитологическая техника все еще оставалась до некоторой степени неопределенной, и потому была допущена небольшая ошибка: наибольший номер 22 был приписан предпоследней из самых малых хромосоме. В действительности же наименьшей является хромосома 21. Парижская конференция ввела также систему нумерации дисков и буквенные обозначения: p – для короткого плеча каждой хромосомы и q – для длинного плеча. Половые хромосомы не нумеруются; они обозначаются как X- и Y хромосомы. Самки млекопитающих имеют две X-хромосомы, а самцы имеют одну X- и одну Y-хромосому. X-хромосома имеет средний размер и содержит среднее число генов. Y хромосома довольно маленькая; она содержит совсем мало генов, некоторые из которых необходимы для развития организма мужского пола, но в основном она представлена гетерохроматином – протяженными участками повторяющихся и высоко конденсированных последовательностей, которые не кодируют никаких белков.
Полный набор хромосом человека называется кариотипом. Обычно нормальный кариотип человека принято обозначать как 46,XY – для мужчин и 46,XX – для женщин. С некоторыми аномальными кариотипами вы ознакомитесь в Лекции 2. Результат анализа метафазной пластинки после окрашивания по G-методу (или какому-либо иному методу) можно наглядно представить в виде упорядоченной диаграммы, которая называется идиограммой или кариограммой . Идиограмма кариотипа человека представлена ниже (Рис. 1-2).
В 1970-е – 1980-е гг. в генетике преобладало построение и изучение генетических карт. Одним из плодотворных подходов было создание гибридных клеток, которые содержали полный геном грызуна (мыши или крысы) и одну или несколько хромосом человека. Когда у такого клеточного гибрида удавалось идентифицировать специфический продукт гена человека или ферментативную активность, то можно было заключить, какая из хромосом содержит соответствующий ген. Впоследствии бурное развитие технологии рекомбинантных ДНК сделало возможным клонировать гены человека. Благодаря этому стало возможным производить в клетках микроорганизмов неограниченное количество небольших участков (фрагментов) генома человека. В сочетании с разнообразными новыми физическими методами и традиционными методами генетики клонирование невероятно повысило мощь генетического картирования и анализа.
Решающим достижением молекулярной генетики стала разработка методов секвенироования ДНК в 1977 г. До этого момента возможность интенсивного изучения генома человека и молекулярных основ генетических болезней казались безнадежным делом. К середине 80-х гг. секвенирование ДНК было столь существенно улучшено, что стало возможным практическое осуществление крупномасштабных проектов по секвенированию геномов различных видов. Группа ученых, участвующих в реализации биологической программы Министерства Энергетики США, нацеленной на изучение скорости мутирования у человека (см. Лекцию 2), осознали, что теперь появилась возможность изучать мутации на молекулярном уровне. Однако для поиска и изучения мутаций на уровне ДНК необходимо знать также исходную (нормальную) последовательность ДНК. Так было положено начало Проекту «Геном Человека», который официально стартовал осенью 1990 г. благодаря совместным усилиям Министерства Энергетики и Национальных Институтов Здоровья , которые, помимо других организационных мероприятий, учредили для этого специальный Национальный Институт Исследования Генома Человека . Проект вскорости стал международным, в который, наравне с США, наиболее значительный вклад внесли также ученые из 16 институтов Великобритании, Франции, Германии, Японии и Китая. Эти страны образовали Международный консорциум по секвенированию генома человека.
Главной целью Проекта «Геном Человека» было секвенировать все 3 миллиарда пар нуклеотидов в гаплоидном геноме человека и идентифицировать все гены. Отчет о главном прогрессе в этой области был опубликован в 2001 г. К этому времени было секвенировано примерно 90% генома, но значительная часть всей последовательности оставалась все еще в виде фрагментов длиной в несколько тысяч пар нуклеотидов. Очевидно, что это сильно ограничивает пользу от таких данных. Это аналогично тому, как если бы все предложения в этой книге были бы написаны на отдельных обрывках бумаги и, после того, как в книжном магазине вы заплатили за книгу, вы получили бы мешок с этими обрывками, перемешанными в случайном порядке. Из такой «книги» вы вряд ли бы многое узнали о генетике человека!
В следующие два года почти все такие бреши были заполнены, и о завершении практически всей последовательности было объявлено в апреле 2003 г. - подходящая дата, чтобы отпраздновать 50-летний юбилей модели структуры ДНК Уотсона и Крика! Около 99% районов, содержащих гены, были секвенированы с точностью 99,99%. Пока еще остается менее 400 брешей, и в среднем непрерывные участки составляют более 27 миллионов пар нуклеотидов, а общий размер генома, как уже говорилось, составляет примерно 3,2 миллиарда пар нуклеотидов . Неожиданным результатом оказалось то, что общее число генов у человека находится в пределах от 30000 до 35000, что намного меньше, чем предполагалось ранее, и всего в два раза больше, чем число генов у плодовой мушки дрозофилы или у микроскопического круглого червя (почвенной нематоды) .
Завершение секвенирования генома человека является важной вехой в генетике человека, но это отнюдь не означает, что мы знаем функции всех этих генов. Анализ функции тысяч генов в норме и при болезнях будет гораздо более сложным проектом, чем секвенирование генома. Сейчас планируется использовать фундаментальные данные о последовательности генома разнообразными путями, о чем будет рассказано в следующих лекциях данной книги. Здесь же достаточно сказать, что наличие полной последовательности генома человека открывает возможности понять биологию человека и его болезни на таком уровне, о котором нельзя было даже вообразить всего лишь несколько лет.
ЧТО ЕСТЬ ГЕН?
Ген определяется как участок ДНК, который транскрибируется в РНК-копию одной из нитей ДНК (этот процесс будет описан далее в этой лекции). Большинство генов являются участками ДНК, которые несут информацию о последовательности аминокислотных остатков в белке, однако некоторые гены кодируют только РНК. Фактически все метаболические функции живых клеток опосредуются белками, но в то же время другие белки образуют множество внутриклеточных и внеклеточных структур. Со всеми генами связаны регуляторные последовательности ДНК, которые являются такими участками, к которым присоединяются белки, определяющие, будет ли ген экспрессирован в данное время и в данном месте. Некоторые генетики называют такие регуляторные последовательности тоже генами.
Рис. 1-3 поможет освежить Вашу память относительно основных элементов структуры ДНК. В окнах A и B показаны структуры четырех оснований: двух пуринов - аденина (A) и гуанина (G) и двух пиримидинов - тимина (T) и цитозина (С). В окне С показана общая структура нуклеотида, который является фундаментальной единицей, из которых собираются и ДНК и РНК. Заметьте, что символы 5' и 3', которые обозначают концы полинуклеотидной цепи, являются номерами атомов углерода в остатке сахара в составе нуклеотида. Первый нуклеотид в начале полинуклеотидной цепи имеет 5'-фосфатный остаток, а последний нуклеотид в конце цепи имеет 3'-гидроксильную группу. В окне D показана двухспиральная структура ДНК, нити которой удерживаются вместе водородными связями между парами оснований (A=T или G≡C). Лентообразные линии серого цвета символизируют сахарофосфатный остов, к которому присоединены основания. На этом же рисунке схематически показан также процесс транскрипции (синтеза комплементарной нити РНК), который мы обсудим далее в этой лекции.
Прежде чем углубиться в структуру гена, следует указать на некоторые терминологические и аббревиатурные несуразности. Поскольку элементарными единицами ДНК (или РНК) являются нуклеотиды, то длину двунитевых последовательностей ДНК (или РНК) логично выражать в парах нуклеотидов, сокращенно п.н. Но иногда, следуя англоязычной традиции, используют словосочетание пары оснований и используют сокращение – п.о. Тысячу пар нуклеотидов обычно обозначают как т.п.н. Но иногда неоправданно используется лабораторный жаргон, являющимся калькой с английского: «килобаза» (kilobase) и сокращение kb – вместо т.п.н., а также Mb - «мегабаза» (megabase) - вместо миллиона пар нуклеотидов и Gb - «гигабаза» (gigabase) - вместо миллиарда пар нуклеотидов. Длину однонитевых ДНК и РНК измеряют, естественно, не парами, а просто числом нуклеотидов (или оснований). «Начало» каждой последовательности ДНК или РНК обозначается как 5' (читается как «пять-штрих»), а окончание – 3' («три-штрих»). Эти номера соответствуют структуре нуклеотидов (см. Рис. 1 3 С) и тому, каким путем они собираются в нити ДНК или РНК (см. Лекцию 2).
Типичный ген человека состоит из чередования экзонов и интронов. Экзоны являются участками ДНК, которые будут представлены в зрелой матричной РНК (мРНК), которая образуется в процессе экспрессии гена. Большинство экзонов содержат информацию о последовательности аминокислот – элементарных единиц белков. Кроме этого, в начале и в конце мРНК находятся такие экзоны, которые не кодируют последовательность аминокислот, но могут содержать различные типы регуляторной информации. Интроны же являются такими участками генов, которые расположены между экзонами и отсутствуют в зрелых мРНК. Отношение числа экзонов к числу интронов варьирует достаточно широко. Лишь небольшое количество генов не содержат интронов, в то же время есть гены, в которых интроны составляют более 95% их длины. Функция интронов и их эволюционное возникновение до сих пор не до конца поняты, но принято считать, что наличие генов, сконструированных из ряда коротких кодирующих последовательностей (экзонов) обеспечивают эволюционную пластичность. На Рис. 1-4 схематически представлена экзон-интронная структура двух хорошо изученных генов, которые кодируют α- и β полипептидные цепи глобиновой части гемоглобина.
Согласно отчету Консорциума по секвенированию в среднем ген человека содержит 27 т.п.н. Если мы помножим 27 т.п.н. на 30000 генов, то мы получим, что гены человека занимают 0,8 млн.п.н., т. е. примерно лишь одну четверть от всего генома. Консорциум по секвенированию сообщает нам еще некоторые интересные количественные данные о генах человека. Среднее число экзонов, приходящееся на один ген равно примерно 8 (соответственно среднее число интронов в гене должно быть равно 7). Средний размер экзона составляет 145 п.н., а средний размер интрона – 3365 п.н. Легко сосчитать, что в среднем экзоны составляют менее 5% от общей длины гена. В среднем суммарная длина кодирующих экзонов ДНК в одном гене составляет 1340 п.н.; этого достаточно, чтобы образовать белок длиной в 447 аминокислотных остатков. Однако, имеет место громадная вариабельность в размере генов, числе интронов, размере кодируемых белков и т. п. Размер наибольшего из известных генов превышает 2,4 млн.п.н., известны интроны длиной более 30 т.п.н., а некоторые белки содержат более 3000 аминокислотных остатков.
Упомянутая оценка числа генов в пределах 30 000-35 000 была получена путем компьютерного анализа геномных последовательностей. Сначала подсчитали число известных генов (что, естественно, было достаточно легко сделать) и к нему добавили число генов, наличие которых можно было предсказать из оценок числа возможных экзонов, числа сопряженных экзон-интронных последовательностей и некоторых других характеристик. Понятно, что число предсказанных генов довольно неопределенно, поскольку, с одной стороны, некоторые гены компьютер может не распознать, а с другой стороны, компьютер может ошибочно предсказать гены, которые в реальности не существуют.
Один из способов обнаруживать неизвестные гены заключается в установлении сходства с последовательностью известного гена. Многие белок-кодирующие гены образуют семейства, которые представляют собой группы генов, имеющих значительное сходство в своих последовательностях. Основным событием, приводящим к появлению семейств генов, является дупликация гена, которая может случайно возникать вследствие ошибок репликации и рекомбинации ДНК (см. Лекция 2). Когда образуются две копии гена, одна из копий может мутировать таким образом, что образуется несколько измененный ген, который будет кодировать белок со свойствами, слегка отличными от оригинала. Если различия, приобретенные новым белком, придадут ему некоторые преимущества, то процесс отбора может увековечить их в последующих поколениях. Вследствие последующих ошибок в ходе репликации или рекомбинации число таких по разному измененных копий генов может разрастись, и в результате получится мультигенное семейство и, кроме того, они могут рассредоточиться по геному на отдаленные расстояния.
Классическим примером генных семейств у человека является кластер генов β-глобина на хромосоме 11 и генов α-глобина на хромосоме 16. Их схема представлена на Рис. 1-5.
Обратите внимание на наличие псевдогенов в каждом кластере (они обозначены греческой буквой ψ). Псевдогены образуются из дуплицированных генов, одна из копий которых приобретает такие мутации, которые делают невозможным ее экспрессию. Известны многие другие генные семейства, число членов в которых исчисляется десятками; примерами являются семейства генов для актинов, миозинов, аполипопротеинов, гистонов и иммуноглобулинов. Когда анализируются удаленные друг от друга семейства, то многие из них можно назвать сверхсемействами, потому что они насчитывают сотни членов.
Давайте теперь вычислим еще одно интересное число. Какая доля генома человека содержит информацию для кодирования белков? Помножив 1340 п.н. на 30 000 генов, мы получаем, что за кодирование белков отвечают 40 200 000 п.н. Поделив это число на размер гаплоидного генома человека (3,2 млрд.п.н.), мы приходим к выводу, что только 1,25% нашего генома несут информацию о кодировании белков. Эти числа приблизительны, так что не удивляйтесь, если в других источниках вы встретите несколько отличные от этих числа. Важно то, что лишь очень малая доля человеческой ДНК кодирует белки.
Что же представляет собой остальная часть генома? Мы знаем, что 20-25% занимают интроны, но большая часть остальной ДНК является межгенной ДНК. Значительную часть межгенной ДНК составляют регуляторные последовательности, которые мы сейчас обсудим. Существует несколько групп генов, которые не кодируют белки; продуктами таких генов являются РНК, которые играют важную роль во многих клеточных процессах и структурах. Иногда из них образуются нуклеопротеиновые структуры, иногда они участвуют нацеливают ферменты на другие РНК. В этой книге я буду неоднократно упоминать специфические классы функционально активных некодирующих РНК. Кроме того, некоторые части генома играют структурную роль. Тем не менее, у нас нет никакого очевидного объяснения, почему так много ДНК не участвует непосредственно ни в качестве структуры для генов, ни в любых других функциях. Некоторое понимание проблемы «избытка» ДНК можно получить, взглянув на геном с несколько иной стороны. Что мы сейчас и сделаем.
ПОВТОРЯЮЩАЯСЯ ДНК
В любом сложном геноме ДНК можно подразделить на два типа: однокопийную ДНК (т. е. последовательности, представленные в гаплоидном геноме единственными экземплярами) и повторяющуюся ДНК (последовательности, представленные в гаплоидном геноме многократно). Примерно 50% генома человека представляют собой повторяющуюся ДНК. Популярным термином для большинства повторяющейся ДНК и для некоторых однокопийных ДНК, которые не являются частью генов, является «мусорная (junk) ДНК». Да, скорее всего, в настоящее время наши геномы содержат некоторое количество ДНК, которая не несет никакой функции и может вполне законно считаться мусорной, но чем больше мы узнаем о геномах и о регуляции экспрессии генов, тем больше мы открываем новых функций для ДНК, о которых раньше мы не имели никакого представления. Кроме того, значительная часть ДНК, которая в настоящее время явно не используется, определенно является запасным материалом для эволюции генома. Таким образом, если мыслить о биологических видах как о динамических сущностях, изменяющихся (эволюционирующих) во времени, то вполне возможно, что «мусора» в их геномах не так уж и много.
Различают два класса повторяющейся ДНК: (1) тандемно повторяющиеся последовательности (повторы), которые расположены друг за другом «голова к хвосту», и (2) диспергированные повторы, которые разбросаны по всему геному, причем чаще всего они бывают представлены одной копией в данном месте (сайте).
Тандемно повторяющиеся последовательности
Основным классом тандемно повторяющихся последовательностей является центромерная ДНК. Наиболее распространенным тип центромерной ДНК называется альфоидной (alphoid) ДНК, повторяющиеся единицы которой имеют длину примерно в 170 п.н. Эти единицы образуют ряды, длина которых варьирует от 250 т.п.н. до 5 млн.п.н., и они составляют не менее 3% генома. Внутри одного ряда повторы не идентичны, они немного различаются, и между хромосомами эти различия еще больше. Центромерная ДНК образует центромеры, сложные структуры, которые кроме ДНК содержат белки нескольких типов, к которым присоединяются нити веретена в процессе деления клетки.
Тандемно повторяющиеся последовательности найдены также в теломерах, которые расположены на концах каждой хромосомы. У человека теломерными последовательностями являются GGGTTA; в разных хромосомах они повторяются от 250 до 1500 раз. В последние годы теломерная ДНК стала предметом пристального внимания исследователей в связи с тем, что была обнаружена связь между укорочением теломер и старением. Я не буду здесь детально обсуждать этот вопрос, скажу только, что основная идея состоит в том, что укорочение теломер является одним из последствий процесса репликации ДНК, который происходит перед каждым актом клеточного деления . Если такое продолжается достаточно долго, то теломерные последовательности элиминируются, и станут повреждаться прилежащие к ним гены. В результате клетка может умереть или перестать делиться. Такое происходит в большинстве нормальных соматических клетках, и поэтому в организме или в клеточной культуре они имеют ограниченную способность к размножению. Однако, в зародышевых (половых) клетках, стволовых клетках и разнообразных раковых клетках имеется фермент теломераза, способный восстанавливать теломерные последовательности, которые в его отсутствие укорачиваются при каждом акте репликации ДНК. Теломераза является необычным ферментом, у которого имеются два компонента: РНК и белок; при этом РНК служит матрицей для восстановления утраченных теломерных повторов. Рис. 1-6 показывает в общих чертах, как осуществляется этот процесс.
Некоторые другие классы тандемно повторяющихся последовательностей являются генами для некодирующих РНК. Одними из наиболее известных из них являются гены для рибосомной РНК (рРНК). В геноме человека имеются пять групп таких генов, каждая из которых содержит около 60 копий. Они расположены в коротких плечах акроцентрических хромосом 13, 14, 15, 21 и 22. Эти кластеры для рРНК вместе с некоторыми дополнительными участками ДНК называются ядрышковыми организаторами, потому что ядрышко может быть образовано каждым их них. Ядрышки расположены в клеточном ядре и являются фабриками по сборке рибосом. Существует более 80 типов рибосомных белков. Они синтезируются в цитоплазме и мигрируют в ядро, где они связываются с рРНК, которая синтезируется в ядрышке. В каждом ядрышке накапливается также множество других белков, где они принимают участие в сборке рибосом. Кроме того, в сборке рибосом участвуют небольшие некодирующие РНК нескольких типов. В хромосоме 1 расположен еще один кластер тандемно повторяющихся генов для 5S-рРНК, которая также является важным компонентом рибосом.
Диспергированные повторяющиеся последовательности
Диспергированные повторяющиеся последовательности чаще всего разбросаны по геному по отдельности, а не кластерами. Согласно размеру их подразделяют на две группы: длинные диспергированные элементы, обозначаемые как LINE (Long INterspersed Elements), и короткие диспергированные элементы, обозначаемые как SINE (Short INterspersed Elements). Оба класса являются подвижными (мобильными) генетическими элементами, которые называются ретротранспозонами. Полностью функционирующий ретротранспозон способен размножать либо сам себя, либо родственные последовательности, как это будет описано в следующем абзаце. Ретротранспозоны могут возникать как ретровирусы, которые мы рассмотрим в Лекциях 4 и 6.
Одним из важнейших классов диспергированных повторяющихся последовательностей является LINE-1 или группа L1, которая представлена в геноме человека в количестве до 500 000 копий и составляет примерно 15% от всего генома. Большинство элементов L1 являются укороченными копиями полноценных единиц, длина которых составляет около 5000 п.н., но несколько тысяч элементов L1 имеют полную длину. Только 40-50 из них функционально активны, т. е. они кодируют несколько белков, которые способны вызывать транспозицию либо самого элемента L1, либо некоторых других мобильных элементов. Элементы L1 несут два гена (называемых открытыми рамками считывания – ORF; см. Рис. 1 7). ORF1 кодирует белок, связывающийся с нуклеиновыми кислотами (р40), ORF2 кодирует и обратную транскриптазу (фермент, который использует мРНК как матрицу и создает комплементарную ей одноцепочечную ДНК-копию, кДНК) и эндонуклеазу, которая производит надрезы в геномной ДНК, куда может встраиваться новая кДНК.
Когда мРНК из элемента L1 транслируется, то образующиеся белки обычно связываются непосредственно со своей мРНК. Такой комплекс белка с РНК перемещается в ядро, где эндонуклеаза разрезает одну из цепей ДНК, и в результате образуется свободный конец. Обратная транскриптаза использует этот свободный конец в качестве затравки и создает ДНК-копию мРНК элемента L1. В конце концов образуется вторая цепь кДНК и двунитевая молекула встраивается в хромосому на место однонитевого разрыва. Мы до сих пор не знаем, почему только часть элемента L1 является наиболее частым продуктом ретротранспозиции.
Считается, что обратная транскриптаза ответственна также за образование процессированных псевдогенов, которые являются ДНК-копиями мРНК и которые встраиваются в места, не родственные (не гомологичные) исходному гену, из которого произошла скопированная мРНК. Процессированные псевдогены не содержат интронов и обычно не способны экспрессироваться в виде полипептидов (хотя иногда и случаются исключения). Происходит это либо из-за того, что они не имеют регуляторных последовательностей, либо потому что они содержат мутации. Псевдогены (как процессированные, так и обычные) довольно распространены и в геноме человека составляют 0,5-1%. Например, секвенирование хромосомы 22 выявило 134 псевдогена.
Наибольший класс элементов SINE состоит из последовательностей Alu (название происходит от названия фермента рестрикции Alu I, эндонуклеазы, которая расщепляет ДНК в местах нахождения специфичных коротких последовательностей и может использоваться для вырезания последовательностей Alu из геномной ДНК). В геноме человека находится примерно миллион последовательностей Alu, которые составляют примерно 10-12% всей ДНК. Длина основной единицы составляет примерно 300 п.н., но в классе Alu существует много различных последовательностей. В основном они находятся между генами и внутри интронов, но изредка они могут быть включены в мРНК. Последовательности Alu не кодируют белков и поэтому они не способны сами перемещаться из одного места в другое. Однако, многие последовательности Alu транскрибируются и на их концах существуют некоторые короткие последовательности, подобные РНК у элементов L1. Поэтому распространено мнение, что ферменты, которые производятся элементами L1, участвуют в ретротранспозиции последовательностей Alu, хотя окончательные доказательства этому все еще не получены.
Встраивание (инсерция) нового мобильного элемента в ДНК потенциально способно нарушить функцию гена и, действительно, у человека известно более 30 примеров ретротранспозиций, вызывающих болезни. Более того, присутствие столь большого числа копий родственных последовательностей делает возможным потерять или дуплицировать генетический материал во время мейоза (как это будет описано в Лекции 2), и в результате также могут возникать аномальные фенотипы. Возникает вопрос, почему же наши геномы не избавятся от таких опасных участков ДНК, кажущихся бесполезными? Ответ возможно заключается в их необходимости для эволюционной пластичности. Повторяющиеся последовательности в ДНК являются важным источником ремоделирования генома . Это станет яснее, когда мы будем обсуждать механизмы геномных изменений в следующей лекции.
ХРОМАТИН
Длина и ширина у линейной молекулы ДНК размером со среднюю хромосому человека (примерно 140 млн.п.н.) столь несоизмеримы, что их соотношение даже трудно себе представить зрительно. Аналогии со спагетти или с женскими волосами до пят совершено неадекватны. Представим себе садовый шланг с наружным диаметром в один дюйм; если он будет пропорционален длине средней хромосомы, то такой шланг растянется на 350 миль! В реальных единицах измерений 140 млн.п.н. будут иметь длину более 47 000 микрометров, при этом 46 хромосом должны поместиться в ядре, диаметр которого в большинстве клеток человека не превышает 10 микрометров. Возможности запутывания и случайных разрывов при этом очевидны. Упаковка (компактизация) ДНК и защита ее от разрывов достигается посредством ДНК-связывающих белков.
У всех эукариот ДНК связана с большим количеством разнообразных белков, и их комплекс называется хроматином. Некоторые из этих белков играют структурную роль. Многие другие появляются и исчезают в процессе экспрессии генов. Основной структурной единицей хроматина является нуклеосома – комплекс ДНК с белками, который состоит из 8 гистонов и участка ДНК размером в 200 п.н. Гистоны являются основными (положительно заряженными) белками, которые представлены пятью основными видами. Ядро (сердцевина) нуклеосомы содержит по две молекулы гистонов 2A, 2B, 3 и 4. Они образуют частицы в форме диска, на которые намотаны примерно два витка спирали ДНК таким образом, что примерно 150 п.н. связаны с нуклеосомой, а другие 50 п.н. находятся между двумя соседними нуклеосомами (Рис. 1-8). В результате нить ДНК уплотняется (конденсируется) примерно в 6-7 раз. Гистон 1 присоединен к внешней стороне октамерного комплекса ДНК с гистонами. Возможно он служит для стабилизации комплекса и для того, чтобы помогать присоединению ДНК к октамеру
Электронно-микроскопические исследования хроматина выявляют существование следующего уровня сворачивания – волокна диаметром в 30 нанометров (нм), которые обеспечивают последующее 6-7-кратное уплотнение. Точная структура таких 30 нанометровых волокон in vivo все еще не определена, потому что в процессе приготовления образцов для электронной микроскопии могут нарушиться структуры, которые существуют внутри клеток. Были предложены самые разнообразные структуры, такие как соленоиды, ленты и сложные узлы. Сверх того, выявляются структуры еще более высокого порядка типа петель, вытягивающихся из матрикса хромосомы. Петли по-видимому состоят из 30-нанометровых волокон или из неких еще более плотно скрученных форм; их длина варьирует в пределах от 30 до 90 т.п.н. Микроскопические исследования клеток различных организмов показывают, что такие петли образуются в местах активной экспрессии генов.
ЭКСПРЕССИЯ ГЕНОВ
Экспрессия гена есть процесс преобразования («перевода») последовательности нуклеотидов в ДНК в последовательность аминокислотных остатков в полипептиде. Для этого процесса требуются три основных стадии: транскрипция гена в РНК, процессинг начального транскрипта в матричную РНК (мРНК) и трансляция мРНК в полипептид. У Вас наверняка есть основные представления об основных классах макромолекул, которые участвуют в этом процессе, и нижеследующее краткое изложение призвано лишь освежить Вашу память. По прочтении этих разделов Вы сможете лучше понять возможные клинические последствия: любая реакция, в которой участвуют белки или РНК, может быть либо нарушена, либо модифицирована мутацией в ДНК. Конкретная генетическая болезнь может быть результатом отклонения от нормы на любой стадии экспрессии гена.
Транскрипция
Транскрипция есть процесс копирования участка ДНК в виде комплементарной ему ДНК. РНК является линейным полимером, который формируется из четырех нуклеотидов (нуклеозидтрифосфатов): ATP (АТФ), UTP (УТФ), GTP (ГТФ) и CTP (ЦТФ). И в случае образования (синтеза) ДНК, и в случае синтеза РНК каждый новый нуклеотид в растущей цепи присоединяется к 3'-гидроксильной группе углеводной части предыдущего нуклеотида с последующим высвобождением двух концевых фосфатных остатков нового нуклеотида (в 5'-положении). В качестве углевода (сахара) в состав РНК входит рибоза, а в состав ДНК – дезоксирибоза. РНК и ДНК различаются еще тем, что в состав РНК входит U (У – урацил), а в состав ДНК входит 5-метилурацил, называемый тимином (T), и тем, что транскрипты РНК являются однонитевыми (хотя в разных местах одной и той же цепи могут встречаться участки комплементарных последовательностей, которые способны образовывать небольшие двунитевые районы, скрученные в спираль, вследствие спаривания оснований в таких районах). Образование молекулы РНК на матрице ДНК схематически показано на Рис. 1-3 D.
Транскрипция осуществляется ферментами РНК-полимеразами. У бактерий имеется всего лишь один тип РНК-полимеразы, но у человека, как и у всех прокариот, имеется три класса РНК-полимераз: Pol I транскрибирует гены для больших рибосомных РНК; Pol II транскрибирует гены, которые кодируют белки и некоторые небольшие некодирующие малые ядерные РНК (мяРНК – snurps, snRNA); Pol III транскрибирует гены для транспортных РНК (тРНК), 5S-рРНК и множество других некодирующих РНК. Каждый из этих ферментов является сложным белковым комплексом, состоящим из нескольких или многих полипептидов .
РНК-полимеразы связываются с промоторами на ДНК, которые могут быть короткими последовательностями в 40 п.н., но часто бывают в несколько раз большими. Промоторы обычно расположены очень близко к началу (т. е. 5'-концу) гена. У млекопитающих промоторы, с которыми соединяются Pol I, обычно располагаются против хода транскрипции («вверх по течению» - upstream) на расстоянии 25 п.н. от сайта ее инициации. Они могут содержать несколько последовательностей, наиболее общей из которых является TATA-бокс (бокс Хогнесса), типичной для которого является последовательность TATAAAA. Сродство промоторов к РНК-полимеразе различается на несколько порядков и для регуляции транскрипции в клетках человека требуются еще другие белки – транскрипционные факторы, которые повышают или снижают вероятность присоединения РНК-полимеразы к ДНК и инициации синтеза цепи РНК. Существует много общих факторов транскрипции, которые являются белками, отличными от РНК-полимераз, но необходимыми для транскрипции большинства генов. Например, группа общих факторов транскрипции, называемых TFII, необходима для присоединения Pol II к промотору и для образования активного преинициаторного комплекса, готового начать транскрипцию. Его сборка обычно происходит в порядке DABpolFEH, где прописные буквы обозначают субъединицы TFII, и он включает несколько десятков полипептидов.
Последовательности ДНК, к которым присоединяются РНК-полимеразы в комплексе с соответствующими регуляторными белками, называются цис-регуляторными зонами; это означает, что они расположены рядом с контролируемым геном и на той же хромосоме. Гены, которые кодируют регуляторные белки, обычно не имеют топологической близости с генами, которые они регулируют. Такие белки называются транс-активными факторами. Цис-регуляторные зоны содержат также сайты для связывания с несколькими различными белками, которые регулируют экспрессию генов в клетках разного типа или на различных стадиях развития. Идентифицированы сотни специфических факторов транскрипции, и поэтому не удивительно, что мутации в генах, которые кодируют эти белки, могут приводить к генетическим болезням.
Кроме описанных выше основных преинициаторных комплексов, необходимых для транскрипции, для полноценной активности генов обычно нужны еще и специфические факторы транскрипции. Другой термин для специфических факторов транскрипции – активаторы. Цис-активные последовательности, к которым присоединяются активаторы, называются энхансерами («усилителями»). Присоединение активаторов к энхансерам может многократно повысить частоту транскрипции. Размер энхансеров варьирует от 50 до 1500 п.н. и они могут располагаться «против течения» (5'), «по течению» (3') или внутри гена. Иногда энхансер может быть удален от гена на расстояние от нескольких п.н. до многих тысяч п.н. Специальные эксперименты показали, что большинство энхансеров способны сохранять свою функцию, даже если их перенести на новое место (но на той же хромосоме), и что их 5' или 3'-ориентация не имеет значения. По-видимому, если только активатор способен присоединиться к энхансеру, то они выполнят свою функцию в очень широких топологических пределах. Механизм действия энхансеров все еще изучается и действительно очень сложен, но один важный момент состоит в том, что когда соответствующие белки соединяются с энхансером, то изменяется конфигурация хроматина в области прилежащего гена. Если энхансер удален от промотора на расстояние в сотни п.н. (и более), то такое изменение конфигурации может привести к образованию хроматиновых петель таким образом, что белки, присоединенные к энхансеру способны взаимодействовать непосредственно с белками, присоединенными к промотору. Обнаружены, однако и другие возможности. Например, получено доказательство того, что некоторые белки, присоединенные к энхансеру, не могут контактировать непосредственно с основным транскрипционным комплексом. Сначала они взаимодействуют с другими белками, называемыми медиаторами, которые затем помогают удерживать компоненты основного комплекса около промотора (Рис.1-9).
Для многих метаболических процессов существуют равносильные противоположные процессы, аналогичным образом обстоит дело и с регуляцией транскрипции. В ДНК существуют цис-активные сайленсерные последовательности, которые препятствуют транскрипции специфичных генов. Одна из гипотез о функции сайленсеров («глушителей») состоит в том, что когда белок-репрессор связан с промотором, он вызывает такое локальное сворачивание хроматина, которое делает промотор около близлежащего гена недоступным для РНК-полимеразы. Удивительно, но некоторые элементы ДНК могут быть либо энхансерами, либо сайленсерами в зависимости от того, какая молекула присоединяется к ним. Хорошо известным примером является элемент ответа на тиреоидный гормон. Он функционирует как сайленсер, когда рецептор тиреоидного гормона связывается с ним в отсутствие гормона, но действует как энхансер, когда к этому элементу присоединяется рецептор в комплексе с гормоном.
Недавно открыты последовательности ДНК, которые назвали изоляторами. Они метят границы в хроматине, за пределы которых не может распространяться действие энхансеров и сайленсеров. Механизм их действия еще плохо изучен, но одной из возможностей может быть присоединение специфических белков к изоляторам или к неким коротким структурам в ядре, что приводит к образованию петель в хроматине. Эта теория постулирует также, что комплекс белка с промотором в одной петле не может взаимодействовать с подобным комплексом в другой петле; однако убедительная модель еще разработана.
Вторая функция изолирующих элементов состоит в том, чтобы предотвратить растягивание гетерохроматина – высоко конденсированного хроматина, в котором транскрипция полностью подавлена, – в тех его областях, где присутствуют активные гены. Принципиально способность гетерохроматина подавлять транскрипцию известна уже почти сто лет, когда пионеры генетики открыли эффект положения у плодовой мушки дрозофилы. Этим термином было обозначено явление, когда способность гена «выражаться» (экспрессироваться) зависит от его положения в геноме. Более того, возможен нестабильный (мозаичный) тип эффекта положения, при котором время и место экспрессии гена может варьировать от одной ткани или органа к другим в зависимости от пространственных взаимоотношений между генами в гетерохроматине . Эффекты положения являются одними из возможных последствий перестроек хромосом (см. Лекцию 2).
Некоторые гены содержат множественные цис-регуляторные элементы (промоторы, энхансеры и т. д.). Они позволяют экспрессии генов варьировать от одной ткани к другой, или от одной стадии развития к другой (см. Лекцию 7), в зависимости от того, какие транскрипционные факторы доступны в тот или иной момент времени или в том или ином месте и с какими регуляторными элементами они способны взаимодействовать. Другим важным источником вариабельности генной экспрессии является процессинг (созревание) РНК, о котором мы поговорим в следующем разделе.
Созревание (процессинг) РНК
У прокариот первичными транскриптами гена является матричная РНК, но у эукариот это не так. Как уже отмечалось в данной лекции, почти во всех генах человека и в их первичных транскриптах между каждыми двумя экзонами (которые становятся частями зрелой мРНК) находятся интроны (которые отсутствуют в мРНК). Интроны называют также промежуточными (intervening) последовательностями, а экзоны – экспрессируемыми последовательностями. У низших эукариот интронов в основном немного и они небольшие; у млекопитающих (и, естественно, у человека тоже) большинство генов содержат большое количество интронов, и их размер варьирует от нескольких десятков до нескольких тысяч нуклеотидов. Каким же образом клетка так обрабатывает первичный транскрипт, что из него удаляются интроны?
Удаление интронов и воссоединение соседних экзонов называется сплайсингом (сращиванием, стыковкой) РНК. Решающими для сплайсинга во вновь синтезируемой РНК являются три типа коротких нуклеотидных последовательностей. А именно: консервативная (консенсусная) последовательность на 5'-конце интрона, консервативная последовательность на 3'-конце интрона, и сайт ветвления (брэнч-сайт), находящийся на расстоянии примерно в 30 нуклеотидов от 3'-конца интрона непосредственно у последовательности из 8-10 пиримидинов (цитозина или урацила), расположенной против хода трансляции. Консервативная последовательность на 5'-конце интрона на его границе с экзоном почти всегда содержит динуклеотид GU, в то время как консервативная последовательность на границе с его 3'-концом почти всегда содержит динуклеотид AG. Состав остальных частей этих консервативных последовательностей варьирует значительно. В случае с млекопитающими их наиболее распространенные мотивы можно изобразить так:
5'-экзон-AG|GUAAGU-интрон-UACUAAC-(N)30-(Y)11NCAG|G-3'-экзон
Здесь вертикальные линии отображают границы интрона; N обозначает любое из четырех оснований: A, U, G или C; Y обозначает любой из двух пиримидинов: U или C; подчеркнут сайт ветвления и в нем жирным курсивом выделен предпоследний нуклеотид A, который способен образовывать необычную 2'-5'-межнуклеотидную связь); (N)30 и (Y)11 обозначают последовательности из 30 и 11 нуклеотидов, соответственно. Отлично видно правило GU..AG, которое утверждает, что у всех интронов ядерных структурных генов, кодирующих белки, на левой границе интрона всегда находится динуклеотид GU, а на правой – AG (выделены жирным шрифтом).
Как показано на Рис. 1-10, первый этап сплайсинга заключается в том, что предпоследний нуклеотид A в сайте ветвления вступает в контакт с нуклеотидом G на 5'-конце, в месте контакта между этими A и G образуется необычная межнуклеотидная 2'-5'-связь, одновременно точно по границе между экзоном и интроном образуется разрыв и освобождается 3'-конец 5'-экзона (называемый донорным экзоном). В результате образования указанной ковалентной связи между A и G формируется петля типа «лассо». На втором этапе сплайсинга 3'-гидроксильная группа (3'-OH) донорного экзона атакует фосфодиэфирную связь на 3'-конце интрона (акцепторный сайт сплайсинга), разрывает ее и соединяет вместе оба экзона. Эти реакции катализируются самой РНК, и получается, что РНК функционирует как фермент, называемый рибозимом, но она действует не в одиночку.
В действительности для сплайсинга РНК требуется участие сложного комплекса малых ядерных РНК (мяРНК) и белков, которые образуют частицы, называемые сплайсосомами.
Сплайсосома является динамическим образованием; каждая из мяРНК, которые участвуют в ее работе, существуют некоторое время в виде индивидуальных комплексов с белками (рибонуклеопротеиновых частиц), обозначаемых как мяРНП. Сборка сплайсосомы начинается с присоединения частицы мяРНП-U1 к 5'-сайту сплайсинга, сопровождаемого связыванием мяРНП-U2 с сайтом ветвления. Связанные вместе мяРНП U6 и мяРНП-U4 присоединяются к мяРНП-U2, после этого мяРНП-U4 отделяется от мяРНП U6, которая замещается на мяРНП-U1. Частица мяРНП-U5 принуждает последний нуклеотид 5'-экзона приблизиться к первому нуклеотиду 3'-экзона и облегчает объединение двух экзонов после вырезания интрона.
Основным источником изменчивости в экспрессии генов является альтернативный сплайсинг, который варьирует от одного типа клеток к другому и от одной стадии развития к другой. Недавние исследования по экспрессии генома человека указывают, что по меньшей мере 40% всех генов подвержены альтернативному сплайсингу, и эта цифра может оказаться преуменьшенной. В простейшем случае один экзон может присутствовать, а может и отсутствовать в зрелой мРНК (Рис. 1-11). Мы до сих пор не располагаем подробностями о механизмах, которые приводят к «выпадениям» экзонов, но ясно, что это распространенное явление при экспрессии генов.
Возможны также такие варианты сплайсинга, когда исключается только часть экзона, и варианты, когда включается часть интрона. Существуют такие белки, взаимодействующие с РНК, которые должны связываться с сайтом сплайсинга до того, как к нему присоединится частица мяРНП-U1, и запускать сборку сплайсосомы. Сейчас еще не ясно, сколько существует таких белков. Скорее всего контроль альтернативного сплайсинга является функцией РНК-связывающих белков (факторов сплайсинга), которые влияют на осуществление сплайсинга специфических интронов. Кандидатом на эту роль может быть группа РНК-связывающих белков, называемых SR-белками (потому что они богаты серином [S] и аргинином [R]). Например, было показано, что один из членов этой группы, SC35, обладает относительно высокой специфичностью в отношении сплайсинга предшественника мРНК для β-глобина. Можно ожидать, что в ближайшие годы мы получим гораздо больше информации об этом виде контроля процессинга РНК. Очевидно, что если существуют геноспецифичные факторы сплайсинга, то они могут служить существенным источником мутаций, сопутствующих генетическим болезням, поскольку они суть изменения в тех последовательностях ДНК, которые влияют на узнавание сигналов сплайсинга аппаратом процессинга (Лекция 2).
Недавно было подсчитано, что для некоторых генов с большим числом экзонов путем альтернативного сплайсинга теоретически возможно получить тысячи и даже миллионы транскриптов с одного и того же гена, но это всего лишь упражнение в сенсационности: нет никаких доказательств столь обильной изменчивости. Несомненно однако, что транскриптóм – полный набор транскриптов, производимых клеткой, - превышает число экспрессируемых генов.
В процессе созревания РНК подвергается двум типам модификации: так называемому кэпированию 5'-конца и полиаденилированию 3'-конца. Кэпирование является одной из самых ранних модификаций растущих цепей РНК и происходит после полимеризации ее первых 20-30 нуклеотидов. В этот момент ее первый нуклеотид (с помощью фермента гуанилилтрансферазы) «кэпируется» путем присоединения GMP за счет образования необычной связи 5'-5' между рибозами. В результате нуклеотид кэп-группы оказывается в обратной ориентации по отношению к остальным нуклеотидам мРНК. После этого (с помощью фермента РНК-гуанил-7-метилтрансферазы) происходит метилирование азота в 7 м положении (N-7) гуанина, а иногда дополнительная метильная группа присоединяется еще и к рибозе следующего нуклеотида (в положении 2'-O). Кэп необходим для правильного сплайсинга первого интрона в про-мРНК, для связывания мРНК с рибосомами посредством специального кэп-связывающего белка и для транспорта мРНК в цитоплазму. Кроме того, кэп обеспечивает стабильность мРНК, защищая ее от действия нуклеаз.
Когда синтез первичного транскрипта (про-мРНК) завершен, то на расстоянии примерно 20 нуклеотидов в направлении к 3'-концу от гексануклеотидной последовательности 5'-AAУAAA-3' происходит его разрезание специфической эндонуклеазой и к новому 3'-концу присоединяется от 100 до 300 остатков АМФ с помощью специального фермента поли-А-полимеразы. «Хвост» поли-А необходим для эффективного удаления последнего интрона (но он не влияет на удаление других интронов). Кроме того, хвост поли-А является важным регулятором стабильности мРНК, он защищает 3'-конец от гидролиза, поскольку покрыт поли-А-связывающими белками. В цитоплазме мРНК постепенно деградирует, и когда хвост поли-А удаляется, деградация ускоряется. Каждый вид мРНК имеет поли А хвост определенной длины, и в значительной степени время жизни мРНК коррелирует с длиной поли-А-хвоста. Если у предшественника мРНК имеется несколько сайтов для полиаденилирования, то это оказывается дополнительным источником расширения кодирующего потенциала индивидуальных генов у эукариот .
Трансляция
Слово трансляция (перевод) сразу наводит на мысль о превращении информации, выраженной на одном языке, в информацию, выраженную на другом языке, и это именно то, что происходит в процессе экспрессии генов. Информация на языке нуклеиновых кислот хранится в ДНК в виде последовательностей нуклеотидов; она переписывается на диалект РНК и затем переводится на язык белков, использующий последовательности аминокислот. Последовательности аминокислот, соединенных пептидными связями, называют либо полипептидами, либо белками. Процесс трансляции мРНК называют также синтезом белка, хотя, строго говоря, его следовало бы называть синтезом полипептидов. Когда мы хотим подчеркнуть, что функциональный белок состоит из продуктов более чем одного гена, то мы можем сказать, что белок P состоит из N полипептидов (например, РНК- и ДНК-полимеразы являются белками, котоые содержат несколько полипептидов).
Основными компонентами, вовлеченными в процесс трансляции являются мРНК, рибосомы, тРНК и группа белков, известных как трансляционные факторы. Только что я описал процесс образования мРНК из первичных РНК-транскриптов в эукариотических клетках. Рибосомы часто называют фабриками для синтеза белков. Они являются сложными макромолекулярными образованиями, содержащими несколько молекул РНК и десятки белков. Транспортные РНК (тРНК) являются группой из примерно 30 небольших молекул РНК, которые отличаются двумя существенными свойствами. Первое: каждый тип тРНК может нести на своем 3'-конце специфическую аминокислоту. Аминокислоты присоединяются к тРНК группой ферментов, называемых аминоацил-тРНК-трансферазами. Второе: каждая тРНК содержит последовательность из трех нуклеотидов, называемую антикодоном, которая расположена примерно в середине тРНК. Антикодон комплементарен одному из кодонов, каждому из которых соответствует одна из аминокислот согласно генетическому коду (см. таблицу генетического кода в Лекции 2, Таблица 2-1).
Трансляционными факторами являются белки, которые участвуют в каждой стадии синтеза белка. Имеются три основных класса трансляционных факторов: факторы инициации, факторы элонгации и факторы терминации. Здесь мы наиболее подробно рассмотрим факторы инициации. Элонгация растущего полипептида включает в себя присоединение двух молекул тРНК к рибосоме путем спаривания оснований их антикодонов с комплементарными триплетами (кодонами) на мРНК. Аминокислоты, принесенные каждой тРНК, затем сближаются друг к другу, таким образом, что они могут ковалентно связаться, образуя пептидную связь. Удивительным фактом оказалось то, что образование пептидной связи очевидно катализируется одной их рибосомных РНК, а не каким-либо из десятков рибосомных белков.
При образовании пептидной связи одна из тРНК освобождается от своей аминокислоты. Эта тРНК покидает рибосому, а мРНК и оставшаяся тРНК перемещаются на рибосоме на расстояние в один кодон. Тем самым освобождается сайт связывания для следующей тРНК, которая должна иметь антикодон, комплементарный следующему кодону на мРНК. Этот процесс повторяется снова и снова до тех пор, пока не завершится синтез данного полипептида.
Окончание (терминация) синтеза белка у эукариот осуществляется двумя белками (факторами освобождения): фактор eRF1 узнает любой из трех стоп-кодонов, а eRF3 является ферментом гуанозинтрифосфатазой (ГТФ-азой), которая связана с рибосомами и обеспечивает энергией процесс высвобождения вновь синтезированного полипептида.
Регуляция белкового синтеза осуществляется сложным образом. Существуют два типа контроля трансляции: общий и специфический. В общем контроле участвуют оба конца мРНК. Один набор факторов инициации присоединяется к метилированному гуанину на 5'-конце, т. е. к кэпу, о котором речь шла выше. В результате он соединяется с малой единицей рибосомы. Связывание кэпа может регулироваться многими другими белками. Белки другой группы присоединяются к полиаденилатной последовательности (поли А) на 3'-конце мРНК, а в некоторых случаях – к последовательностям в 3'-концевой нетранслируемой области (3' UTR – 3' untranslated region) вблизи от поли-А. Неожиданным выводом из недавних исследований является то, что активно транслируемая мРНК оказалась циркулярной вследствие белок-белкового взаимодействия на обоих концах мРНК. Когда мРНК транслируется неактивно, то поли-А становится доступной для экзонуклеаз, которые укорачивают ее и способствуют полной деградации молекулы.
Важнейшим моментом в регуляции синтеза специфических белков является инициация полипептидной цепи, которая всегда начинается с кодона для метионина - AUG. В некоторых мРНК инициирующий кодон оказывается спрятанным внутри петель, или в других структурах, образованных внутримолекулярным спариванием оснований, и в таких случаях для того, чтобы осуществилась трансляция, требуется участие других макромолекул. В некоторых случаях регуляторными молекулами являются белки, но в других ими являются малые некодирующие РНК. Регуляция трансляции может быть и негативной, например, вследствие того, что синтезируемый полипептид связывается с собственной мРНК и таким образом блокирует дальнейший синтез.
Примером контроля трансляции структурами внутри 5'-концевой нетранслируемой области (5' UTR) может служить мРНК для ферритина человека, белка, который участвует в запасании железа. Эта область содержит последовательность примерно в 30 нуклеотидов, которая образует вторичную структуру типа «стебель с петлей» (шпильку) за счет спаривания оснований в стебле. Такая структура оказывается железочувствительным элементом (iron response element – IRE). Когда клетка нуждается в железе (и поэтому не нуждается в ферритине), тогда к IRE присоединяется белок, который препятствует инициации трансляции. Когда же в клетке создается избыток железа, тогда регуляторный белок, отделяясь от IRE на мРНК, связывается с железом, и тем самым запускается синтез ферритина.
Регуляция содержания железа в клетке сопровождается также изменениями в стабильности мРНК для рецептора трансферрина. Трансферрин – это белок, который разносит железо по всему организму. Когда он связывается с рецептором на поверхности клеток, тогда железо может проникать внутрь клетки. Таким образом, если снабжение клеток железом низкое, то клеткам нужно больше молекул рецептора трансферрина. В данном случае мРНК наследственно нестабильна. Она содержит пять элементов IRE в своей длинной 3' UTR, и когда регуляторный белок присоединяется к некоторым из этих IRE, он стабилизирует мРНК. Если снабжение железом возрастает, то железо связывает белок-регулятор, вызывая его отделение от элементов IRE. В результате мРНК для трансферрина становится доступной для специфической эндонуклеазы, которая расщепляет ее на расстоянии примерно 1 т.п.н. от 3'-конца, и тогда происходит ее дальнейшая деградация .
Еще одним способом регуляции трансляции является фосфорилирование белков. Примером могут служить ретикулоциты, предшественники красных кровяных клеток (эритроцитов), которые почти исключительно вырабатывают гемоглобин. Если их обеспечение гемом ограничено, то ретикулоциты подавляют синтез α- и β-глобинов посредством фермента киназы, которую называют гем-контролирующими репрессором (HCR). Когда HCR фосфорилирует eIF2 , то это препятствует связыванию тРНК-FMet с малой (40S) субъединицей рибосомы, и синтез белка не может происходить.
Совсем недавно открыта новый вид регуляции трансляции, который опосредуется очень короткими РНК, называемыми микро-РНК (миРНК), средняя длина которых составляет всего 21 нуклеотид. Изначально они входят в состав больших транскриптов, из которых образуются куски длиной 60-70 нуклеотидов, которые образуют двухцепочечные шпилечные структуры. В цитоплазме петля и часть шпильки удаляются с помощью РНКазы под названием Dicer (игрок в кости). Потом каким-то пока непонятным способом формируется однонитевая миРНК, которая образует комплекс с некоторыми белками. Затем часть миРНК по-видимому спаривается с комплементарной последовательностью на 3'-конце специфической мРНК и тем самым подавляет трансляцию.
Мы еще не знаем сколь широко распространен этот вид регуляции трансляции у человека, но, основываясь на результатах, полученных для нематоды C. Elegans, вполне возможно, что он важен в процессах развития и дифференцировки (см. Лекцию 7). Микро-РНК подобны другому классу молекул, известных как малые (или короткие) интерферирующие РНК (миРНК или киРНК) . Некоторые из них участвуют в уничтожении вирусов. Происходит это посредством спаривания с РНК-мишенью и образования участков двухцепочечной РНК (дцРНК). Такие участки разрушаются с помощью специфичной РНКазы, которая одновременно является частью рибонуклеопротеинового комплекса RISC (RNA-induced silencing complex), участвующего в выключении («глушении», «замолкании») экспрессии генов, индуцированного РНК. Этот процесс, известный как РНК-интерференция (РНКи), используется теперь в сочетании с синтетическими двунитевыми РНК для разработки новых способов лечения генетических болезней (см. Лекцию 4). Заметьте, что обозначение РНКи относится к процессу, а не к какому-либо классу молекул РНК.
Приведенные примеры показывают, что как и в с случае с синтезом РНК, синтез белка предоставляет массу возможностей для мутаций в генах, которые кодируют регуляторные молекулы, и тем самым может изменяться экспрессия совершенно нормального гена. Сложности на этом не кончаются, потому что многие белки подвергаются посттрансляционной модификации. Таковые включают присоединение различных молекул сахара (углевода), жирных кислот и удаление небольших групп аминокислот (обычно на N конце белка), которые часто связаны с субклеточной или внеклеточной локализацией белка. Другим важным классом пост-трансляционной модификации, о котором мы уже упоминали, является присоединение фосфатных групп с помощью протеинкиназ, или их удаление с помощью протеинфосфатаз. Этим часто определяется каталитическая активность белка и (или) его взаимодействие с другими белками.
Сложность процессов транскрипции, процессинга РНК, трансляции и посттрансляционных модификаций приводит к выводу о том, что продуктом одного гена может быть более одного полипептида. Таким образом, протеом – полный комплект белков, вырабатываемых данной клеткой, - значительно превосходит число экспрессирующихся в клетке генов. Многие лаборатории сейчас заняты разработкой таких методов для анализа протеомов, которые позволят в одном опыте количественно определять сотни и тысячи полипептидов. Протеомный анализ окажет существенное влияние как на клиническую практику, так и на фундаментальные исследования, потому что фенотип определяется прежде всего белками. Мутированные гены и искаженно процессированные РНК сами по себе не делают человека больным; к заболеванию приводят неактивные или поврежденные белки, которые эти гены кодируют. Основные источники мутаций, их механизмы и влияние на экспрессию генов будут описаны в следующей лекции
КРАТКОЕ СОДЕРЖАНИЕ ПЕРВОЙ ЛЕКЦИИ
В этой лекции мы рассмотрели общие свойства генома человека: его размер и организацию в 23 пары хромосом, число генов, которые он содержит, и внутренняя организация генов. В рамках проекта «Геном человека» осуществлено практически полное секвенирование генома человека. Вы узнали, что вследствие дупликации генов создались генные семейства – группы генов, которые являются родственными по происхождению; некоторые из них приобрели новые функции, в то время как другие стали неактивными псевдогенами. Реализация Проекта «Геном человека» показала, что почти половина генома человека содержит повторяющиеся последовательности, количество которых варьирует от нескольких до миллиона копий. Наиболее распространенные повторяющиеся последовательности (LINE и SINE) являются ретротранспозонами, или производными от них, некоторые из которых могут увеличиваться в числе с помощью обратной транскрипции своих собственных мРНК и включения соответствующих кДНК в новые места геномной ДНК. Процессированные псевдогены часто возникают путем ретротранспозиции мРНК других генов. Все эти повторяющиеся последовательности являются зернами для перемалывания в эволюционной мельнице.
В лекции были описаны также основные особенности структурной организации хромосом. Комплексы участков ДНК длиной 200 п.н. с октамером гистонов образуют нуклеосомы, из которых собирается хроматин.
Мы рассмотрели также основные этапы экспрессии генов, каковыми являются: (1) синтез РНК, (2) созревание (процессинг) РНК, в ходе которого из начального транскрипта образуется мРНК и (3) трансляция мРНК в белок. Мы подчеркивали, что все стадии экспрессии генов и их регуляция требуют участия многих других молекул. Все такие функции могут подвергаться мутациям в генах как для РНК, так и в генах для белков, и это может приводить к разнообразным наследственным аномалиям.