Что такое секвенирование вируса
Геномика: постановка задачи и методы секвенирования
Сергей Николенко, кандидат физико-математических наук, старший научный сотрудник лаборатории вычислительной биологии Санкт-Петербургского Академического Университета в серии статей говорит о некоторых задачах биоинформатики, связанных со сборкой и анализом геномов, делая акцент на математической, комбинаторной постановке задачи. В данном, вводном, тексте речь идет о том, как выглядят входные данные для сборки геномов и как их получают.
Как выглядит молекула ДНК?
Рисунок из Википедии
Что такое секвенирование?
Клонирование происходит либо просто выращиванием клеток в чашке Петри, либо (в случаях, когда это было бы слишком медленно или по каким-то причинам не получилось бы) при помощи так называемой полимеразной цепной реакции. В кратком и неточном изложении работает она примерно так: сначала ДНК денатурируют, т.е. разрушают водородные связи, получая отдельные нити. Затем к ДНК присоединяют так называемые праймеры; это короткие участки ДНК, к которым может присоединиться ДНК-полимераза – соединение, которое, собственно, и занимается копированием (репликацией) нити ДНК.
Рисунок из Википедии
На следующем этапе полимераза копирует ДНК, после чего процесс можно повторять: после новой денатурации отдельных нитей будет уже вдвое больше, на третьем цикле – вчетверо, и так далее.
Секвенирование по Сэнгеру
Первым методом секвенирования, который учёные сумели применить для обработки целых геномов (в том числе генома человека), стало секвенирование по Сэнгеру (Sanger sequencing). Смысл таков: участок ДНК клонируется, после чего полученная смесь делится на четыре части. Каждая часть помещается в активную среду, где присутствуют:
ATGCAGAACAGACGATCAGCGACACTTTA (образец)
AT
ATGCAGAACAGACGAT
ATGCAGAACAGACGATCAGCGACACT
ATGCAGAACAGACGATCAGCGACACTT
ATGCAGAACAGACGATCAGCGACACTTT
Очевидно, что эта последовательность начинается с А (т.к. самый лёгкий префикс, из одной буквы, заканчивается на A); дальше идёт C, дальше опять A, и так далее. В результате можно прочесть исходный участок: ATGCAGAACA.
А чтобы измерить длину, можно, например, измерить массу всех префиксов во всех пробирках. Чтобы измерить массу, можно, например (разные секвенаторы использовали разные процедуры, но суть от этого не меняется), ионизировать эти молекулы и отправить их наперегонки к заряженному электроду в специальном геле, который создаст трение и замедлит продвижение молекул – этот метод называется электрофорезом. При одинаковом заряде более тяжёлые молекулы будут двигаться медленнее, и в результате получится примерно такая картинка.
Рисунок из Википедии
Видно, что (в идеальном случае) можно просто прочесть последовательность нуклеотидов от самого лёгкого префикса (т.е. префикса из одной буквы) к самому тяжёлому.
Результаты и ошибки сэнгеровского секвенирования
На выходе из сэнгеровского секвенатора получаются короткие участки ДНК, так называемые риды (reads). Для биоинформатики принципиальны две вещи: во-первых, какой длины получаются риды, во-вторых, какие в них могут быть ошибки и как часто (разумеется, на свете нет ничего идеального).
Сэнгеровские риды по этим критериям очень хороши: получаются риды длиной около тысячи нуклеотидов, причём качество начинает заметно падать только после 700-800 нуклеотидов. Сам процесс секвенирования по Сэнгеру, с которым мы познакомились в предыдущем разделе, предопределяет и эффект падения качества (труднее отличить молекулу массой 700 от молекулы массой 701, чем массу 5 от массы 6), и другой неприятный эффект – если в геноме встречается длинная последовательность из одной и той же буквы (…AAAAAAAA…), трудно бывает точно определить, какой она длины – все промежуточные массы попадут в одну и ту же пробирку, некоторые из них могут не встретиться, некоторые слиться друг с другом и т.д. Но всё же сэнгеровское секвенирование даёт отличные результаты с достаточно длинными ридами, которые потом относительно легко собирать. О том, как это делается, мы будем говорить в последующих текстах.
Именно при помощи сэнгеровского секвенирования был впервые расшифрован геном человека. Секвенирование по Сэнгеру применяется и сегодня, но его всё активнее вытесняют другие методы, и применяется оно всё реже. Кому же и почему оно уступило свои позиции?
Секвенаторы второго поколения: Illumina
Современные секвенаторы – это так называемые секвенаторы второго поколения (SGS, second generation sequencing). В них участки ДНК по-прежнему многократно клонируются, но процесс чтения устроен не так, как у Сэнгера. Существует много разных методов, отличающихся довольно существенно, поэтому мы рассмотрим только один из них, один из самых популярных на сегодня – секвенирование по методу Solexa (ныне Illumina; в смене названия не нужно искать глубокий смысл, просто одна компания купила другую).
Процесс секвенирования Illumina проиллюстрирован на рисунке; кроме того, можно посмотреть один из нескольких существующих видеороликов с анимацией этого процесса – в данном случае, действительно, лучше один раз увидеть, чем сто раз прочесть текст. Однако краткие комментарии тоже пригодятся; вот как происходит процесс секвенирования по методу Illumina.
В результате на каждом цикле мы прочитываем одновременно очень большое число нуклеотидов из разных последовательностей. Но за это приходится платить тем, что участки ДНК, которые мы можем прочесть, оказываются гораздо короче, чем в случае секвенирования по Сэнгеру – риды Illumina обычно получаются длиной около 100 нуклеотидов.
Парные риды и постановка задачи
Итак, теперь мы можем формально поставить задачу сборки геномов. Она звучит так: по большому числу подстрок небольшой длины восстановить исходную длинную строку в алфавите из букв A, C, G, T. В случае секвенирования по методу Illumina – по большому числу пар коротких подстрок, разделённых в исходной строке приблизительно известным расстоянием. Поставив эту задачу, мы можем забыть про биологию, химию и медицину – перед нами чисто алгоритмическая задача. Однако, прежде чем перейти к математике, сделаем ещё несколько замечаний.
Ошибки и показатели качества в секвенаторах второго поколения
Как мы уже знаем, секвенирование всегда содержит ошибки. В секвенаторах Illumina и аналогичных ошибки, как правило, происходят на фазе, когда нужно распознать помеченные нуклеотиды, т.е. понять, каким цветом и с какой силой светятся кластеры из многократно клонированных участков ДНК. На рисунке – типичный пример такой фотографии, порождённой секвенатором Illumina.
Рисунок с сайта medicine.yale.edu
Проблема здесь заключается в том, что из-за неидеальности остальных этапов процесса кластеры никогда не светятся только одним цветом; это всегда смесь всех четырёх цветов с той или иной интенсивностью. Нужно выделить наиболее интенсивную компоненту и оценить, насколько вероятна ошибка в этой букве; эта задача называется base calling (распознавание нуклеотидов). Base calling – это целая наука, в подробности которой мы сейчас вдаваться не будем.
Для нас сейчас важно, что в результате каждому нуклеотиду каждого рида секвенатор ставит в соответствие вероятность того, что этот нуклеотид был распознан правильно. Эти вероятности тоже можно использовать при сборке, и секвенаторы выдают их вместе с собственно ридами.
В итоге типичный рид в так называемом fastq-формате, стандартном для секвенаторов второго поколения, выглядит примерно так:
@EAS20_8_6_1_3_25/1
GCAAAAAACTTACCCCGGAACAGGCCGAGCAGATCAAAACGCTACTGCAATACAGACCATCAAGCACCAACTCCCNNNCGTAGNNNNNNTATGTTNNNNG
+EAS20_8_6_1_3_25/1
HHHHHHHGHHHHHHHHHHHHHHHHHHHHEHHHHHHHHEGHHHHGHHGHEFD?A=A&FFBB>&::===@&@E@E>A#########################
Первая и третья строки содержат имя рида; вторая строка – сама последовательность нуклеотидов. Обратим внимание, что среди букв A, C, G, T встречаются и буквы N – это значит, что секвенатор не смог однозначно определить, какой здесь был нуклеотид, и сдался. А четвёртая строка кодирует, в логарифмическом масштабе, вероятности того, что тот или иной нуклеотид распознан правильно; например, H здесь соответствует вероятности ошибки около одной десятитысячной. Как правило, качество ухудшается к концу рида; в нашем примере, как видите, хвост рида и вовсе не удалось сколь-нибудь надёжно прочитать.
Другие методы секвенирования
Хотя мы подробнее всего рассмотрели секвенатор Illumina (Solexa), на самом деле на этом методе свет клином не сошёлся. Есть и другие секвенаторы второго поколения, с другими свойствами.
Пиросеквенирование (pyrosequencing) основано на хемилюминесцентных сигналах, которые подают специально модифицированные нуклеотиды, когда соединяются с комплементарным нуклеотидом в прочитываемой нити ДНК; на этом принципе работает, например, секвенатор 454 от 454 Life Sciences.
Недавно появившийся метод ионного полупроводникового секвенирования (на нём основан секвенатор IonTorrent) вместо всего этого просто детектирует соединения (ионы), которые выделяются при присоединении нового нуклеотида к нити ДНК. Это позволяет радикально сократить время и стоимость получаемых ридов, хотя процент ошибок становится больше, и больше становится ошибок в фрагментах из повторяющейся одной буквы.
Человеческая мысль не стоит на месте: методы секвенирования постоянно улучшаются. Однако практически все современные методы выдают относительно короткие риды, от 100 до 400 нуклеотидов; в этом цикле мы будем в основном говорить о том, как собирать именно короткие риды.
Sanger или Illumina?
Человеческий геном был впервые собран на сэнгеровских секвенаторах, причём алгоритмическая сторона того проекта была проработана гораздо меньше, чем сейчас, десять лет спустя. Алгоритмы, которыми собирали первый человеческий геном, значительно проще тех, о которых мы будем говорить в дальнейшем. Однако первый геном всё-таки собрали; может быть, весь алгоритмический прогресс – это никому не нужный миф, и вполне хватило бы старых программ?
На таком уровне становится важной и цена алгоритмической стороны вопроса. Чтобы сборка геномов не занимала дольше и не стоила дороже, чем само их секвенирование, нужно разработать очень быстрые алгоритмы для решения задачи сборки. Об этом пойдет речь в следующей статье.
Очень важно проанализировать новые последовательности PRRSV в сопоставлении с широким справочным набором, представляющим ферму, систему и регион, а также последовательности имеющихся коммерческих вакцин (это позволит выявлять различие между полевыми и вакцинными штаммами).
Репродуктивно-Респираторный синдром свиней (PRRS) по-прежнему является, безусловно, болезнью связанной с самым большим экономическим ущербом в свиноводстве, и уровень его контроля далек от удовлетворительного. Лучшее и более полное представление о разновидностях PRRSV и мониторинг циркуляции новых штаммов в определенной области/стране/континенте, безусловно, поможет ветеринарам и производителям реализовать программы контроля и, возможно, эрадикации (искоренения). Для этого секвенирование PRRSV стало доступно по всему миру, начиная с конца 1990 'годов в основном в Северной Америке, Европе и Юго-Восточной Азии.
Геном PRRSV (см. рисунок 1) представляет одноцепочечную молекулу РНК, что делает его склонным "делать ошибки" (в виде генетической мутации) во время репликации в хозяине. Эта "тенденция к ошибкам" является причиной наличия различных prrsv штаммов, каждый из которых уникален в своей собственной генетической последовательности. Отвечают ли различия последовательности за разное (клинико-патологическое? иммунологическое?) поведение " - по-прежнему является предметом обсуждения среди практиков и исследователей.
Рис. 1. Геном вируса РРСС - одноцепочная молекула РНА.
Основы секвенирования PRRS
Вирусное секвенирование производится на материалах ПЦР из полевых образцов (сыворотки, ткани, оральные жидкости). Чтение нуклеотидов осуществляется обычно из некоторых фрагментов генома вирусной РНК (см. рисунок 2) в целевых регионах – ORFs (открытая рамка считывания), а затем сравнивающих процент гомологии путем филогенетических анализов, выполняемых применением соответствующего программного обеспечения. Результат этого процесса возвращает степень сходства (гомологии) между различными штаммами PRRSV. С помощью графической визуализации программного обеспечения, а также дендрограммы (или" филогенетическое дерево"), определяют родство (или отсутствие родства) со ссылкой на вирусную последовательность (см. рисунок 3).
Рис. 2. Вирусное секвенирование производится на ПЦР-продуктах, путем чтения нуклеотидов из некоторых фрагментов генома вирусной РНК в целевых регионах-ORF.
Рис. 3. Дендрограммы или филогенетическое дерево используются для графического представления степени сходства (гомологии) между различными штаммами к эталонной вирусной последовательности.
Геном PRRSV кодирует не менее дестяти ORF. Наиболее часто используемый для секвенирования – хотя они составляют только 4% и 3% всего генома соответственно - ORF5 (Кодировка негликозилированного белка Е) и ORF7 (кодирующий нуклеокапсид (N) белка). ORF5 представляет более переменную область, в то время как ORF7 представляет собой более постоянную область. Из-за этого та же степень вариации (т. е. 5% вариации), найденная в ORF7, более "драматична" – в плане генетической изменчивости-по сравнению с ORF5. Толкование сходства (т. е. вирусы связаны или нет) требует гораздо больше дополнительной информации, так как скорость генетических изменений может быть весьма вариабельной.
Чрезвычайно важно вести запись всех последовательностей, однозначно идентифицированных и аннотированных и тщательно зафиксировать дату, тип предприятия (ферма 1-2-3), движение животных, местоположение фермы (широта/Долгота GPS) и происхождение последовательности (Тип животного/ткань/образец). На сегодняшний день наш массив данных последовательностей PRRSV содержит более 1300 последовательностей ORF7, начиная с 2002 года. Для интерпретации и понимания различий еще более важно сопоставлять отдельные последовательности с клиническими случаями, характеризующимися количеством абортов у свиноматок и смертностью поросят перед отъёмом в типе 1 и уровень смертности в типах 2 и 3.
Практические вопросы
Часто задаваемые вопросы от ветеринаров и производственников:
- Представляют ли наблюдаемые генетические различия между последовательностями нормальную вариацию одноного штамма PRRSV в ферме / системе или они представляют собой несколько различных штаммов, присутствующих на ферме одновременно или за короткий промежуток времени?
- У меня сейчас" новая вспышка, вызвана новым штаммом или это рециркуляция?
Чтобы ответить на эти вопросы, мы должны договориться о принятой степени гомологии между двумя вирусными штаммами, собранными в течение определенного периода времени (12-24 месяцев?). Иными словами, сходство считается установленным при 97-98% гомологии последовательности или 2-3% разница. Это является общепринятым значением. Согласно моему опыту, довольно трудно увидеть изменение выше 2% в клинически стабильной закрытой популяции "(традиционный тип фермы с соответствующим движением животных), поскольку мы наблюдали получение" того же штамма " в течение периода до 3 лет в одном и том же клинически стабильном стаде. Напротив этого, каждый раз, когда мы замечали консистентную активность репродуктивно-респираторного синдрома свиней "нового" и филогенетически различных (90% гомологии или меньше) штамм восстанавливается. К сожалению, мы точно не знаем, являются ли эти большие различия, которые мы иногда наблюдаем, результатом внезапного изменения вируса/мутации (по моему личному мнению маловероятно) или внедрения нового штамма. Хорошо признан тот факт, что генетическое сходство / разнообразие никоим образом не предсказывает иммунологическое сходство (т. е. существование перекрестного иммунитета) и не позволяет предсказать внутреннеприсущей патогенности (не говорит о вирулентности определенного штамма).
Полностью расшифрованные последовательности генома, которые сегодня доступны (к сожалению, больше для научных целей, чем для повседневного использования в диагностике), безусловно, помогут ответить на этот вопрос.
Очень важно проанализировать новые последовательности PRRSV в сопоставлении с широким справочным набором, представляющим ферму, систему и регион, а также последовательности имеющихся коммерческих вакцин (это позволит провести различие между полевыми и вакцинными штаммами). На данный момент мы все еще используем набор программного обеспечения с открытым исходным кодом, управляемый университетом Падуи (Padova University), чтобы построить наши филогенетические деревья и сохранить их организованным в зависимости от движения свиней в нашей общей производственной системе. Мы могли бы также присоединится к двум другим "специальных компьютерных программ" (Биопортал университета Дэвиса Калифорнии и CLASSIFARM- PATH от IZSLER (Брешиа, Италия), что будет иметь гораздо больший набор последовательностей для сравнения. Это позволяет нам лучше понять PRRSV распространение в Италии и, возможно, в Евросоюзе.
Благодарность: Спасибо профессору Микеле Дриго (UNI-PD) за интересное обсуждение и рецензию этой публикации.
Исследователи из Public Health England опубликовали на BioRxiv протокол для метагеномного секвенирования РНК-вирусов из клинических образцов без амплификации или обогащения. Протокол протестирован на секвенаторах Oxford Nanopore MinIon и Illumina MiSeq.
Подготовила Елена Клещенко
Метагеномное секвенирование широко используется в исследовании инфекционных агентов, диагностике и эпидемиологии. Стивен Пуллен, руководитель проекта по геномике группы редких и новых человеческих патогенов в Public Health England (исполнительного органа департамента здравоохранения и соцобеспечения Великобритании), заявил, что протокол аналогичен стратегии метагеномного секвенирования для MinIon, описанной группой Чарльза Чиу (Калифорнийский университет в Сан-Франциско) в 2015 году. Авторы работы показали , что MinIon может идентифицировать патоген (вирус чикунгунья, лихорадки Эбола и гепатита С) в крови. Однако они исследовали всего несколько образцов с высокой вирусной нагрузкой, тогда как работа PHE была проведена на многих образцах с различными нагрузками. Как отмечает Пуллен, они стремились создать протокол, подходящий для полевой работы на месте вспышки заболевания, когда нет времени и условий для культивирования патогена.
Сотрудники PHE сфокусировались на РНК-вирусах лихорадки денге и чикунгунья, отчасти потому, что у них был доступ к образцам пациентов британской Лаборатории редких и импортных патогенов. Так, они исследовали 26 образцов, положительных по вирусам денге или чикунгунья. Одним из ключевых этапов протокола Пуллен назвал деградацию ДНК после экстракции нуклеиновых кислот, — удаление ДНК облегчает идентификацию РНК-вируса. После этого команда подготовила кДНК с использованием стратегии сиквенс-независимой амплификации (аналогичной той, что была описана командой Чиу), а затем выполнялись случайная обратная транскрипция и секвенирование.
Примечательно, что хотя секвенирование на Illumina давало больший процент ридов из вирусных геномов, секвенирование с 20-кратным покрытием на MinIon обеспечило аналогичное покрытие генома: например, даже в образце с вирусом чикунгунья, для которого получили самый низкий процент вирусных чтений (5% на MinIon и 22% на MiSeq), при 20-кратном покрытии с MinIon было просеквенировано более 89% генома.
В целом, сказал Пуллан, как MinIon, так и MiSeq позволяли идентифицировать вирус и получить последовательность большей части вирусного генома. Кроме того, исследователи определили в одном из образцов коинфекцию вирусами чикунгунья и денге. Хотя только 0,08% ридов MiSeq и 0,15% ридов от MinIon соответствовали геному вируса денге, 20-кратное секвенирование на MinIon охватило как первичный вирус чикунгунья, так и вирусы денге более чем на 99% и 95% соответственно.
Во время исследования Oxford Nanopore выпустил два новых комплекта для подготовки библиотек — комплект 1D 2 и быстрый комплект , — которые также испытали сотрудники PHE. Хотя при использовании обоих комплектов доля вирусных ридов снизилась, 1D 2 увеличил объем данных до 5 миллионов чтений (при 1,8 миллиона у 2D, т.е. секвенировании обеих нитей). Преимущество Rapid Sequencing Kit от Oxford Nanopore — ускоренная и упрощенная подготовка образца всего за 10 минут.
По словам Пуллена, команда планирует продолжить тестирование различных метагеномных протоколов, чтобы выяснить, какие технологии лучше подходят для тех или иных приложений. Сейчас они уделяют основное внимание протоколам для полевой работы, для отслеживания вспышек эпидемий в режиме реального времени, но также будет рассмотрен вопрос о разработке диагностического теста на вирусы денге или чикунгунья. Кроме того, группа участвует в проектах по разработке метагеномных диагностических анализов на грипп из респираторных образцов.
Liana E Kafetzopoulou et al. // Assessment of Metagenomic MinION and Illumina sequencing as an approach for the recovery of whole genome sequences of chikungunya and dengue viruses directly from clinical samples. // BioRxiv 2018 DOI: 10.1101/355560
Секвенирование ДНК в последние десятилетия превратилось из узкой области, которой занималось небольшое число ученых, в одну из самых стремительно развивающихся технологий. Рост производительности и падение стоимости даже опережают закон Мура, и, из-за большой конкуренции на рынке и огромного спроса, развитие и дальше будет идти высокими темпами. Кроме того, развитие секвенирования привело к такому же буму в биоинформатике и коренным образом изменило биологию, и, постепенно, также основательно меняет медицину.
По катом я подробнее рассказываю, как это делают.
Что такое ДНК
Для начала, чтобы понимать сам процесс, немного необходимой теории.
ДНК — это полимерная цепь, состоящая из мономеров четырех типов, называемых нуклеотидами, последовательность которых и кодирует информацию об организме. Иначе говоря, ДНК можно представить как текст, написанный четырехбуквенным алфавитом. ДНК — молекула, состоящая из двух цепочек, и, хотя, последовательность нуклеотидов у них разная, последовательность одной цепочки можно однозначно восстановить, если известна последовательность другой. Поэтому цепочки называют комплементарными. (англ. Complement – дополнение) Это свойство используется при копировании клетки, когда цепочки ДНК расплетаются, и, на каждой, как на матрице, синтезируется вторая, и каждая из двух дочерних клеток получает свою двуцепочечную ДНК. Вся последовательность ДНК организма называется геномом. Например, геном человека состоит из 46 хромосом.
Несмотря на большое количество разнообразных, как экспериментальных, так и устаревших методов, мейнстримовые коммерческие методы довольно похожи, и, чтобы не делать оговорки каждый раз, сразу скажу, что речь дальше будет идти именно об этих мейнстримовых методах.
Как это выглядит в общем
Перед описанием технологии секвенирования, для интуитивного понимания, проведу следующую аналогию: стопку одинаковых газет взрывают так, что они разлетаются на небольшие кусочки с отрывками текста, а, затем, каждый из этих кусочков читают и, из этих прочтений восстанавливают текст первоначальной газеты.
Чтобы секвенировать ДНК, сначала ее выделяют из исследуемого образца, затем режут на небольшие фрагменты случайным образом, фрагменты называются ридами. От каждого рида оставляют по одной цепочке, и на этой цепочке, как на матрице, синтезируют вторую, причем, тип каждого следующего присоединяющегося нуклеотида как-то детектируют. Таким образом, записывая последовательность присоединившихся нуклеотидов, восстанавливают их последовательность в каждом риде. Затем, из последовательностей ридов с помощью компьютерных программ реконструируют геном.
Важный момент. Суммарная длина ридов должна многократно превышать длину исследуемой ДНК. Делается это потому, что, когда ДНК выделяют из образца, и когда ее режут, часть ее теряется, так что никто не гарантирует, что каждый ее участок попадет хотя бы в один рид. Поэтому, чтобы каждый участок гарантированно был бы прочтен, ДНК берут с большим запасом. Кроме того, при секвенировании возможны ошибки, и, чтобы более надежно прочитать ДНК, каждый ее участок следует прочитать несколько раз.
ДНК разрезают на риды, которые читают, и из них восстанавливают первоначальную последовательность
Такая методика используется не от хорошей жизни. Она добавляет множество трудностей, и, если бы исследователи могли взять и прочитать за раз целую последовательность генома, то они были бы счастливы, однако, это на данный момент невозможно.
У этого есть 2 причины. Первая — это ошибки, происходящие при чтении каждого нуклеотида. Они постепенно накапливаются, и, каждый следующий нуклеотид читается хуже предыдущего, и, в какой-то момент качество чтения настолько снижается, что дальше продолжать процесс бессмысленно. У разных методов секвенирования длина рида, которы они могут хорошо прочитать, составляет порядка десятков или сотен нуклеотидов. Вторая заключается в том, что ДНК — это очень длинная молекула, и, при скрупулезном чтении каждой буквы друг за дружкой, секвенирование заняло бы неприлично много времени, а в данном случае этот процесс легко распараллеливается, и можно одновременно читать миллионы и миллиарды ридов.
Illumina
Такая схема в общих чертах описывает все популярные методики секвенирования. Различаются они лишь методами детекции присоединившихся нуклеотидов при синтезе, и методикой подготовки материала.
На сегодняшний день самым распространенным является метод, который используется в секвенаторах компании Illumina. В этом методе сначала множество различных ридов прикрепляется к стеклянной пластине. Затем, с каждого рида делают множество копий на поверхности пластины так, чтобы на каждом ее небольшом участке располагались лишь одинаковые копии. Это делается для того, чтобы при последующем секвенировании получать сигнал не от одиночной молекулы, а от группы одинаковых молекул, располагающихся рядом. Так и сигнал легче считывать, и надежность считывания увеличивается. Эти молекулы являются одноцепочечными ДНК, и на них в процессе секвенирования синтезируются комплементарные цепи. Реакцию синтеза проводят следующим образом: К началу каждой молекулы присоединяется по одному нуклеотиду. Этот нуклеотид химически блокирован так, что после его присоединения синтез дальше не идет. Кроме того, к нему присоединена метка, которая под действием лазера люминесцирует. Причем, для каждого типа нуклеотидов цвет люминесценции разный. После присоединения нуклеотида пластину освещают лазером и фотокамера фиксирует цвета, которыми люминесцирует пластина. После этого блокировку снимают, метку также снимают, и присоединяют таким же образом следующий нуклеотид. Последовательность световых сигналов на каждом участке пластины в компьютере переводится в последовательность нуклеотидов, и, на выходе получается файл, содержащий последовательности ридов.
Секвенирование по методу Illumina
1 — геномная ДНК 2 — разрезается на риды 3 — к ридам прикрепляются адаптеры, с помощью которых они приклеиваются на 4 — пластину 5 — размножение ридов на пластине 6 — засовывам в секвенатор и 7 — секвенируем
Сборка и аннотирование генома
Если геномы близких организмов раньше не секвенировались, то из ридов, затем, с помощью программ, пытаются собрать единую последовательность нуклеотидов. Риды частично перекрываются, и, с помощью этих перекрытий пытаются выстроить единую последовательность. Здесь есть множество моментов, которые существенно осложняют дело. Например, можно загрязнить образец, и программа будет пытаться выстроить одну последовательность из ДНК разных организмов. Секвенатор может ошибиться при чтении рида, или неверно связать два места в геноме, потому что они очень похожи. На самом деле, сложностей так много, что всех тут не перечислишь. И, некоторые из них настолько сложно поддаются устранению, что, даже геном человека, самый важный и широко исследуемый геном, все еще не секвенирован до конца.
риды и внизу последовательность генома, которая реконструирована на их основе
Если геном другого организма этого вида уже секвенировался, то его используют, для сборки. Так как геномы разных организмов одного вида различаются лишь незначительно, то для каждого рида находят место на секвенированном геноме, к которому он ближе всего, и на основе этого генома собирают новый.
Читайте также: