Что значит секвенирование генома

Как секвенируют ДНК

Секвенирование ДНК в последние десятилетия превратилось из узкой области, которой занималось небольшое число ученых, в одну из самых стремительно развивающихся технологий. Рост производительности и падение стоимости даже опережают закон Мура, и, из-за большой конкуренции на рынке и огромного спроса, развитие и дальше будет идти высокими темпами. Кроме того, развитие секвенирования привело к такому же буму в биоинформатике и коренным образом изменило биологию, и, постепенно, также основательно меняет медицину.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома

По катом я подробнее рассказываю, как это делают.

Что такое ДНК
Для начала, чтобы понимать сам процесс, немного необходимой теории.
ДНК — это полимерная цепь, состоящая из мономеров четырех типов, называемых нуклеотидами, последовательность которых и кодирует информацию об организме. Иначе говоря, ДНК можно представить как текст, написанный четырехбуквенным алфавитом. ДНК — молекула, состоящая из двух цепочек, и, хотя, последовательность нуклеотидов у них разная, последовательность одной цепочки можно однозначно восстановить, если известна последовательность другой. Поэтому цепочки называют комплементарными. (англ. Complement – дополнение) Это свойство используется при копировании клетки, когда цепочки ДНК расплетаются, и, на каждой, как на матрице, синтезируется вторая, и каждая из двух дочерних клеток получает свою двуцепочечную ДНК. Вся последовательность ДНК организма называется геномом. Например, геном человека состоит из 46 хромосом.

Несмотря на большое количество разнообразных, как экспериментальных, так и устаревших методов, мейнстримовые коммерческие методы довольно похожи, и, чтобы не делать оговорки каждый раз, сразу скажу, что речь дальше будет идти именно об этих мейнстримовых методах.

Как это выглядит в общем
Перед описанием технологии секвенирования, для интуитивного понимания, проведу следующую аналогию: стопку одинаковых газет взрывают так, что они разлетаются на небольшие кусочки с отрывками текста, а, затем, каждый из этих кусочков читают и, из этих прочтений восстанавливают текст первоначальной газеты.

Чтобы секвенировать ДНК, сначала ее выделяют из исследуемого образца, затем режут на небольшие фрагменты случайным образом, фрагменты называются ридами. От каждого рида оставляют по одной цепочке, и на этой цепочке, как на матрице, синтезируют вторую, причем, тип каждого следующего присоединяющегося нуклеотида как-то детектируют. Таким образом, записывая последовательность присоединившихся нуклеотидов, восстанавливают их последовательность в каждом риде. Затем, из последовательностей ридов с помощью компьютерных программ реконструируют геном.

Важный момент. Суммарная длина ридов должна многократно превышать длину исследуемой ДНК. Делается это потому, что, когда ДНК выделяют из образца, и когда ее режут, часть ее теряется, так что никто не гарантирует, что каждый ее участок попадет хотя бы в один рид. Поэтому, чтобы каждый участок гарантированно был бы прочтен, ДНК берут с большим запасом. Кроме того, при секвенировании возможны ошибки, и, чтобы более надежно прочитать ДНК, каждый ее участок следует прочитать несколько раз.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
ДНК разрезают на риды, которые читают, и из них восстанавливают первоначальную последовательность

Такая методика используется не от хорошей жизни. Она добавляет множество трудностей, и, если бы исследователи могли взять и прочитать за раз целую последовательность генома, то они были бы счастливы, однако, это на данный момент невозможно.
У этого есть 2 причины. Первая — это ошибки, происходящие при чтении каждого нуклеотида. Они постепенно накапливаются, и, каждый следующий нуклеотид читается хуже предыдущего, и, в какой-то момент качество чтения настолько снижается, что дальше продолжать процесс бессмысленно. У разных методов секвенирования длина рида, которы они могут хорошо прочитать, составляет порядка десятков или сотен нуклеотидов. Вторая заключается в том, что ДНК — это очень длинная молекула, и, при скрупулезном чтении каждой буквы друг за дружкой, секвенирование заняло бы неприлично много времени, а в данном случае этот процесс легко распараллеливается, и можно одновременно читать миллионы и миллиарды ридов.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома

Illumina
Такая схема в общих чертах описывает все популярные методики секвенирования. Различаются они лишь методами детекции присоединившихся нуклеотидов при синтезе, и методикой подготовки материала.

На сегодняшний день самым распространенным является метод, который используется в секвенаторах компании Illumina. В этом методе сначала множество различных ридов прикрепляется к стеклянной пластине. Затем, с каждого рида делают множество копий на поверхности пластины так, чтобы на каждом ее небольшом участке располагались лишь одинаковые копии. Это делается для того, чтобы при последующем секвенировании получать сигнал не от одиночной молекулы, а от группы одинаковых молекул, располагающихся рядом. Так и сигнал легче считывать, и надежность считывания увеличивается. Эти молекулы являются одноцепочечными ДНК, и на них в процессе секвенирования синтезируются комплементарные цепи. Реакцию синтеза проводят следующим образом: К началу каждой молекулы присоединяется по одному нуклеотиду. Этот нуклеотид химически блокирован так, что после его присоединения синтез дальше не идет. Кроме того, к нему присоединена метка, которая под действием лазера люминесцирует. Причем, для каждого типа нуклеотидов цвет люминесценции разный. После присоединения нуклеотида пластину освещают лазером и фотокамера фиксирует цвета, которыми люминесцирует пластина. После этого блокировку снимают, метку также снимают, и присоединяют таким же образом следующий нуклеотид. Последовательность световых сигналов на каждом участке пластины в компьютере переводится в последовательность нуклеотидов, и, на выходе получается файл, содержащий последовательности ридов.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
Секвенирование по методу Illumina
1 — геномная ДНК 2 — разрезается на риды 3 — к ридам прикрепляются адаптеры, с помощью которых они приклеиваются на 4 — пластину 5 — размножение ридов на пластине 6 — засовывам в секвенатор и 7 — секвенируем

Сборка и аннотирование генома
Если геномы близких организмов раньше не секвенировались, то из ридов, затем, с помощью программ, пытаются собрать единую последовательность нуклеотидов. Риды частично перекрываются, и, с помощью этих перекрытий пытаются выстроить единую последовательность. Здесь есть множество моментов, которые существенно осложняют дело. Например, можно загрязнить образец, и программа будет пытаться выстроить одну последовательность из ДНК разных организмов. Секвенатор может ошибиться при чтении рида, или неверно связать два места в геноме, потому что они очень похожи. На самом деле, сложностей так много, что всех тут не перечислишь. И, некоторые из них настолько сложно поддаются устранению, что, даже геном человека, самый важный и широко исследуемый геном, все еще не секвенирован до конца.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
риды и внизу последовательность генома, которая реконструирована на их основе

Когда последовательность генома собрана, то нужно понять, что она значит. На ней находят участки, которые похожи на гены. Делается это следующим образом: В начале и конце генов находятся определенные «метки» из нуклеотидов, и, если на ДНК находят такие последовательности на таком растоянии, что между ними может уместиться ген, то такое место заносится в список потенциальных генов. Затем, этого претендента сравнивают с базой данных уже известных генов других организмов, и, если в ней находят ген, достаточно сильно похожий на этот участок, то ему присваивают функцию этого гена.

Если геном другого организма этого вида уже секвенировался, то его используют, для сборки. Так как геномы разных организмов одного вида различаются лишь незначительно, то для каждого рида находят место на секвенированном геноме, к которому он ближе всего, и на основе этого генома собирают новый.

Источник

Секвенирование геномов для «чайников»

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование геномаГеномика: постановка задачи и методы секвенирования

Сергей Николенко, кандидат физико-математических наук, старший научный сотрудник лаборатории вычислительной биологии Санкт-Петербургского Академического Университета в серии статей говорит о некоторых задачах биоинформатики, связанных со сборкой и анализом геномов, делая акцент на математической, комбинаторной постановке задачи. В данном, вводном, тексте речь идет о том, как выглядят входные данные для сборки геномов и как их получают.

Как выглядит молекула ДНК?

Начнем с того, как выглядит молекула ДНК. Молекулы полимеров характеризуются первичной структурой, под которой понимается просто состав молекулы (в данном случае – последовательность букв A, C, G и T, которые и составляют геном), вторичной структурой, т.е. тем, какие именно химические связи устанавливаются между этими компонентами и какие в результате получаются базовые пространственные структуры (в данном случае – двойная спираль), и третичной структурой, т.е. тем, как вторичная структура «уложена» в пространстве. Вторичная структура ДНК представляет собой двойную спираль, состоящую из четырёх разных нуклеотидов.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
Рисунок из Википедии

Нуклеотиды обозначаются по содержащимся в них азотистым основаниям: аденину (A), цитозину (C), гуанину (G) и тимину (T) (есть ещё урацил, который в РНК заменяет тимин), и в дальнейшем мы всегда будем пользоваться этими буквами. В двойной спирали эти нуклеотиды связаны друг с другом водородными связями, и связь устанавливается по принципу комплементарности: если в одной нити ДНК стоит A, то в комплементарной нити будет T, а если в одной нити C, то в другой будет G. Именно это позволяет относительно просто проводить репликацию (копирование) ДНК, например, при делении клетки: для этого достаточно просто разорвать водородные связи, разделив двойную спираль на нити, после чего парная нить для каждого «потомка» автоматически соберётся правильно. Важно понять, что ДНК – это две копии одного и того же «текста» из четырёх «букв»; «буквы» в копиях не идентичны, но однозначно соответствуют друг другу. Например:

Было бы, конечно, удобно, если бы нам удалось аккуратно «вытянуть» одну нить ДНК и спокойно, нуклеотид за нуклеотидом, «прочесть» эту нить от начала до конца. При таком, идеальном, методе секвенирования (чтения ДНК) никаких хитрых алгоритмов не понадобилось бы. К сожалению, на данном этапе такое невозможно, и приходится довольствоваться результатами того секвенирования, которое есть.

Что такое секвенирование?

Секвенирование (sequencing) – это общее название методов, которые позволяют установить последовательность нуклеотидов в молекуле ДНК. В настоящее время нет ни одного метода секвенирования, который бы работал для молекулы ДНК целиком; все они устроены так: сначала готовится большое число небольших участков ДНК (клонируется молекула ДНК многократно и «разрезается» в случайных местах), а потом читается каждый участок по отдельности.

Клонирование происходит либо просто выращиванием клеток в чашке Петри, либо (в случаях, когда это было бы слишком медленно или по каким-то причинам не получилось бы) при помощи так называемой полимеразной цепной реакции. В кратком и неточном изложении работает она примерно так: сначала ДНК денатурируют, т.е. разрушают водородные связи, получая отдельные нити. Затем к ДНК присоединяют так называемые праймеры; это короткие участки ДНК, к которым может присоединиться ДНК-полимераза – соединение, которое, собственно, и занимается копированием (репликацией) нити ДНК.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
Рисунок из Википедии

На следующем этапе полимераза копирует ДНК, после чего процесс можно повторять: после новой денатурации отдельных нитей будет уже вдвое больше, на третьем цикле – вчетверо, и так далее.

Все эти эффекты достигаются в основном с помощью изменений температуры смеси из ДНК, праймеров и полимеразы; для наших целей важно, что это достаточно точный процесс, и ошибки в нём редки, а на выходе получается большое число копий участков одной и той же ДНК. Разные методы секвенирования отличаются друг от друга не методами клонирования, а тем, как потом прочесть получившийся «суп» из многочисленных копий одной и той же ДНК.

Секвенирование по Сэнгеру

Первым методом секвенирования, который учёные сумели применить для обработки целых геномов (в том числе генома человека), стало секвенирование по Сэнгеру (Sanger sequencing). Смысл таков: участок ДНК клонируется, после чего полученная смесь делится на четыре части. Каждая часть помещается в активную среду, где присутствуют:

Собственно, процесс практически идентичен клонированию ДНК, с которым мы встретились в предыдущем разделе. Разница только в том, что теперь в один из нуклеотидов подмешаны «ложные» нуклеотиды; они могут образовать точно такую же водородную связь, но не могут продолжить свою нить дальше.

В результате в каждой части образуется большое число копий префиксов исследуемого участка ДНК, которые имеют разную длину, но всегда заканчиваются на одну и ту же букву – в зависимости от того, когда повезёт взять в процесс клонирования «ложный» нуклеотид. Например, в пробирке, где все последовательности заканчиваются на Т, из нашего примера выше получилась бы смесь из следующих префиксов:

ATGCAGAACAGACGATCAGCGACACTTTA (образец)
AT
ATGCAGAACAGACGAT
ATGCAGAACAGACGATCAGCGACACT
ATGCAGAACAGACGATCAGCGACACTT
ATGCAGAACAGACGATCAGCGACACTTT

Как теперь, получив такую смесь, «прочесть» геномную последовательность? Заметим, что в сумме в четырёх пробирках мы получили все возможные префиксы интересующего нас участка. Это значит, что если мы сможем просто измерить длину каждого префикса (точнее говоря, даже не измерить, а просто упорядочить, узнав, кто из них длиннее), то мы сможем узнать и последовательность тоже. Предположим, что мы увидели, что в пробирках лежат префиксы вот такой длины (по порядку, от самого лёгкого 1 до самого тяжёлого 10):A C G T
1, 5, 7, 8, 10 4, 9 3, 6 2

Очевидно, что эта последовательность начинается с А (т.к. самый лёгкий префикс, из одной буквы, заканчивается на A); дальше идёт C, дальше опять A, и так далее. В результате можно прочесть исходный участок: ATGCAGAACA.

А чтобы измерить длину, можно, например, измерить массу всех префиксов во всех пробирках. Чтобы измерить массу, можно, например (разные секвенаторы использовали разные процедуры, но суть от этого не меняется), ионизировать эти молекулы и отправить их наперегонки к заряженному электроду в специальном геле, который создаст трение и замедлит продвижение молекул – этот метод называется электрофорезом. При одинаковом заряде более тяжёлые молекулы будут двигаться медленнее, и в результате получится примерно такая картинка.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
Рисунок из Википедии

Видно, что (в идеальном случае) можно просто прочесть последовательность нуклеотидов от самого лёгкого префикса (т.е. префикса из одной буквы) к самому тяжёлому.

Результаты и ошибки сэнгеровского секвенирования

На выходе из сэнгеровского секвенатора получаются короткие участки ДНК, так называемые риды (reads). Для биоинформатики принципиальны две вещи: во-первых, какой длины получаются риды, во-вторых, какие в них могут быть ошибки и как часто (разумеется, на свете нет ничего идеального).

Сэнгеровские риды по этим критериям очень хороши: получаются риды длиной около тысячи нуклеотидов, причём качество начинает заметно падать только после 700-800 нуклеотидов. Сам процесс секвенирования по Сэнгеру, с которым мы познакомились в предыдущем разделе, предопределяет и эффект падения качества (труднее отличить молекулу массой 700 от молекулы массой 701, чем массу 5 от массы 6), и другой неприятный эффект – если в геноме встречается длинная последовательность из одной и той же буквы (…AAAAAAAA…), трудно бывает точно определить, какой она длины – все промежуточные массы попадут в одну и ту же пробирку, некоторые из них могут не встретиться, некоторые слиться друг с другом и т.д. Но всё же сэнгеровское секвенирование даёт отличные результаты с достаточно длинными ридами, которые потом относительно легко собирать. О том, как это делается, мы будем говорить в последующих текстах.

Именно при помощи сэнгеровского секвенирования был впервые расшифрован геном человека. Секвенирование по Сэнгеру применяется и сегодня, но его всё активнее вытесняют другие методы, и применяется оно всё реже. Кому же и почему оно уступило свои позиции?

Секвенаторы второго поколения: Illumina

Современные секвенаторы – это так называемые секвенаторы второго поколения (SGS, second generation sequencing). В них участки ДНК по-прежнему многократно клонируются, но процесс чтения устроен не так, как у Сэнгера. Существует много разных методов, отличающихся довольно существенно, поэтому мы рассмотрим только один из них, один из самых популярных на сегодня – секвенирование по методу Solexa (ныне Illumina; в смене названия не нужно искать глубокий смысл, просто одна компания купила другую).

Процесс секвенирования Illumina проиллюстрирован на рисунке; кроме того, можно посмотреть один из нескольких существующих видеороликов с анимацией этого процесса – в данном случае, действительно, лучше один раз увидеть, чем сто раз прочесть текст. Однако краткие комментарии тоже пригодятся; вот как происходит процесс секвенирования по методу Illumina.

В результате на каждом цикле мы прочитываем одновременно очень большое число нуклеотидов из разных последовательностей. Но за это приходится платить тем, что участки ДНК, которые мы можем прочесть, оказываются гораздо короче, чем в случае секвенирования по Сэнгеру – риды Illumina обычно получаются длиной около 100 нуклеотидов.

Парные риды и постановка задачи

Есть ещё одна важная деталь. Участки ДНК «присасываются» к подложке обоими концами, причём мы можем узнать, какие последовательности соответствуют одному и тому же участку. Это значит, что в реальности мы читаем один и тот же участок, длина которого нам приблизительно известна, сразу с двух сторон. В результате данные получаются примерно такого вида:

причём расстояние между известными строчками (число вопросительных знаков) известно не совсем точно. В зависимости от технологии, можно получить как очень длинные неизвестные фрагменты (около 1000 нуклеотидов), «обрамлённые» двумя ридами длины 100, так и короткие фрагменты, в которых неизвестны буквально два-три десятка нуклеотидов между ридами. И те, и другие могут очень помочь в сборке, и об этом мы тоже будем говорить в следующих сериях.

Итак, теперь мы можем формально поставить задачу сборки геномов. Она звучит так: по большому числу подстрок небольшой длины восстановить исходную длинную строку в алфавите из букв A, C, G, T. В случае секвенирования по методу Illumina – по большому числу пар коротких подстрок, разделённых в исходной строке приблизительно известным расстоянием. Поставив эту задачу, мы можем забыть про биологию, химию и медицину – перед нами чисто алгоритмическая задача. Однако, прежде чем перейти к математике, сделаем ещё несколько замечаний.

Ошибки и показатели качества в секвенаторах второго поколения

Как мы уже знаем, секвенирование всегда содержит ошибки. В секвенаторах Illumina и аналогичных ошибки, как правило, происходят на фазе, когда нужно распознать помеченные нуклеотиды, т.е. понять, каким цветом и с какой силой светятся кластеры из многократно клонированных участков ДНК. На рисунке – типичный пример такой фотографии, порождённой секвенатором Illumina.

Что значит секвенирование генома. Смотреть фото Что значит секвенирование генома. Смотреть картинку Что значит секвенирование генома. Картинка про Что значит секвенирование генома. Фото Что значит секвенирование генома
Рисунок с сайта medicine.yale.edu

Проблема здесь заключается в том, что из-за неидеальности остальных этапов процесса кластеры никогда не светятся только одним цветом; это всегда смесь всех четырёх цветов с той или иной интенсивностью. Нужно выделить наиболее интенсивную компоненту и оценить, насколько вероятна ошибка в этой букве; эта задача называется base calling (распознавание нуклеотидов). Base calling – это целая наука, в подробности которой мы сейчас вдаваться не будем.

Для нас сейчас важно, что в результате каждому нуклеотиду каждого рида секвенатор ставит в соответствие вероятность того, что этот нуклеотид был распознан правильно. Эти вероятности тоже можно использовать при сборке, и секвенаторы выдают их вместе с собственно ридами.

В итоге типичный рид в так называемом fastq-формате, стандартном для секвенаторов второго поколения, выглядит примерно так:

@EAS20_8_6_1_3_25/1
GCAAAAAACTTACCCCGGAACAGGCCGAGCAGATCAAAACGCTACTGCAATACAGACCATCAAGCACCAACTCCCNNNCGTAGNNNNNNTATGTTNNNNG
+EAS20_8_6_1_3_25/1
HHHHHHHGHHHHHHHHHHHHHHHHHHHHEHHHHHHHHEGHHHHGHHGHEFD?A=A&FFBB>&::===@&@E@E>A#########################

Первая и третья строки содержат имя рида; вторая строка – сама последовательность нуклеотидов. Обратим внимание, что среди букв A, C, G, T встречаются и буквы N – это значит, что секвенатор не смог однозначно определить, какой здесь был нуклеотид, и сдался. А четвёртая строка кодирует, в логарифмическом масштабе, вероятности того, что тот или иной нуклеотид распознан правильно; например, H здесь соответствует вероятности ошибки около одной десятитысячной. Как правило, качество ухудшается к концу рида; в нашем примере, как видите, хвост рида и вовсе не удалось сколь-нибудь надёжно прочитать.

Другие методы секвенирования

Хотя мы подробнее всего рассмотрели секвенатор Illumina (Solexa), на самом деле на этом методе свет клином не сошёлся. Есть и другие секвенаторы второго поколения, с другими свойствами.

В секвенировании лигированием (sequencing by ligation) на фазе, когда уже нужно распознавать нуклеотиды, используют не ДНК-полимеразу и процесс репликации, а специальные короткие «зонды», которые присоединяются к комплементарным нуклеотидам, фиксируются, затем вымываются, и процесс повторяется снова. Так устроен секвенатор SOLiD от Applied Biosystems.

Пиросеквенирование (pyrosequencing) основано на хемилюминесцентных сигналах, которые подают специально модифицированные нуклеотиды, когда соединяются с комплементарным нуклеотидом в прочитываемой нити ДНК; на этом принципе работает, например, секвенатор 454 от 454 Life Sciences.

Принцип работы секвенатора PacBio (от Pacific Biosciences) очень похож на принцип работы Illumina, но у него по-другому устроен метод детектирования – специальные «решётки» позволяют уловить сигналы от отдельных молекул (метод получил название SMRT, single molecule real time sequencing). Это позволяет ускорить процесс, уместить больше ридов на одной подложке (нужно меньше клонировать ДНК, не нужно выращивать большие кластеры) и существенно увеличить длину надёжно прочитываемых ридов.

Недавно появившийся метод ионного полупроводникового секвенирования (на нём основан секвенатор IonTorrent) вместо всего этого просто детектирует соединения (ионы), которые выделяются при присоединении нового нуклеотида к нити ДНК. Это позволяет радикально сократить время и стоимость получаемых ридов, хотя процент ошибок становится больше, и больше становится ошибок в фрагментах из повторяющейся одной буквы.

Человеческая мысль не стоит на месте: методы секвенирования постоянно улучшаются. Однако практически все современные методы выдают относительно короткие риды, от 100 до 400 нуклеотидов; в этом цикле мы будем в основном говорить о том, как собирать именно короткие риды.

Sanger или Illumina?

Человеческий геном был впервые собран на сэнгеровских секвенаторах, причём алгоритмическая сторона того проекта была проработана гораздо меньше, чем сейчас, десять лет спустя. Алгоритмы, которыми собирали первый человеческий геном, значительно проще тех, о которых мы будем говорить в дальнейшем. Однако первый геном всё-таки собрали; может быть, весь алгоритмический прогресс – это никому не нужный миф, и вполне хватило бы старых программ?

Невероятно, но факт: «старые» секвенаторы (первого поколения, сэнгеровские) выдают значительно более подходящие для сборки данные, чем «новые» (второго поколения). Это в основном выражается в длине ридов (reads), тех участков ДНК, которые удаётся последовательно прочесть, и которые, собственно, и нужно собрать в одну большую строчку. Секвенаторы первого поколения выдавали риды длиной более пятисот нуклеотидов, обычно около тысячи. Современные секвенаторы выдают пары ридов, каждый из которых имеет длину около ста нуклеотидов.

На таком уровне становится важной и цена алгоритмической стороны вопроса. Чтобы сборка геномов не занимала дольше и не стоила дороже, чем само их секвенирование, нужно разработать очень быстрые алгоритмы для решения задачи сборки. Об этом пойдет речь в следующей статье.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *