Articles

Séquençage par fusil de chasse

HistoirEdit

Le séquençage par fusil de chasse du génome entier pour de petits génomes (de 4000 à 7000 paires de bases) a été proposé pour la première fois en 1979. Le premier génome séquencé par séquençage au fusil de chasse était celui du virus de la mosaïque du chou-fleur, publié en 1981.

Séquençage par paires

Une application plus large a bénéficié du séquençage par paires, connu familièrement sous le nom de séquençage de fusil de chasse à double canon. Alors que les projets de séquençage commençaient à prendre en charge des séquences d’ADN plus longues et plus compliquées, plusieurs groupes ont commencé à réaliser que des informations utiles pouvaient être obtenues en séquençant les deux extrémités d’un fragment d’ADN. Bien que le séquençage des deux extrémités du même fragment et le suivi des données appariées soient plus fastidieux que le séquençage d’une seule extrémité de deux fragments distincts, la connaissance que les deux séquences étaient orientées dans des directions opposées et étaient à peu près de la longueur d’un fragment l’une de l’autre était précieuse pour reconstruire la séquence du fragment cible d’origine.

Historique. La première description publiée de l’utilisation d’extrémités appariées date de 1990 dans le cadre du séquençage du locus HGPRT humain, bien que l’utilisation d’extrémités appariées se limite à combler les lacunes après l’application d’une approche traditionnelle de séquençage par fusil de chasse. La première description théorique d’une stratégie de séquençage pur par paires, en supposant des fragments de longueur constante, date de 1991. À l’époque, il y avait un consensus de la communauté sur le fait que la longueur de fragment optimale pour le séquençage final par paires serait trois fois la longueur de lecture de la séquence. En 1995, Roach et coll. a introduit l’innovation consistant à utiliser des fragments de tailles variables et a démontré qu’une stratégie de séquençage final pur par paires serait possible sur de grandes cibles. La stratégie a ensuite été adoptée par l’Institute for Genomic Research (TIGR) pour séquencer le génome de la bactérie Haemophilus influenzae en 1995, puis par Celera Genomics pour séquencer le génome de la Drosophila melanogaster (mouche des fruits) en 2000, puis le génome humain.

Approchedit

Pour appliquer la stratégie, un brin d’ADN de poids moléculaire élevé est cisaillé en fragments aléatoires, sélectionnés en taille (généralement 2, 10, 50 et 150 kb) et clonés dans un vecteur approprié. Les clones sont ensuite séquencés des deux extrémités en utilisant la méthode de terminaison de chaîne donnant deux courtes séquences. Chaque séquence est appelée lecture de fin ou lecture 1 et lecture 2 et deux lectures d’un même clone sont appelées paires de partenaires. Étant donné que la méthode de terminaison de chaîne ne peut généralement produire que des lectures entre 500 et 1000 bases de long, dans tous les clones sauf les plus petits, les paires de partenaires se chevauchent rarement.

AssemblyEdit

La séquence d’origine est reconstruite à partir des lectures à l’aide d’un logiciel d’assemblage de séquences. Tout d’abord, les lectures qui se chevauchent sont collectées en séquences composites plus longues appelées contigs. Les contigs peuvent être reliés entre eux en échafaudages en suivant les connexions entre les paires de partenaires. La distance entre les contigs peut être déduite des positions des paires de partenaires si la longueur moyenne des fragments de la bibliothèque est connue et présente une fenêtre de déviation étroite. Selon la taille de l’espace entre les contigs, différentes techniques peuvent être utilisées pour trouver la séquence dans les espaces. Si l’écart est faible (5 à 20 ko), l’utilisation de la réaction en chaîne par polymérase (PCR) pour amplifier la région est nécessaire, suivie d’un séquençage. Si l’écart est important (> 20kb), le gros fragment est cloné dans des vecteurs spéciaux tels que des chromosomes artificiels bactériens (BAC) suivis d’un séquençage du vecteur.

Avantages et consEdit

Les partisans de cette approche soutiennent qu’il est possible de séquencer le génome entier à la fois en utilisant de grands réseaux de séquenceurs, ce qui rend l’ensemble du processus beaucoup plus efficace que les approches plus traditionnelles. Les détracteurs soutiennent que bien que la technique séquestre rapidement de grandes régions d’ADN, sa capacité à relier correctement ces régions est suspecte, en particulier pour les génomes avec des régions répétitives. À mesure que les programmes d’assemblage de séquences deviennent plus sophistiqués et que la puissance de calcul devient moins chère, il peut être possible de surmonter cette limitation.

CoverageEdit

Article principal: Couverture (génétique)

La couverture (profondeur de lecture ou profondeur) est le nombre moyen de lectures représentant un nucléotide donné dans la séquence reconstruite. Il peut être calculé à partir de la longueur du génome d’origine (G), du nombre de lectures (N) et de la longueur moyenne de lecture (L) en N × L/G {\displaystyle N\fois L/G}

N\fois L/G

. Par exemple, un génome hypothétique avec 2 000 paires de bases reconstruites à partir de 8 lectures d’une longueur moyenne de 500 nucléotides aura une redondance 2x. Ce paramètre permet également d’estimer d’autres quantités, comme le pourcentage du génome couvert par des lectures (parfois aussi appelé couverture). Une couverture élevée dans le séquençage du fusil de chasse est souhaitée car elle peut surmonter les erreurs d’appel et d’assemblage de la base. Le sujet de la théorie du séquençage de l’ADN aborde les relations de telles quantités.

Parfois, une distinction est faite entre la couverture de séquence et la couverture physique. La couverture de séquence est le nombre moyen de fois qu’une base est lue (comme décrit ci-dessus). La couverture physique est le nombre moyen de fois qu’une base est lue ou étendue par des lectures appariées de mate.