Articles

Shotgun sequencing

HistoryEdit

Whole genome shotgun sequencing voor kleine (4000 tot 7000 – base-pair) genomen werd voor het eerst voorgesteld in 1979. Het eerste genoom dat door Jachtgeweer wordt gerangschikt die was dat van het virus van het bloemkoolmozaïek, gepubliceerd in 1981.

Paired-end sequencingdit

bredere toepassing profiteerde van pairwise end sequencing, in de volksmond bekend als double-barrel shotgun sequencing. Aangezien het rangschikken van projecten op langere en ingewikkeldere opeenvolgingen van DNA begon te nemen, begonnen de veelvoudige groepen zich te realiseren dat nuttige informatie door het rangschikken van beide einden van een fragment van DNA kon worden verkregen. Hoewel het rangschikken van beide einden van het zelfde fragment en het houden van spoor van de in paren gerangschikte gegevens omslachtiger was dan het rangschikken van één enkel eind van twee verschillende fragmenten, was de kennis dat de twee opeenvolgingen in tegenovergestelde richtingen werden georiënteerd en ongeveer de lengte van een fragment apart van elkaar waren waardevol in het reconstrueren van de opeenvolging van het originele doelfragment.

geschiedenis. De eerste gepubliceerde beschrijving van het gebruik van gepaarde einden was in 1990 als onderdeel van het rangschikken van de menselijke hgprt-locus, hoewel het gebruik van gepaarde einden beperkt was tot het sluiten van gaten na de toepassing van een traditionele shotgun sequencing benadering. De eerste theoretische beschrijving van een zuivere pairwise end sequencing strategie, uitgaande van fragmenten van constante lengte, was in 1991. Op het moment, was er communautaire consensus dat de optimale fragmentlengte voor het paarsgewijs rangschikken van het eind drie keer de opeenvolging gelezen lengte zou zijn. In 1995 Roach et al. introduceerde de innovatie van het gebruiken van fragmenten van variërende grootte, en toonde aan dat een zuivere paarsgewijs eind-rangschikkende strategie op grote doelstellingen mogelijk zou zijn. De strategie werd later goedgekeurd door het Instituut voor Genomic onderzoek (TIGR) om het genoom van de bacterie Haemophilus influenzae in 1995 te rangschikken, en dan door Celera Genomics om het genoom van Drosophila melanogaster (fruitvlieg) in 2000, en later het menselijke genoom te rangschikken.

ApproachEdit

om de strategie toe te passen, wordt een DNA-streng met hoog molecuulgewicht geknipt in willekeurige fragmenten, op maat geselecteerd (meestal 2, 10, 50 en 150 kb), en gekloond in een geschikte vector. De klonen worden dan gesequenced van beide einden gebruikend de methode van de kettingbeëindiging die twee korte opeenvolgingen opleveren. Elke reeks wordt een end-read of read 1 en read 2 genoemd en twee reads van dezelfde kloon worden partnerparen genoemd. Aangezien de keten beëindiging methode meestal alleen kan produceren leest tussen 500 en 1000 basen lang, in alle behalve de kleinste klonen, paren paren zelden overlappen.

AssemblyEdit

de oorspronkelijke sequentie wordt gereconstrueerd uit de reads met behulp van sequence assembly software. Ten eerste worden overlappende reads verzameld in langere samengestelde opeenvolgingen die contigs worden genoemd. Contigs kunnen aan elkaar worden gekoppeld in steigers door het volgen van verbindingen tussen partner paren. De afstand tussen contigs kan worden afgeleid uit de mate paar posities als de gemiddelde fragment lengte van de bibliotheek bekend is en een smal venster van de afwijking heeft. Afhankelijk van de grootte van de kloof tussen contigs, kunnen verschillende technieken worden gebruikt om de opeenvolging in de hiaten te vinden. Als het hiaat klein is (5-20kb) dan wordt het gebruik van polymerasekettingreactie (PCR) vereist om het gebied te vergroten, gevolgd door te rangschikken. Als de kloof groot is (>20kb) dan wordt het grote fragment gekloond in speciale vectoren zoals bacteriële kunstmatige chromosomen (BAC), gevolgd door sequencing van de vector.

Pro ‘ s en consEdit

voorstanders van deze benadering beweren dat het mogelijk is om het hele genoom in één keer te sequenceren met behulp van grote series sequencers, waardoor het hele proces veel efficiënter is dan meer traditionele benaderingen. Tegenstanders beweren dat hoewel de techniek snel opeenvolgingen grote gebieden van DNA, zijn capaciteit om deze gebieden correct te verbinden verdacht is, in het bijzonder voor genomen met het herhalen van gebieden. Naarmate sequence assembly programma ‘ s geavanceerder worden en rekenkracht goedkoper wordt, kan het mogelijk zijn om deze beperking te overwinnen.

Coveragedit

hoofdartikel: Coverage (genetica)

Coverage (leesdiepte of diepte) is het gemiddelde aantal reads dat een bepaald nucleotide in de gereconstrueerde sequentie vertegenwoordigt. Het kan worden berekend uit de lengte van het oorspronkelijke genoom (G), het aantal reads(N) en de gemiddelde leeslengte(L) als N × L / G {\displaystyle N\times L/G}

n\times L/G

. Bijvoorbeeld, zal een hypothetisch genoom met 2000 basisparen gereconstrueerd van 8 leest met een gemiddelde lengte van 500 nucleotiden 2x redundantie hebben. Deze parameter laat men ook toe om andere hoeveelheden, zoals het percentage van het genoom te schatten dat door leest wordt behandeld (soms ook genoemd dekking). Een hoge dekking in Jachtgeweer het rangschikken wordt gewenst omdat het fouten in basis het roepen en assemblage kan overwinnen. Het onderwerp van de theorie van het rangschikken van DNA behandelt de relaties van dergelijke hoeveelheden.

soms wordt een onderscheid gemaakt tussen sequentiedekking en fysieke dekking. Sequence coverage is het gemiddelde aantal keren dat een base wordt gelezen (zoals hierboven beschreven). Fysieke dekking is het gemiddelde aantal keren dat een base wordt gelezen of overspannen door mate gepaarde leest.