Shotgun sekventering
Historieredit
helgenom shotgun sekventering for små (4000 – til 7000-base-par) genomer blev først foreslået i 1979. Det første genom sekventeret af haglgeværsekventering var blomkålmosaikvirus, der blev offentliggjort i 1981.
parret-ende sekventeringredit
bredere anvendelse draget fordel af parvis ende sekventering, kendt i daglig tale som dobbelt-tønde haglgevær sekventering. Da sekventeringsprojekter begyndte at påtage sig længere og mere komplicerede DNA-sekvenser, begyndte flere grupper at indse, at nyttig information kunne opnås ved sekventering af begge ender af et fragment af DNA. Selvom sekventering af begge ender af det samme fragment og at holde styr på de parrede data var mere besværligt end sekventering af en enkelt ende af to forskellige fragmenter, var viden om, at de to sekvenser var orienteret i modsatte retninger og var omkring længden af et fragment bortset fra hinanden, værdifuld til rekonstruktion af sekvensen af det originale målfragment.
historie. Den første offentliggjorte beskrivelse af brugen af parrede ender var i 1990 som en del af sekventeringen af det humane hgprt-locus, skønt brugen af parrede ender var begrænset til at lukke huller efter anvendelsen af en traditionel haglgeværsekventering tilgang. Den første teoretiske beskrivelse af en ren parvis slutsekventeringsstrategi, forudsat fragmenter af konstant længde, var i 1991. På det tidspunkt var der enighed i samfundet om, at den optimale fragmentlængde til parvis slutsekventering ville være tre gange sekvenslængden. I 1995 Roach et al. introducerede innovationen ved at bruge fragmenter i forskellige størrelser og demonstrerede, at en ren parvis slutsekventeringsstrategi ville være mulig på store mål. Strategien blev efterfølgende vedtaget af Institute for Genomic Research (TIGR) for at sekvensere genomet af bakterien Haemophilus influensae i 1995 og derefter af Celera Genomics for at sekvensere Drosophila melanogaster (frugtflue) genom i 2000 og derefter det humane genom.
ApproachEdit
for at anvende strategien forskydes en DNA-streng med høj molekylvægt i tilfældige fragmenter, størrelsesvalgt (normalt 2, 10, 50 og 150 kb) og klones til en passende vektor. Klonerne sekventeres derefter fra begge ender ved hjælp af kædetermineringsmetoden, hvilket giver to korte sekvenser. Hver sekvens kaldes en ende-læse eller læse 1 og læse 2 og to læser fra den samme klon kaldes mate par. Da kædetermineringsmetoden normalt kun kan producere læsninger mellem 500 og 1000 baser lange, i alle undtagen de mindste kloner, vil Parpar sjældent overlappe hinanden.
AssemblyEdit
den oprindelige sekvens rekonstrueres fra aflæsningerne ved hjælp af sekvensmonteringsprogrammer. For det første samles overlappende læsninger i længere sammensatte sekvenser kendt som contigs. Contigs kan knyttes sammen til stilladser ved at følge forbindelser mellem kompispar. Afstanden mellem contigs kan udledes af mate-parpositionerne, hvis bibliotekets gennemsnitlige fragmentlængde er kendt og har et smalt afvigelsesvindue. Afhængig af størrelsen på afstanden mellem contigs kan forskellige teknikker bruges til at finde sekvensen i hullerne. Hvis afstanden er lille (5-20kb), er det nødvendigt at anvende polymerasekædereaktion (PCR) til at amplificere regionen efterfulgt af sekventering. Hvis afstanden er stor (>20 KB) klones det store fragment i specielle vektorer, såsom bakterielle kunstige kromosomer (BAC) efterfulgt af sekventering af vektoren.
fordele og ulemper
Proponenter af denne tilgang hævder, at det er muligt at sekvensere hele genomet på en gang ved hjælp af store arrays af sekvensere, hvilket gør hele processen meget mere effektiv end mere traditionelle tilgange. Kritikere hævder, at selv om teknikken hurtigt sekvenser store regioner af DNA, er dens evne til korrekt at forbinde disse regioner mistænkt, især for genomer med gentagne regioner. Efterhånden som sekvenssamlingsprogrammer bliver mere sofistikerede og computerkraft bliver billigere, kan det være muligt at overvinde denne begrænsning.
CoverageEdit
dækning (læsedybde eller dybde) er det gennemsnitlige antal læsninger, der repræsenterer et givet nukleotid i den rekonstruerede sekvens. Det kan beregnes ud fra længden af det originale genom (G), antallet af læsninger(N) og den gennemsnitlige læselængde(L) som N L / g {\displaystyle N\times L/G}
. For eksempel vil et hypotetisk genom med 2.000 basepar rekonstrueret fra 8 læsninger med en gennemsnitlig længde på 500 nukleotider have 2 gange redundans. Denne parameter gør det også muligt for en at estimere andre mængder, såsom procentdelen af genomet dækket af læsninger (undertiden også kaldet dækning). En høj dækning i shotgun sekventering ønskes, fordi det kan overvinde fejl i basen kald og samling. Emnet for DNA-sekventeringsteori behandler forholdet mellem sådanne mængder. nogle gange skelnes der mellem sekvensdækning og fysisk dækning. Sekvensdækning er det gennemsnitlige antal gange, en base læses (som beskrevet ovenfor). Fysisk dækning er det gennemsnitlige antal gange en base læses eller spændes af mate parret læser.