Hagelgevärssekvensering
HistoryEdit
hela genomet hagelgevärssekvensering för små (4000 – till 7000-baspar) genom föreslogs först 1979. Det första genomet sekvenserat av hagelgevärssekvensering var det av blomkålmosaikvirus, publicerat 1981.
Paired-end sequencingEdit
bredare applikation gynnades av parvis slutsekvensering, känd i allmänhet som dubbel-fat hagelgevär sekvensering. När sekvenseringsprojekt började ta längre och mer komplicerade DNA-sekvenser började flera grupper inse att användbar information kunde erhållas genom att sekvensera båda ändarna av ett fragment av DNA. Även om sekvensering av båda ändarna av samma fragment och att hålla reda på de parade data var mer besvärlig än att sekvensera en enda ände av två distinkta fragment, var kunskapen att de två sekvenserna orienterades i motsatta riktningar och var ungefär längden på ett fragment bortsett från varandra värdefull för att rekonstruera sekvensen för det ursprungliga målfragmentet.
historia. Den första publicerade beskrivningen av användningen av parade ändar var 1990 som en del av sekvenseringen av det mänskliga HGPRT-stället, även om användningen av parade ändar var begränsad till att stänga luckor efter tillämpningen av en traditionell hagelgevärssekvenseringsmetod. Den första teoretiska beskrivningen av en ren parvis slutsekvenseringsstrategi, förutsatt fragment av konstant längd, var 1991. Vid den tiden fanns det enighet om att den optimala fragmentlängden för parvis slutsekvensering skulle vara tre gånger sekvensavläsningslängden. 1995 Roach et al. introducerade innovationen att använda fragment av varierande storlekar och visade att en ren parvis slutsekvenseringsstrategi skulle vara möjlig på stora mål. Strategin antogs därefter av Institutet för genomforskning (TIGR) för att sekvensera genomet av bakterien Haemophilus influenzae 1995 och sedan av Celera Genomics för att sekvensera Drosophila melanogaster (fruktfluga) genomet 2000 och därefter det mänskliga genomet.
ApproachEdit
för att tillämpa strategin skärs en DNA-sträng med hög molekylvikt i slumpmässiga fragment, storlek vald (vanligtvis 2, 10, 50 och 150 kb) och klonas till en lämplig vektor. Klonerna sekvenseras sedan från båda ändarna med användning av kedjetermineringsmetoden som ger två korta sekvenser. Varje sekvens kallas en slutläsning eller läsning 1 och läs 2 och två läsningar från samma klon kallas kompispar. Eftersom kedjetermineringsmetoden vanligtvis bara kan producera läser mellan 500 och 1000 baser långa, i alla utom de minsta klonerna, kommer kompispar sällan att överlappa varandra.
AssemblyEdit
den ursprungliga sekvensen rekonstrueras från avläsningarna med hjälp av sekvensmonteringsprogram. Först samlas överlappande läsningar i längre kompositsekvenser som kallas contigs. Contigs kan kopplas samman till byggnadsställningar genom att följa anslutningar mellan kompispar. Avståndet mellan contigs kan härledas från kompisparpositionerna om bibliotekets genomsnittliga fragmentlängd är känd och har ett smalt avvikelsefönster. Beroende på storleken på klyftan mellan contigs kan olika tekniker användas för att hitta sekvensen i luckorna. Om gapet är litet (5-20kb) krävs användning av polymeraskedjereaktion (PCR) för att förstärka regionen, följt av sekvensering. Om gapet är stort (>20kb) klonas det stora fragmentet i speciella vektorer såsom bakteriella artificiella kromosomer (BAC) följt av sekvensering av vektorn.
Pros and consEdit
förespråkare av detta tillvägagångssätt hävdar att det är möjligt att sekvensera hela genomet på en gång med hjälp av stora arrayer av sekvenser, vilket gör hela processen mycket effektivare än mer traditionella metoder. Detektorer hävdar att även om tekniken snabbt sekvenserar stora regioner av DNA, är dess förmåga att korrekt länka dessa regioner misstänkt, särskilt för genom med upprepande regioner. När sekvensmonteringsprogram blir mer sofistikerade och datorkraften blir billigare kan det vara möjligt att övervinna denna begränsning.
CoverageEdit
täckning (läsdjup eller djup) är det genomsnittliga antalet läsningar som representerar en given nukleotid i den rekonstruerade sekvensen. Det kan beräknas från längden på det ursprungliga genomet (G), antalet läsningar(N) och den genomsnittliga läslängden(L) som n CB l / g {\displaystyle N\gånger L/g}
. Till exempel kommer ett hypotetiskt genom med 2000 baspar rekonstruerade från 8 läsningar med en genomsnittlig längd på 500 nukleotider att ha 2x redundans. Denna parameter gör det också möjligt för en att uppskatta andra kvantiteter, såsom procentandelen av genomet som omfattas av läsningar (ibland även kallad täckning). En hög täckning i Hagelgevär sekvensering önskas eftersom det kan övervinna fel i bas ringer och montering. Ämnet för DNA-sekvenseringsteori behandlar förhållandena mellan sådana kvantiteter.
ibland görs en åtskillnad mellan sekvenstäckning och fysisk täckning. Sekvenstäckning är det genomsnittliga antalet gånger en bas läses (som beskrivits ovan). Fysisk täckning är det genomsnittliga antalet gånger en bas läses eller spänns av mate Parade läser.