Articles

Hagle sekvensering

HistoryEdit

hele genomet hagle sekvensering for små (4000 – til 7000-base-par) genomer ble først foreslått i 1979. Det første genomet sekvensert av hagle sekvensering var det av blomkålmosaikkvirus, publisert i 1981.

Parret-end sequencingEdit

Bredere søknad dratt nytte av parvis ende sekvensering, kjent folkemunne som double-barrel hagle sekvensering. Etter hvert som sekvenseringsprosjekter begynte å ta på seg lengre OG mer kompliserte DNA-sekvenser, begynte flere grupper å innse at nyttig informasjon kunne oppnås ved sekvensering av begge ender av ET FRAGMENT AV DNA. Selv om sekvensering av begge ender av det samme fragmentet og å holde styr på de sammenkoblede dataene var mer tungvint enn sekvensering av en enkelt ende av to distinkte fragmenter, var kunnskapen om at de to sekvensene var orientert i motsatt retning og var omtrent lengden av et fragment bortsett fra hverandre, verdifull for å rekonstruere sekvensen av det opprinnelige målfragmentet.

Historie. Den første publiserte beskrivelsen av bruken av sammenkoblede ender var i 1990 som en del av sekvenseringen av det menneskelige HGPRT-locus, selv om bruken av sammenkoblede ender var begrenset til å lukke hull etter bruk av en tradisjonell hagle sekvensering tilnærming. Den første teoretiske beskrivelsen av en ren parvis ende sekvensering strategi, forutsatt fragmenter av konstant lengde, var i 1991. På den tiden var det felles konsensus om at den optimale fragmentlengden for parvis ende-sekvensering ville være tre ganger sekvenslengden. I 1995 Roach et al. introduserte innovasjonen ved å bruke fragmenter av varierende størrelser, og viste at en ren parvis endesekvenseringsstrategi ville være mulig på store mål. Strategien ble senere vedtatt av INSTITUTE For Genomic Research (TIGR) for å sekvensere genomet til bakterien Haemophilus influenzae i 1995, og Deretter Av Celera Genomics for å sekvensere Drosophila melanogaster (fruit fly) genomet i 2000, og deretter det menneskelige genomet.

ApproachEdit

FOR å anvende strategien blir EN DNA-streng med høy molekylvekt skåret i tilfeldige fragmenter, størrelse valgt (vanligvis 2, 10, 50 og 150 kb), og klonet til en passende vektor. Klonene blir deretter sekvensert fra begge ender ved hjelp av kjedetermineringsmetoden som gir to korte sekvenser. Hver sekvens kalles en slutt-lese eller lese 1 og lese 2 og to leser fra samme klone er referert til som mate par. Siden kjeden terminering metoden vanligvis bare kan produsere leser mellom 500 og 1000 baser lang, i alle, men de minste kloner, kompis parene vil sjelden overlapper.

AssemblyEdit

den opprinnelige sekvensen er rekonstruert fra leser ved hjelp av sekvens montering programvare. Først blir overlappende leser samlet inn i lengre sammensatte sekvenser kjent som contigs. Contigs kan kobles sammen til stillas ved å følge forbindelser mellom par. Avstanden mellom contigs kan utledes fra mate par posisjoner hvis den gjennomsnittlige fragment lengde av biblioteket er kjent og har et smalt vindu av avvik. Avhengig av størrelsen på gapet mellom contigs, kan forskjellige teknikker brukes til å finne sekvensen i hullene. Hvis gapet er lite (5-20kb), er det nødvendig med bruk av polymerasekjedereaksjon (PCR) for å forsterke regionen, etterfulgt av sekvensering. Hvis gapet er stort (> 20kb), blir det store fragmentet klonet i spesielle vektorer som bakterielle kunstige kromosomer (BAC) etterfulgt av sekvensering av vektoren.

Pros and consEdit

Talsmenn for denne tilnærmingen hevder at det er mulig å sekvensere hele genomet på en gang ved hjelp av store arrays av sequencere, noe som gjør hele prosessen mye mer effektiv enn mer tradisjonelle tilnærminger. Kritikere hevder at selv om teknikken raskt sekvenserer store OMRÅDER AV DNA, er dens evne til å koble disse regionene riktig mistenkt, spesielt for genomer med gjentatte regioner. Etter hvert som sekvensmonteringsprogrammer blir mer sofistikerte og datakraft blir billigere, kan det være mulig å overvinne denne begrensningen.

Dekningrediger

Hovedartikkel: Dekningsområde (genetikk)

Dekningsområde (lesedybde eller dybde) er det gjennomsnittlige antall lesninger som representerer et gitt nukleotid i den rekonstruerte sekvensen. Det kan beregnes ut fra lengden på det opprinnelige genomet (G), antall leser (N) og gjennomsnittlig leselengde(L) Som N × l / G {\displaystyle n\ganger l/g}

N\ganger L/G

. For eksempel vil et hypotetisk genom med 2000 basepar rekonstruert fra 8 leser med en gjennomsnittlig lengde på 500 nukleotider ha 2x redundans. Denne parameteren gjør det også mulig å estimere andre mengder, for eksempel prosentandelen av genomet som dekkes av leser (noen ganger også kalt dekning). En høy dekning i hagle sekvensering er ønsket fordi det kan overvinne feil i basen ringer og montering. EMNET FOR DNA-sekvenseringsteori adresserer forholdene til slike mengder. noen ganger skilles det mellom sekvensdekning og fysisk dekning. Sekvensdekning er gjennomsnittlig antall ganger en base leses (som beskrevet ovenfor). Fysisk dekning er gjennomsnittlig antall ganger en base er lest eller spredt av kompis paret leser.