Articles

Haulikon sekvensointia

HistoryEdit

koko genomin haulikon sekvensointia pienille (4000 – 7000-emäspari) genomeille ehdotettiin ensimmäisen kerran vuonna 1979. Ensimmäinen haulisekvenssillä sekvensoitu genomi oli vuonna 1981 julkaistu kukkakaalin mosaiikkiviruksen genomi.

Paripäätesekvenssimedit

laajempi sovellus hyödynsi paripäätesekvenssiä, joka tunnetaan puhekielessä kaksipiippuisena haulikkosekvenssinä. Kun sekvensointiprojektit alkoivat kestää pitempiä ja monimutkaisempia DNA-sekvenssejä, useat ryhmät alkoivat ymmärtää, että hyödyllistä tietoa voitaisiin saada sekvensoimalla DNA-fragmentin molemmat päät. Vaikka sekvensointi molemmissa päissä saman fragmentin ja pitää kirjaa pariksi tiedot oli hankalampaa kuin sekvensointi yhden pään kaksi erillistä fragmentit, tieto siitä, että kaksi sekvenssit olivat suuntautuneet vastakkaisiin suuntiin ja olivat noin pituus fragmentin toisistaan oli arvokasta rekonstruoida sekvenssi alkuperäisen kohde fragmentissa.

historia. Ensimmäinen julkaistu kuvaus paripäiden käytöstä oli vuonna 1990 osana ihmisen hgprt-lokuksen sekvensointia, joskin paripäiden käyttö rajoittui aukkojen sulkemiseen perinteisen haulikkosekvenssimenetelmän soveltamisen jälkeen. Ensimmäinen teoreettinen kuvaus puhtaasta pariloppusekvenssistrategiasta, olettaen palasia, joiden pituus on vakio, oli vuonna 1991. Tuolloin vallitsi yhteisön yksimielisyys siitä, että optimaalinen fragmentin pituus pariloppusekvenssille olisi kolminkertainen sekvenssin lukupituuteen verrattuna. Vuonna 1995 Roach ym. esitteli innovaation käyttämällä erikokoisia fragmentteja, ja osoitti, että puhdas pareittain päätysekvenssistrategia olisi mahdollinen suurissa kohteissa. Strategia hyväksyttiin myöhemmin Institute for Genomic Research (TIGR) sekvensoida perimän bakteeri Haemophilus influenzae vuonna 1995, ja sitten Celera Genomics sekvensoida Drosophila melanogaster (hedelmäkärpänen) genomin vuonna 2000, ja myöhemmin ihmisen genomi.

lähestytään

strategian soveltamiseksi suurimolekyylipainoinen DNA-juoste keritään satunnaisiksi fragmenteiksi, joiden koko valitaan (yleensä 2, 10, 50 ja 150 kb) ja kloonataan soveltuvaksi vektoriksi. Kloonit sekvensoidaan sitten molemmista päistä käyttäen ketjun päättymismenetelmää, joka tuottaa kaksi lyhyttä sekvenssiä. Jokaista sekvenssiä kutsutaan loppulukemaksi eli lukemaksi 1 ja lukemaksi 2 ja samasta kloonista kahta lukua kutsutaan mate-pareiksi. Koska ketjun päättymismenetelmällä saadaan yleensä aikaan vain 500-1000 emästä pitkiä lukemia, kaikilla paitsi pienimmillä klooneilla mate-parit menevät harvoin päällekkäin.

AssemblyEdit

alkuperäinen sekvenssi rekonstruoidaan lukuista sequence assembly-ohjelmiston avulla. Ensin päällekkäiset lukemat kerätään pidempiin komposiittisarjoihin, joita kutsutaan kontigeiksi. Kontigit voidaan yhdistää telineiksi seuraamalla parien välisiä yhteyksiä. Kontigien välinen etäisyys voidaan päätellä mate-parin asennoista, jos kirjaston keskimääräinen fragmenttipituus tunnetaan ja siinä on kapea poikkeama-ikkuna. Kontigien välisen kuilun koosta riippuen voidaan käyttää erilaisia tekniikoita, joiden avulla voidaan löytää aukkojen järjestys. Jos aukko on pieni (5-20kb), tarvitaan polymeraasiketjureaktion (PCR) käyttöä alueen vahvistamiseen, minkä jälkeen seuraa sekvensointi. Jos aukko on suuri (>20kb), suuri kappale kloonataan erityisillä vektoreilla, kuten bakteerien keinotekoisilla kromosomeilla (BAC), joita seuraa vektorin sekvensointi.

Prosedit ja consEdit

tämän lähestymistavan kannattajat väittävät, että on mahdollista sekvensoida koko genomi kerralla käyttämällä suuria sekvensseriryhmiä, mikä tekee koko prosessista paljon tehokkaampaa kuin perinteisemmät lähestymistavat. Arvostelijat väittävät, että vaikka tekniikka sekvensoi nopeasti suuria alueita DNA, sen kyky oikein yhdistää nämä alueet on epäilyttävä, erityisesti genomien kanssa toistuvia alueita. Kun sekvenssin kokoonpanoohjelmat tulevat kehittyneemmiksi ja laskentateho tulee halvemmaksi, tämä rajoitus voi olla mahdollista ylittää.

Coveragedit

pääartikkeli: Coverage (genetiikka)

Coverage (lukusyvyys tai-syvyys) on lukujen keskimääräinen lukumäärä, joka edustaa tiettyä nukleotidia rekonstruoidussa järjestyksessä. Se voidaan laskea alkuperäisen genomin pituudesta (G), lukujen määrästä(N) ja keskimääräisestä lukupituudesta(L) muodossa N × L / G {\displaystyle N\times L/G}

n\times l/g

. Esimerkiksi hypoteettisessa genomissa, jossa on 2 000 emäsparia rekonstruoituna 8 lukua ja jonka keskimääräinen pituus on 500 nukleotidia, on 2x redundanssi. Tämän parametrin avulla voidaan arvioida myös muita suureita, kuten lukemien peittämän perimän prosentuaalinen osuus (joskus myös peittävyys). Suuri kattavuus haulikko sekvensointi on toivottavaa, koska se voi korjata virheitä base calling ja kokoonpano. DNA: n sekvensointiteorian aihe käsittelee tällaisten suureiden suhteita.

joskus tehdään ero jaksollisen kattavuuden ja fyysisen kattavuuden välillä. Sequence kattavuus on keskimäärin kertaa pohja luetaan (kuten edellä). Fyysinen kattavuus on keskimäärin kertaa pohja luetaan tai ulottuu mate pariksi lukee.