Secvențierea puștii
HistoryEdit
secvențierea genomului întreg pentru genomii mici (4000 – 7000-pereche de bază) a fost sugerată pentru prima dată în 1979. Primul genom secvențiat prin secvențierea puștii a fost cel al virusului mozaicului conopidei, publicat în 1981.
secvențierea capătului Împerecheatedit
aplicația mai largă a beneficiat de secvențierea capătului pereche, cunoscută colocvial ca secvențierea puștii cu două butoaie. Pe măsură ce proiectele de secvențiere au început să preia secvențe ADN mai lungi și mai complicate, mai multe grupuri au început să-și dea seama că informațiile utile ar putea fi obținute prin secvențierea ambelor capete ale unui fragment de ADN. Deși secvențierea ambelor capete ale aceluiași fragment și urmărirea datelor împerecheate au fost mai greoaie decât secvențierea unui singur capăt al două fragmente distincte, cunoașterea faptului că cele două secvențe erau orientate în direcții opuse și aveau aproximativ lungimea unui fragment separat unul de celălalt a fost valoroasă în reconstruirea secvenței fragmentului țintă original.
Istorie. Prima descriere publicată a utilizării capetelor împerecheate a fost în 1990 ca parte a secvențierii locusului uman HGPRT, deși utilizarea capetelor împerecheate s-a limitat la închiderea golurilor după aplicarea unei abordări tradiționale de secvențiere a puștii. Prima descriere teoretică a unei strategii de secvențiere finală pură în perechi, presupunând fragmente de lungime constantă, a fost în 1991. La acea vreme, a existat un consens comunitar că lungimea optimă a fragmentului pentru secvențierea finală în perechi ar fi de trei ori lungimea de citire a secvenței. În 1995 Roach și colab. a introdus inovația utilizării fragmentelor de dimensiuni diferite și a demonstrat că o strategie pură de secvențiere finală în perechi ar fi posibilă pe ținte mari. Strategia a fost adoptată ulterior de Institutul pentru cercetări genomice (TIGR) pentru a secventa genomul bacteriei Haemophilus influenzae în 1995 și apoi de Celera Genomics pentru a secventa Drosophila melanogaster (zbura fructelor) genom în 2000 și, ulterior, genomul uman.
Approachededit
pentru a aplica strategia, o catenă de ADN cu greutate moleculară mare este forfecată în fragmente aleatorii, selectate de dimensiune (de obicei 2, 10, 50 și 150 kb) și clonate într-un vector adecvat. Clonele sunt apoi secvențiate de la ambele capete folosind metoda de terminare a lanțului, rezultând două secvențe scurte. Fiecare secvență se numește citire finală sau citire 1 și citire 2 și două citiri din aceeași clonă sunt denumite perechi mate. Deoarece metoda de terminare a lanțului poate produce de obicei doar citiri între 500 și 1000 de baze lungi, în toate clonele, cu excepția celor mai mici, perechile mate se vor suprapune rar.
AssemblyEdit
secvența originală este reconstruită din citirile folosind software-ul de asamblare secvență. În primul rând, citirile suprapuse sunt colectate în secvențe compozite mai lungi cunoscute sub numele de contigs. Contigurile pot fi legate între ele în schele urmând conexiunile dintre perechile mate. Distanța dintre contiguri poate fi dedusă din pozițiile perechii mate dacă lungimea medie a fragmentului bibliotecii este cunoscută și are o fereastră îngustă de abatere. În funcție de dimensiunea decalajului dintre contiguri, pot fi utilizate diferite tehnici pentru a găsi secvența în goluri. Dacă decalajul este mic (5-20kb), este necesară utilizarea reacției în lanț a polimerazei (PCR) pentru amplificarea regiunii, urmată de secvențiere. Dacă decalajul este mare (>20kb) atunci fragmentul mare este clonat în vectori speciali, cum ar fi cromozomii artificiali bacterieni (BAC), urmat de secvențierea vectorului.
Pro și consEdit
susținătorii acestei abordări susțin că este posibilă secvențierea întregului genom simultan folosind matrice mari de secvențiatori, ceea ce face ca întregul proces să fie mult mai eficient decât abordările mai tradiționale. Detractorii susțin că, deși tehnica secvențează rapid regiuni mari de ADN, capacitatea sa de a lega corect aceste regiuni este suspectă, în special pentru genomii cu regiuni repetate. Pe măsură ce programele de asamblare a secvențelor devin mai sofisticate și puterea de calcul devine mai ieftină, poate fi posibilă depășirea acestei limitări.
CoverageEdit
acoperire (adâncime de citire sau adâncime) este numărul mediu de citiri reprezentând o nucleotidă dată în secvența reconstruită. Acesta poate fi calculat din lungimea genomului original(G), Numărul de citiri(N) și lungimea medie de citire (l) ca N L / G {\displaystyle n\times l/G}
. De exemplu, un genom ipotetic cu 2.000 de perechi de baze reconstruite din 8 citiri cu o lungime medie de 500 de nucleotide va avea redundanță de 2x. Acest parametru permite, de asemenea, estimarea altor cantități, cum ar fi procentul genomului acoperit de citiri (uneori numit și acoperire). Se dorește o acoperire ridicată în secvențierea puștii, deoarece poate depăși erorile în apelarea și asamblarea de bază. Subiectul teoriei secvențierii ADN abordează relațiile unor astfel de cantități.
uneori se face o distincție între acoperirea secvenței și acoperirea fizică. Acoperirea secvenței este numărul mediu de citire a unei baze (așa cum este descris mai sus). Acoperirea fizică este numărul mediu de ori o bază este citit sau se întinde de pereche pereche citește.