Articles

Shotgun sequenziamento

HistoryEdit

Intero genoma shotgun sequenziamento per piccoli (4000 – a 7000-base-pair) genomi è stato suggerito nel 1979. Il primo genoma sequenziato da shotgun sequenziamento è stato quello del virus del mosaico cavolfiore, pubblicato nel 1981.

Paired-end sequencingEdit

Più ampia applicazione ha beneficiato di fine sequenziamento a coppie, noto colloquialmente come sequenziamento fucile a doppia canna. Mentre i progetti di sequenziamento iniziarono ad assumere sequenze di DNA più lunghe e complicate, più gruppi iniziarono a rendersi conto che informazioni utili potevano essere ottenute sequenziando entrambe le estremità di un frammento di DNA. Anche se il sequenziamento di entrambe le estremità dello stesso frammento e tenere traccia dei dati accoppiati era più ingombrante del sequenziamento di una singola estremità di due frammenti distinti, la conoscenza che le due sequenze erano orientate in direzioni opposte e che erano circa la lunghezza di un frammento l’una dall’altra era preziosa per ricostruire la sequenza del frammento target originale.

Storia. La prima descrizione pubblicata dell’uso delle estremità accoppiate è stata nel 1990 come parte del sequenziamento del locus umano HGPRT, sebbene l’uso delle estremità accoppiate fosse limitato a colmare le lacune dopo l’applicazione di un approccio tradizionale di sequenziamento del fucile. La prima descrizione teorica di una pura strategia di sequenziamento finale a coppie, assumendo frammenti di lunghezza costante, è stata nel 1991. A quel tempo, c’era il consenso della comunità sul fatto che la lunghezza ottimale del frammento per il sequenziamento finale a coppie sarebbe tre volte la lunghezza di lettura della sequenza. Nel 1995 Roach et al. ha introdotto l’innovazione dell’utilizzo di frammenti di dimensioni variabili e ha dimostrato che una strategia di end-sequencing pura a coppie sarebbe possibile su obiettivi di grandi dimensioni. La strategia è stata successivamente adottata dall’Istituto per la ricerca Genomica (TIGR) per sequenziare il genoma del batterio Haemophilus influenzae nel 1995, e poi da Celera Genomics per sequenziare il genoma della Drosophila melanogaster (mosca della frutta) nel 2000, e successivamente il genoma umano.

ApproachEdit

Per applicare la strategia, un filamento di DNA ad alto peso molecolare viene tagliato in frammenti casuali, selezionato in dimensioni (di solito 2, 10, 50 e 150 kb) e clonato in un vettore appropriato. I cloni vengono quindi sequenziati da entrambe le estremità utilizzando il metodo di terminazione della catena producendo due brevi sequenze. Ogni sequenza è chiamata end-read o read 1 e read 2 e due letture dallo stesso clone sono indicate come coppie mate. Poiché il metodo di terminazione della catena di solito può produrre solo letture lunghe tra 500 e 1000 basi, in tutti i cloni tranne i più piccoli, le coppie di accoppiamenti raramente si sovrappongono.

AssemblyEdit

La sequenza originale viene ricostruita dalle letture utilizzando il software sequence assembly. Innanzitutto, le letture sovrapposte vengono raccolte in sequenze composte più lunghe note come contig. I contig possono essere collegati tra loro in scaffold seguendo le connessioni tra coppie mate. La distanza tra i contig può essere dedotta dalle posizioni della coppia mate se la lunghezza media del frammento della libreria è nota e ha una finestra stretta di deviazione. A seconda della dimensione dello spazio tra i contig, è possibile utilizzare diverse tecniche per trovare la sequenza negli spazi vuoti. Se il divario è piccolo (5-20kb) è necessario l’uso della reazione a catena della polimerasi (PCR) per amplificare la regione, seguita dal sequenziamento. Se il divario è grande (>20kb), il grande frammento viene clonato in vettori speciali come i cromosomi artificiali batterici (BAC) seguiti dal sequenziamento del vettore.

Pro e contromodifica

I fautori di questo approccio sostengono che è possibile sequenziare l’intero genoma contemporaneamente utilizzando grandi array di sequencer, il che rende l’intero processo molto più efficiente rispetto agli approcci più tradizionali. I detrattori sostengono che sebbene la tecnica sequenzi rapidamente ampie regioni del DNA, la sua capacità di collegare correttamente queste regioni è sospetta, in particolare per i genomi con regioni ripetute. Poiché i programmi di assemblaggio delle sequenze diventano più sofisticati e la potenza di calcolo diventa più economica, potrebbe essere possibile superare questa limitazione.

CoverageEdit

Articolo principale: Coverage (genetica)

Coverage (profondità di lettura o profondità) è il numero medio di letture che rappresentano un dato nucleotide nella sequenza ricostruita. Può essere calcolato dalla lunghezza del genoma originale (G), dal numero di letture(N) e dalla lunghezza media di lettura(L) come N × L / G {\displaystyle N\volte L/G}

N\volte L/G

. Ad esempio, un genoma ipotetico con 2.000 coppie di basi ricostruite da 8 letture con una lunghezza media di 500 nucleotidi avrà ridondanza 2x. Questo parametro consente anche di stimare altre quantità, come la percentuale del genoma coperto da letture (a volte chiamato anche copertura). Un’alta copertura nel sequenziamento del fucile è desiderata perché può superare gli errori nella chiamata e nell’assemblaggio di base. Il soggetto della teoria del sequenziamento del DNA affronta le relazioni di tali quantità.

A volte viene fatta una distinzione tra copertura di sequenza e copertura fisica. La copertura della sequenza è il numero medio di volte in cui una base viene letta (come descritto sopra). La copertura fisica è il numero medio di volte in cui una base viene letta o attraversata da letture accoppiate accoppiate.