USADELLAB.org -Trimmomatic: Uno strumento di taglio lettura flessibile per Illumina NGS data
Trimmomatic: Uno strumento di taglio lettura flessibile per Illumina NGS data
Citazioni
Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: Un trimmer flessibile per i dati di sequenza Illumina. Bioinformatica, btu170.
Download Trimmomatic
Versione 0.39: binario, sorgente e manuale
Versione 0.36: binario e sorgente
Quick start
Paired End:
Con la maggior parte dei nuovi set di dati è possibile utilizzare il taglio delicato di qualità e il ritaglio dell’adattatore.
Spesso non è necessario il ritaglio iniziale e troncato. Anche in generale keepBothReads può essere utile quando si lavora con dati finali accoppiati, si manterranno anche informazioni redunfant, ma questo probabilmente rende le pipeline più gestibili. Nota l’ulteriore: 2 davanti a keepBothReads questa è la lunghezza minima dell’adattatore in modalità palindromo, puoi persino impostarla su 1. (Di default è un molto conservatore 8)
Se avete domande non esitate a contattarci, questo non è necessariamente un formato misura tutti. analisi dell’espressione RNAseq vs assemblaggio del DNA).
solo per riferimento (meno sensibile per gli adattatori)
Questo eseguirà quanto segue:
- Rimuovere gli adattatori (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
- Rimuovere leader di bassa qualità o N le basi (di seguito qualità 3) (LEADER:3)
- Rimuovere finali di bassa qualità o N le basi (di seguito qualità 3) (FINALI:3)
- Scansione la lettura con un 4-base ampia finestra scorrevole, di taglio quando la qualità media per base scende al di sotto di 15 (SLIDINGWINDOW:4:15)
- Caduta di legge sotto il 36 di basi (MINLEN:36)
Unico Fine:
Questo eseguirà gli stessi passaggi, utilizzando il file adattatore single-ended
Descrizione
Trimmomatic esegue una serie di operazioni di ritaglio utili per illumina paired-end e single ended dati.La selezione dei passaggi di ritaglio e i relativi parametri associati vengono forniti sulla riga di comando.
I passaggi di taglio correnti sono:
- ILLUMINACLIP: adattatore di taglio e altre sequenze specifiche di illumina dalla lettura.
- SLIDINGWINDOW: Eseguire un taglio finestra scorrevole, taglio una volta che la qualità media all’interno della finestra scende al di sotto di una soglia.
- LEADER: Tagliare le basi per l’avvio di una lettura, se al di sotto di una soglia di qualità
- FINALE: Tagliare basi la fine di una lettura, se al di sotto di una soglia di qualità
- CROP: Tagliare a leggere per una lunghezza specificata
- HEADCROP: Tagliare il numero specificato di basi dall’inizio della lettura
- MINLEN: Drop la lettura, se è al di sotto di una lunghezza specificata
- TOPHRED33: la Conversione dei punteggi di qualità per Phred-33
- TOPHRED64: Converte i punteggi di qualità in Phred-64
Funziona con FASTQ (utilizzando i punteggi di qualità phred + 33 o phred + 64, a seconda della pipeline Illumina utilizzata), non compresso o gzipp’ed FASTQ. L’uso del formato gzip è determinato in base al .estensione gz.
Per i dati single-ended, vengono specificati un file di input e un file di output, oltre alle fasi di elaborazione. Per i dati accoppiati, vengono specificati due file di input e 4 file di output, 2 per l’output “accoppiato” in cui entrambe le letture sono sopravvissute all’elaborazione e 2 per l’output “spaiato” corrispondente in cui una lettura è sopravvissuta, ma la lettura del partner no.
Esecuzione di Trimmomatic
Dalla versione 0.27, trimmomatic può essere eseguito utilizzando-jar. Il metodo’ vecchio’, usando la classe esplicita, continua a funzionare.
Modalità di fine accoppiata:
o
Modalità di fine singola:
java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...
o
Se non è specificato alcun punteggio di qualità, phred-64 è il valore predefinito. Questo verrà modificato in un punteggio di qualità ‘rilevato automaticamente’ in una versione futura.
Specificando un file trimlog si crea un log di tutti i trimmings letti, indicando i seguenti dettagli:
- il nome di lettura
- la lunghezza della sequenza sopravvissuta
- la posizione della prima base sopravvissuta, aka. la quantità tagliata dall’inizio
- la posizione dell’ultima base superstite nella lettura originale
- la quantità tagliata dalla fine
È possibile specificare più passaggi come richiesto, utilizzando argomenti aggiuntivi alla fine.
La maggior parte dei passaggi richiede una o più impostazioni, delimitate da ‘:’ (due punti)
Opzioni passo:
- ILLUMINACLIP:<fastaWithAdaptersEtc><semi di incongruenze><palindromo clip soglia><semplice clip soglia>
- fastaWithAdaptersEtc: specifica il percorso per una fasta file contenente tutte le schede di PCR di sequenze etc. La denominazione delle varie sequenze all’interno di questo file determina il modo in cui vengono utilizzate. Vedi sotto.
- seedMismatches: specifica il conteggio massimo di mancata corrispondenza che consentirà comunque di eseguire una corrispondenza completa
- palindromeClipThreshold: specifica quanto precisa deve essere la corrispondenza tra le due letture ‘adapter ligated’ per l’allineamento di lettura palindromo PE.
- simpleClipThreshold: specifica la precisione della corrispondenza tra qualsiasi adattatore, ecc. sequenza deve essere contro una lettura.
- SLIDINGWINDOW:<windowSize><requiredQuality>
- windowSize: specifica il numero di basi di media tra
- requiredQuality: specifica la media di qualità richiesti.
- LEADER:<qualità>
- qualità: specifica la qualità minima richiesta per mantenere una base.
- FINALE:<qualità>
- qualità: specifica la qualità minima richiesta per mantenere una base.
- CROP:<length>
- length: Il numero di basi da mantenere, dall’inizio della lettura.
- HEADCROP: < lunghezza >
- lunghezza: Il numero di basi da rimuovere dall’inizio della lettura.
- MINLEN:<length>
- length: specifica la lunghezza minima delle letture da mantenere.
Ordine di ritaglio
Il ritaglio avviene nell’ordine specificato nella riga di comando. Nella maggior parte dei casi si consiglia di ritagliare l’adattatore, se necessario, il prima possibile.
L’adattatore Fasta
Illumina adapter e altre sequenze tecniche sono protetti da copyright da Illumina,ma ci è stato concesso il permesso di distribuirli con Trimmomatic. Le sequenze di adattatori suggerite sono fornite per TruSeq2 (come usato nelle macchine GAII) e TruSeq3 (come usato dalle macchine HiSeq e MiSeq), sia per la modalità single-end che per la modalità paired-end. Queste sequenze non sono state ampiamente testate e, a seconda di problemi specifici che possono verificarsi nella preparazione della libreria, altre sequenze possono funzionare meglio per un determinato set di dati.
Per creare una versione personalizzata di fasta, devi prima capire come verrà utilizzata. Trimmomatic utilizza due strategie per il taglio dell’adattatore: Palindromo e Semplice
Con il taglio “semplice”, ogni sequenza di adattatore viene testata rispetto alle letture e, se viene rilevata una corrispondenza sufficientemente accurata, la lettura viene ritagliata in modo appropriato.
‘Palindromo’ taglio è specificamente progettato per il caso di ‘lettura attraverso’ un breve frammento nella sequenza adattatore sull’altra estremità. In questo approccio, le sequenze di adattatori appropriate sono “in silico ligate” all’inizio delle letture e le sequenze combinate adattatore+lettura, avanti e indietro sono allineate. Se si allineano in un modo che indica ‘read-through’, la lettura in avanti viene ritagliata e la lettura inversa eliminata (poiché non contiene nuovi dati).
La denominazione delle sequenze indica come devono essere utilizzate. Per il ritaglio’ Palindromo’, i nomi delle sequenze dovrebbero iniziare con’ Prefisso ‘e terminare con’ /1 ‘per l’adattatore avanti e’ /2 ‘ per l’adattatore inverso. Tutte le altre sequenze sono controllate usando la modalità ‘semplice’. Le sequenze con nomi che terminano in ‘/ 1 ‘ o ‘/ 2 ‘ saranno controllate solo con la lettura in avanti o in retromarcia. Le sequenze che non terminano in ‘/ 1 ‘ o ‘/ 2 ‘ saranno controllate sia in avanti che in retromarcia. Se si desidera verificare il complemento inverso di una sequenza specifica, è necessario includere in modo specifico anche la forma integrata inversa della sequenza, con un altro nome.
Le soglie utilizzate sono un approccio semplificato di log-verosimiglianza. Ogni base corrispondente aggiunge poco più di 0,6, mentre ogni mancata corrispondenza riduce il punteggio di allineamento di Q / 10. Pertanto, una perfetta corrispondenza di una sequenza di base 12 segnerà poco più di 7, mentre 25 basi sono necessarie per segnare 15. Per questo parametro raccomandiamo valori compresi tra 7 e 15. Per le partite palindromiche, è possibile un allineamento più lungo-quindi questa soglia può essere più alta, nell’intervallo di 30. Il parametro ‘ seed mismatch ‘viene utilizzato per rendere gli allineamenti più efficienti, specificando il numero massimo di disallineamenti di base nel’ seed ‘ (16 basi). I valori tipici qui sono 1 o 2.