Articles

USADELLAB.org -Trimmomatic: un instrument flexibil de citire tundere pentru Illumina NGS date

Trimmomatic: un instrument flexibil de citire tundere pentru Illumina NGS date

citări

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: un trimmer flexibil pentru date de secvență Illumina. Bioinformatică, btu170.

descărcarea Trimmomatic

Versiunea 0.39: binar, sursă și manual

Versiunea 0.36: binar și sursă

pornire rapidă

capăt asociat:

cu majoritatea seturilor de date noi puteți utiliza Tunderea de calitate blândă și tăierea adaptorului.

de multe ori nu aveți nevoie de tăiere de conducere și traling. De asemenea, în general, keepBothReads pot fi utile atunci când se lucrează cu date finale pereche, va păstra chiar informații redunfant, dar acest lucru face probabil conducte mai ușor de gestionat. Notă suplimentară: 2 în fața keepBothReads aceasta este lungimea minimă a adaptorului în modul palindrom, puteți chiar să setați acest lucru la 1. (Implicit este un foarte conservator 8)

Dacă aveți întrebări, vă rugăm să nu ezitați să ne contactați, acest lucru nu este neapărat o mărime se potrivește tuturor. (de exemplu, analiza expresiei RNAseq vs Adunarea ADN).

numai pentru referință (mai puțin sensibil pentru adaptoare)

aceasta va efectua următoarele:

  • scoateți adaptoarele (ILLUMINACLIP:TruSeq3-pe.fa:2:30:10)
  • eliminați bazele de calitate scăzută sau N (sub calitatea 3) (LEADING:3)
  • eliminați bazele de calitate scăzută sau N (sub calitatea 3) (TRAILING:3)
  • scanați citirea cu o fereastră glisantă largă cu 4 baze, tăind când calitatea medie pe bază scade sub 15 (SLIDINGWINDOW:4:15)
  • Drop citește sub cele 36 de baze lungi (MINLEN:36)

cu un singur capăt:

aceasta va efectua aceiași pași, folosind fișierul adaptor cu un singur capăt

descriere

Trimmomatic efectuează o varietate de sarcini de tăiere utile pentru illumina paired-end și date cu un singur capăt.Selectarea etapelor de tăiere și a parametrilor asociați sunt furnizate pe linia de comandă.

pașii actuali de tăiere sunt:

  • ILLUMINACLIP: Adaptor tăiat și alte secvențe specifice illumina din citire.
  • SLIDINGWINDOW: efectuați o tăiere a ferestrei glisante, tăind odată ce calitatea medie din fereastră scade sub un prag.
  • lider: Tăiați bazele de la începutul unei citiri, dacă este sub un prag calitate
  • TRAILING: tăiați bazele de la sfârșitul unei citiri, dacă este sub un prag calitate
  • CROP: tăiați citirea la o lungime specificată
  • HEADCROP: tăiați numărul specificat de baze de la începutul citirii
  • MINLEN: aruncați citirea dacă este sub o lungime specificată
  • TOPHRED33: convertiți scorurile de calitate în Phred-33
  • tophred64: Convertiți scorurile de calitate în Phred-64

funcționează cu FASTQ (folosind scoruri de calitate phred + 33 sau phred + 64, în funcție de conducta Illumina utilizată), fie necomprimate, fie GZIPP ‘ ed FASTQ. Utilizarea formatului gzip este determinată pe baza .extensie gz.

pentru datele cu un singur capăt, sunt specificate o intrare și un fișier de ieșire, plus pașii de procesare. Pentru datele asociate, sunt specificate două fișiere de intrare și 4 fișiere de ieșire, 2 pentru ieșirea ‘pereche’ în care ambele citiri au supraviețuit procesării și 2 pentru ieșirea ‘nepereche’ corespunzătoare în care o citire a supraviețuit, dar citirea partenerului nu.

rularea Trimmomatic

începând cu versiunea 0.27, trimmomatic poate fi executat folosind-jar. Metoda ‘veche’, folosind clasa explicită, continuă să funcționeze.

Mod final asociat:

sau

Mod final unic:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

sau

dacă nu este specificat niciun scor de calitate, phred-64 este valoarea implicită. Acest lucru va fi schimbat la un scor de calitate ‘autodetected’ într-o versiune viitoare.

specificarea unui fișier trimlog creează un jurnal al tuturor garniturilor citite, indicând următoarele detalii:

  • numele citit
  • lungimea secvenței supraviețuitoare
  • locația primei baze supraviețuitoare, aka. suma tăiată de la început
  • locația ultimei baze supraviețuitoare din citirea originală
  • suma tăiată de la sfârșit

pașii multipli pot fi specificați după cum este necesar, utilizând argumente suplimentare la sfârșit.

majoritatea pașilor iau una sau mai multe setări, delimitate de’: ‘(două puncte)

Opțiuni pas:

  • ILLUMINACLIP:< fastaWithAdaptersEtc ><nepotriviri de semințe><prag clip palindrom><clip simplu prag>
    • fastawithadaptersetc: specifică calea către un fișier fasta care conține toate adaptoarele, secvențele PCR etc. Denumirea diferitelor secvențe din acest fișier determină modul în care sunt utilizate. Vezi mai jos.
    • seedMismatches: specifică numărul maxim de nepotriviri care va permite în continuare efectuarea unei potriviri complete
    • palindromeClipThreshold: specifică cât de precisă trebuie să fie potrivirea dintre cele două citiri ‘adaptor ligat’ pentru alinierea citirii palindromului pe.
    • simpleClipThreshold: specifică cât de precisă este potrivirea dintre orice adaptor etc. secvența trebuie să fie împotriva unei citire.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowsize: specifică numărul de baze la medie peste
    • REQUIREDQUALITY: specifică calitatea medie necesară.
  • lider:<calitate>
    • calitate: specifică calitatea minimă necesară pentru a păstra o bază.

  • TRAILING:<calitate>
    • calitate: specifică calitatea minimă necesară pentru a păstra o bază.
  • cultură:<lungime>
    • lungime: numărul de baze pentru a păstra, de la începutul citit.
  • HEADCROP:<lungime>
    • lungime: Numărul de baze pentru a elimina de la începutul citirii.
  • MINLEN:<length>
    • length: specifică lungimea minimă a citirilor care trebuie păstrate.

ordinea de tăiere

tunderea are loc în ordinea în care pașii sunt specificați în linia de comandă. În majoritatea cazurilor, se recomandă ca tăierea adaptorului, dacă este necesar, să se facă cât mai curând posibil.

adaptorul fasta

adaptorul Illumina și alte secvențe tehnice sunt protejate prin drepturi de autor de Illumina,dar ni s-a acordat permisiunea de a le distribui cu Trimmomatic. Secvențele de adaptor sugerate sunt furnizate pentru TruSeq2 (așa cum este utilizat în mașinile GAII) și TruSeq3 (așa cum este utilizat de mașinile Hiseq și MiSeq), atât pentru modul single-end, cât și pentru modul pereche. Aceste secvențe nu au fost testate extensiv și, în funcție de problemele specifice care pot apărea în pregătirea bibliotecii, alte secvențe pot funcționa mai bine pentru un set de date dat.

pentru a crea o versiune personalizată a fasta, trebuie mai întâi să înțelegeți cum va fi utilizată. Trimmomatic folosește două strategii pentru tunderea adaptorului: palindrom și simplu

cu tunderea ‘simplă’, fiecare secvență de adaptor este testată împotriva citirilor și, dacă este detectată o potrivire suficient de precisă, citirea este tăiată corespunzător.

tunderea’palindrom’ este concepută special pentru cazul ‘citirii’ unui fragment scurt în secvența adaptorului de la celălalt capăt. În această abordare, secvențele adaptorului adecvate sunt ‘in silico ligate’ pe începutul citirilor, iar secvențele adaptorului+citirii combinate, înainte și înapoi sunt aliniate. Dacă acestea se aliniază într-un mod care indică ‘read-through’, citirea înainte este decupată și citirea inversă a scăzut (deoarece nu conține date noi).

denumirea secvențelor indică modul în care ar trebui utilizate. Pentru decuparea ‘palindrom’, numele secvenței ar trebui să înceapă cu ‘Prefix’ și să se termine cu ‘/1’ pentru adaptorul înainte și ‘/2’ pentru adaptorul invers. Toate celelalte secvențe sunt verificate folosind modul ‘simplu’. Secvențele cu nume care se termină în ‘ / 1 ‘sau’ /2 ‘ vor fi verificate numai în raport cu citirea înainte sau înapoi. Secvențele care nu se termină în ‘/1’ sau ‘/2’ vor fi verificate atât cu citirea înainte, cât și cu cea inversă. Dacă doriți să verificați complementul invers al unei secvențe specifice, trebuie să includeți și forma completată invers a secvenței, cu un alt nume.

pragurile utilizate sunt o abordare simplificată log-probabilitate. Fiecare bază de potrivire adaugă puțin peste 0,6, în timp ce fiecare nepotrivire reduce scorul de aliniere cu Q/10. Prin urmare, o potrivire perfectă a unei secvențe de bază 12 va înscrie puțin peste 7, în timp ce 25 de baze sunt necesare pentru a înscrie 15. Ca atare, recomandăm valori între 7 – 15 pentru acest parametru. Pentru meciurile palindromice, este posibilă o aliniere mai lungă – prin urmare, acest prag poate fi mai mare, în intervalul 30. Parametrul ‘ nepotrivire de semințe ‘este utilizat pentru a eficientiza alinierile, specificând numărul maxim de nepotrivire de bază din’ sămânță ‘ (16 baze). Valorile tipice aici sunt 1 sau 2.