Articles

USADELLAB.org -Trimmomatic: a flexible read trimming tool for Illumina NGS data

Trimmomatic: A flexible read trimming tool for Illumina NGS data

Citations

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmatic: een flexibele trimmer voor Illumina Sequentiegegevens. Bio-informatica, btu170.

downloaden van Trimmatic

versie 0.39: binair, bron en handleiding

versie 0.36: binair en bron

Snelstart

gekoppeld einde:

met de meeste nieuwe datasets kunt u zachte kwaliteit trimmen en adapter knippen.

u hebt vaak geen voorloop-en traling clipping nodig. Ook in het algemeen keepBothReads kan nuttig zijn bij het werken met gekoppelde end data, u zult zelfs redunfant informatie te houden, maar dit maakt waarschijnlijk uw pijpleidingen meer beheersbaar. Let op de extra: 2 voor keepBothReads dit is de minimale adapter lengte in palindrome modus, je kunt dit zelfs instellen op 1. (Standaard is een zeer conservatieve 8)

Als u vragen heeft aarzel dan niet om ons te contacteren, dit is niet noodzakelijk one size fits all. (b. v. rnaseq-expressieanalyse versus de assemblage van DNA).

alleen voor referentie (minder gevoelig voor adapters)

Dit zal het volgende uitvoeren:

  • Verwijder adapters (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • verwijder leidende lage kwaliteit of N basen (onder kwaliteit 3) (leidende:3)
  • Verwijder trailing lage kwaliteit of N basen (onder kwaliteit 3) (TRAILING:3)
  • Scan het lezen met een 4-base breed schuifvenster, snijden wanneer de gemiddelde kwaliteit per base daalt onder de 15 (schuifvenster:4:15)
  • Drop leest onder de 36 basen lang (MINLEN:36)

enkel uiteinde:

Dit zal dezelfde stappen uitvoeren, met behulp van het single-ended adapterbestand

Description

Trimmatic voert een verscheidenheid aan nuttige trimmatic taken uit voor illumina gepaarde en single-ended data.De selectie van trimmen stappen en de bijbehorende parameters worden geleverd op de opdrachtregel.

de huidige trim stappen zijn:

  • ILLUMINACLIP: Cut adapter en andere illumina-specifieke sequenties uit het lezen.
  • SLIDINGWINDOW: een schuifvenster trimmen, snijden zodra de gemiddelde kwaliteit binnen het venster onder een drempel valt.
  • leidinggevend: Snijd basen uit het begin van lezen, als onder een drempel kwaliteit
  • TRAILING: Knippen basen uit het einde van lezen, als onder een drempel kwaliteit
  • BIJSNIJDEN: Snijd het lezen van een opgegeven lengte
  • HEADCROP: Snijd het opgegeven aantal bases van de start van het lezen
  • MINLEN: Drop het lezen als het onder een bepaalde lengte
  • TOPHRED33: zet de kwaliteit van de scores van Phred-33
  • TOPHRED64: Converteer kwaliteitsscores naar Phred-64

Het werkt met fastq (met behulp van phred + 33 of phred + 64 kwaliteitsscores, afhankelijk van de gebruikte Illumina pipeline), hetzij ongecomprimeerd of gzipp ‘ ed FASTQ. Gebruik van gzip formaat wordt bepaald op basis van de .GZ uitbreiding.

voor single-ended data worden één invoer-en één uitvoerbestand gespecificeerd, plus de verwerkingsstappen. Voor gepaarde-end data worden twee invoerbestanden gespecificeerd, en 4 uitvoerbestanden, 2 voor de’ gepaarde ‘uitvoer waar beide reads de verwerking overleefden, en 2 voor overeenkomstige’ ongepaarde ‘ uitvoer waar een read overleefde, maar de partner read niet.

draait Trimmatic

sinds versie 0.27 kan trimmatic worden uitgevoerd met behulp van-jar. De’ oude ‘ methode, met behulp van de expliciete Klasse, blijft werken.

gepaarde Eindmodus:

of

enkelvoudige Eindmodus:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

of

indien geen kwaliteitsscore is opgegeven, is phred-64 de standaard. Dit zal worden gewijzigd in een’ autodetected ‘ kwaliteitsscore in een toekomstige versie.

het opgeven van een trimlog-bestand maakt een logboek van alle leesafsnijdsels, met vermelding van de volgende details:

  • De leesnaam
  • de overlevende sequentielengte
  • de locatie van de eerste overlevende base, Alias. de hoeveelheid bijgesneden vanaf het begin
  • de locatie van de laatst overgebleven base in het origineel gelezen
  • de hoeveelheid bijgesneden vanaf het einde

meerdere stappen kunnen worden opgegeven zoals vereist, met behulp van extra argumenten aan het einde.

De meeste stappen hebben een of Meer instellingen, gescheiden door’: ‘(een dubbele punt)

Stapopties:

  • ILLUMINACLIP:<fastaWithAdaptersEtc><zaad mismatches><palindroom clip drempel><eenvoudige clip drempel>
    • fastaWithAdaptersEtc: hiermee geeft u het pad naar een fasta bestand met alle adapters, PCR-sequenties enz. De naamgeving van de verschillende sequenties in dit bestand bepaalt hoe ze worden gebruikt. Zie hieronder.
    • seedMismatches: specificeert het maximale aantal mismatches waardoor nog steeds een volledige overeenkomst kan worden uitgevoerd
    • palindromeClipThreshold: geeft aan hoe nauwkeurig de overeenkomst tussen de twee ‘adapter ligated’ leest moet zijn voor PE palindrome lezen uitlijning.
    • simpleClipThreshold: geeft aan hoe nauwkeurig de overeenkomst tussen een adapter etc. de volgorde moet tegen een uitlezing zijn.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowSize: hier geeft u het nummer van de grondslagen gemiddelde over
    • requiredQuality: hiermee wordt de gemiddelde kwaliteit vereist.
  • leidend:<kwaliteit>
    • kwaliteit: geeft de minimale kwaliteit aan die vereist is om een basis te behouden.
  • VOLGSPOOR:<kwaliteit>
    • kwaliteit: geeft de minimale kwaliteit aan die vereist is om een basis te behouden.

  • bijsnijden:<lengte>
    • lengte: het aantal te behouden basen, vanaf het begin van het lezen.
  • HEADCROP:<length>
    • lengte: Het aantal bases te verwijderen vanaf het begin van het lezen.
  • MINLEN:<lengte>
    • lengte: geeft de minimumlengte aan van de te bewaren leeslengte.

bijsnijden volgorde

bijsnijden vindt plaats in de volgorde waarin de stappen zijn opgegeven op de opdrachtregel. Het wordt in de meeste gevallen aanbevolen dat adapter knippen, indien nodig, wordt gedaan zo vroeg mogelijk.

de Adapter Fasta

Illumina adapter en andere technische sequenties zijn auteursrechtelijk beschermd door Illumina,maar we hebben toestemming gekregen om ze te distribueren met Trimmomatic. Voorgestelde adapter sequenties worden geleverd voor TruSeq2 (zoals gebruikt in GAII machines) en TruSeq3 (zoals gebruikt door hiseq en MiSeq machines), voor zowel single-end en gepaarde-end modus. Deze opeenvolgingen zijn niet uitgebreid getest, en afhankelijk van specifieke kwesties die in bibliotheekvoorbereiding kunnen voorkomen, kunnen andere opeenvolgingen voor een bepaalde dataset beter werken.

om een aangepaste versie van fasta te maken, moet u eerst begrijpen hoe het zal worden gebruikt. Trimmomatic maakt gebruik van twee strategieën voor het trimmen van adapters: Palindrome en Simple

bij ‘simple’ trimmen wordt elke adapterreeks getest op de uitlezing en wordt, als een voldoende nauwkeurige overeenkomst wordt gedetecteerd, de uitlezing correct afgeknipt.

“Palindrome” – bijsnijden is specifiek ontworpen voor het “doorlezen” van een kort fragment in de adapterreeks aan de andere kant. In deze benadering, zijn de aangewezen adapteropeenvolgingen ‘in silico ligated’ op het begin van Leest, en de gecombineerde adapter+gelezen opeenvolgingen, vooruit en achteruit worden uitgelijnd. Als ze uitgelijnd zijn op een manier die ‘doorlezen’ aangeeft, wordt de vooruitlezing geknipt en de achteruitlezing weggelaten (omdat deze geen nieuwe gegevens bevat).

De naamgeving van de sequenties geeft aan hoe ze gebruikt moeten worden. Voor’ Palindrome ‘knippen, moeten de sequenamen zowel beginnen met’ Prefix’, en eindigen op’ /1 ‘voor de forward adapter en’ /2 ‘ voor de reverse adapter. Alle andere sequenties worden gecontroleerd met behulp van de ‘eenvoudige’ modus. Sequenties met namen die eindigen op ‘/ 1 ‘of’ / 2 ‘ worden alleen gecontroleerd met de vooruit-of achteruitlezen. Sequenties die niet eindigen op’ /1 ‘of’ /2 ‘ zullen worden gecontroleerd aan de hand van zowel de vooruit als de achteruit lezen. Als u wilt controleren op de reverse-complement van een specifieke reeks, moet u specifiek ook de reverse-complement vorm van de reeks, met een andere naam.

de gebruikte drempels zijn een vereenvoudigde log-waarschijnlijkheidsbenadering. Elke overeenkomende base voegt iets meer dan 0,6, terwijl elke mismatch vermindert de uitlijningsscore met Q/10. Daarom zal een perfecte match van een 12 base sequentie iets meer dan 7 scoren, terwijl 25 bases nodig zijn om 15 te scoren. Als zodanig adviseren wij waarden tussen 7-15 voor deze parameter. Voor palindromische overeenkomsten is een langere uitlijning mogelijk-daarom kan deze drempel hoger zijn, in het bereik van 30. De parameter ‘ seed mismatch ‘wordt gebruikt om alignments efficiënter te maken, met vermelding van de maximale basis mismatch telling in de’ seed ‘ (16 bases). Typische waarden hier zijn 1 of 2.