Articles

USADELLAB.org -Trimmomatic: en flexibel läsa trimning verktyg för Illumina NGS data

Trimmomatic: en flexibel läsa trimning verktyg för Illumina NGS data

citat

Bolger, A. M., Lohse, M.,& Usadel, B. (2014). Trimmomatic: en flexibel trimmer för Illumina sekvensdata. Bioinformatik, btu170.

hämtar Trimmomatic

Version 0.39: binär, källa och manuell

Version 0.36: binär och källa

Snabbstart

parat slut:

med de flesta nya dataset kan du använda skonsam kvalitet trimning och adapter klippning.

du behöver ofta inte leda och trala Urklipp. Även i allmänhet kan keepBothReads vara användbara när du arbetar med parade slutdata, du kommer att behålla även redunfant-information men det gör sannolikt dina rörledningar mer hanterbara. Notera ytterligare: 2 Framför keepBothReads detta är den minsta adapterlängd i palindrome läge, Du kan även ställa in detta till 1. (Standard är en mycket konservativ 8)

om du har frågor tveka inte att kontakta oss, Detta är inte nödvändigtvis en storlek passar alla. (t.ex. RNAseq-uttrycksanalys vs DNA-montering).

endast för referens (mindre känslig för Adaptrar)

detta kommer att utföra följande:

  • ta bort Adaptrar (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • ta bort Ledande lågkvalitativa eller N-baser (under kvalitet 3) (Ledande:3)
  • ta bort efterföljande lågkvalitativa eller N-baser (under kvalitet 3) (efterföljande:3)
  • skanna läsningen med ett 4-bas brett skjutfönster, skär när den genomsnittliga kvaliteten per bas sjunker under 15 (SLIDINGWINDOW:4:15)
  • släpp läser under de 36 baserna långa (MINLEN:36)
  • li>

enda ände:

detta kommer att utföra samma steg, med hjälp av single-ended adapterfil

beskrivning

Trimmomatic utför en mängd användbara trimningsuppgifter för illumina Parade-end och single ended data.Valet av trimningssteg och deras tillhörande parametrar levereras på kommandoraden.

de aktuella trimningsstegen är:

  • ILLUMINACLIP: Cut adapter och andra illumina-specifika sekvenser från läsningen.
  • SLIDINGWINDOW: utför en glidande fönster trimning, skärning när den genomsnittliga kvaliteten inom fönstret faller under en tröskel.
  • ledande: Cut baser från början av en läsning, om under en tröskel kvalitet
  • avslutande: Cut baser från slutet av en läsning, om under en tröskel kvalitet
  • beskära: klipp läsningen till en viss längd
  • HEADCROP: klipp det angivna antalet baser från början av läsningen
  • MINLEN: släpp läsningen om den är under en viss längd
  • TOPHRED33: konvertera kvalitetsresultat till Phred-33
  • tophred64: Konvertera kvalitetsresultat till Phred-64

det fungerar med FASTQ (med phred + 33 eller phred + 64 kvalitetsresultat, beroende på Illumina pipeline används), antingen okomprimerad eller gzipp ’ ed FASTQ. Användning av GZIP-format bestäms baserat på .GZ förlängning.

för enstaka data anges en ingång och en utdatafil, plus bearbetningsstegen. För parade slutdata anges två indatafiler och 4 utdatafiler, 2 för’ parade ’- utgången där båda läser överlevde bearbetningen och 2 för motsvarande’ oparade ’ – utgång där en läsning överlevde, men partnerläsningen gjorde det inte.

kör Trimmomatic

sedan version 0.27 kan trimmomatic köras med-jar. Den ’gamla’ metoden, med den uttryckliga klassen, fortsätter att fungera.

parat Slutläge:

eller

enkel Slutläge:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

eller

om inget kvalitetsresultat anges är phred-64 standardvärdet. Detta kommer att ändras till en ’autodetected’ kvalitetsresultat i en framtida version.

att ange en trimlog-fil skapar en logg över alla lästa beslag, vilket indikerar följande detaljer:

  • läsnamnet
  • den överlevande sekvenslängden
  • platsen för den första överlevande basen, aka. mängden trimmad från början
  • platsen för den sista överlevande basen i den ursprungliga läsningen
  • mängden trimmad från slutet

flera steg kan anges efter behov genom att använda ytterligare argument i slutet.

de flesta steg tar en eller flera inställningar, avgränsade av’: ’(ett kolon)

stegalternativ:

  • ILLUMINACLIP:<fastaWithAdaptersEtc><frömatchningar><palindrome clip threshold><enkelt klipp tröskel>
    • fastawithadaptersetc: anger sökvägen till en fasta-fil som innehåller alla adaptrar, PCR-sekvenser etc. Namngivningen av de olika sekvenserna i den här filen bestämmer hur de används. Se nedan.
    • seedMismatches: anger det maximala antalet felmatchningar som fortfarande tillåter att en fullständig matchning utförs
    • palindromeClipThreshold: anger hur exakt matchningen mellan de två ’adapter ligated’ läser måste vara för PE palindrom läsa justering.
    • simpleClipThreshold: anger hur exakt matchningen mellan någon adapter etc. sekvens måste vara mot en läsning.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowsize: anger antalet baser till genomsnittet över
    • REQUIREDQUALITY: anger den genomsnittliga kvaliteten som krävs.
  • ledande:<kvalitet>
    • kvalitet: anger den lägsta kvalitet som krävs för att behålla en bas.
  • avslutande:<kvalitet>
    • kvalitet: anger den lägsta kvalitet som krävs för att behålla en bas.
  • Beskär:<längd>
    • längd: antalet baser att behålla, från början av läsningen.
  • HEADCROP:<längd >
    • längd: Antalet baser att ta bort från början av läsningen.
  • MINLEN:<length>
    • length: anger minsta längd för avläsningar som ska hållas.

Trimningsordning

trimning sker i den ordning som stegen anges på kommandoraden. Det rekommenderas i de flesta fall att adapterklippning, om det behövs, görs så tidigt som möjligt.

adaptern Fasta

Illumina adapter och andra tekniska sekvenser är upphovsrättsskyddade av Illumina,men vi har fått tillstånd att distribuera dem med Trimmomatic. Föreslagna adaptersekvenser tillhandahålls för TruSeq2 (som används i GAII-maskiner) och TruSeq3 (som används av HiSeq-och MiSeq-maskiner), för både single-end och paired-end-läge. Dessa sekvenser har inte testats i stor utsträckning, och beroende på specifika problem som kan uppstå i bibliotekets förberedelse kan andra sekvenser fungera bättre för en given dataset.

för att göra en anpassad version av fasta måste du först förstå hur den ska användas. Trimmomatic använder två strategier för adaptertrimning: palindrom och enkel

med ’enkel’ trimning Testas varje adaptersekvens mot läsningarna, och om en tillräckligt exakt matchning upptäcks klipps läsningen på lämpligt sätt.

’palindrom’ trimning är speciellt utformad för att ’läsa igenom’ ett kort fragment i adaptersekvensen i andra änden. I detta tillvägagångssätt är lämpliga adaptersekvenser ’in silico ligated’ på början av läsningar, och den kombinerade adapter+läsa sekvenser, framåt och bakåt är inriktade. Om de justeras på ett sätt som indikerar ’genomläsning’ klipps framåtläsningen och den omvända läsningen tappas (eftersom den inte innehåller några nya data).

namngivning av sekvenserna anger hur de ska användas. För’ palindrom ’- klippning bör sekvensnamnen både börja med ’ Prefix ’och sluta i’ /1 ’för framåtadaptern och’ /2 ’ för bakåtadaptern. Alla andra sekvenser kontrolleras med ’enkelt’ läge. Sekvenser med namn som slutar på ’ / 1 ’eller’ /2 ’ kommer endast att kontrolleras mot framåt-eller bakåtläsningen. Sekvenser som inte slutar i ’ / 1 ’eller’ /2 ’ kommer att kontrolleras mot både framåt-och bakåtläsning. Om du vill kontrollera om det omvända komplementet av en viss sekvens, måste du specifikt inkludera den omvända kompletterade formen av sekvensen också, med ett annat namn.

de tröskelvärden som används är en förenklad log-sannolikhetsmetod. Varje matchande bas lägger till drygt 0,6, medan varje missanpassning minskar justeringspoängen med Q/10. Därför kommer en perfekt matchning av en 12-bassekvens att göra drygt 7, medan 25-baser behövs för att göra 15. Som sådan rekommenderar vi värden mellan 7 – 15 för denna parameter. För palindromiska matchningar är en längre inriktning möjlig-därför kan denna tröskel vara högre, i intervallet 30. Parametern ’seed mismatch’ används för att effektivisera inriktningar och specificera det maximala antalet basmatchningar I’ seed ’ (16 baser). Typiska värden här är 1 eller 2.