Articles

USADELLAB.org -Trimmomatic: en fleksibel læse trimning værktøj til Illumina NGS data

Trimmomatic: en fleksibel læse trimning værktøj til Illumina NGS data

citater

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: en fleksibel trimmer til Illumina sekvensdata. Bioinformatik, btu170.

Hent Trimmomatic

Version 0.39: binær, kilde og manuel

Version 0.36: binær og kilde

Hurtig start

parret ende:

med de fleste nye datasæt kan du bruge blid kvalitet trimning og adapter klipning.

Du har ofte ikke brug for føring og traling af klipning. Også generelt keepBothReads kan være nyttige, når du arbejder med parrede slutdata, du vil holde endnu redunfant oplysninger, men det gør sandsynligvis dine rørledninger mere håndterbare. Bemærk det ekstra: 2 foran keepBothReads dette er den mindste adapterlængde i palindrome-tilstand, du kan endda indstille dette til 1. (Standard er en meget konservativ 8)

Hvis du har spørgsmål, så tøv ikke med at kontakte os, dette er ikke nødvendigvis en størrelse passer til alle. (f.eks.

kun til reference (mindre følsom for adaptere)

dette vil udføre følgende:

  • Fjern adaptere (ILLUMINACLIP:Trusek3-PE.fa:2:30:10)
  • Fjern førende lav kvalitet eller n baser (under kvalitet 3) (førende:3)
  • fjern efterfølgende lav kvalitet eller N baser (under kvalitet 3) (efterfølgende:3)
  • Scan læsningen med et 4-base bredt skydevindue, skære, når den gennemsnitlige kvalitet pr. base falder til under 15 (glidevindue:4:15)
  • Drop læser under de 36 baser lange (MINLEN:36)

enkelt ende:

dette vil udføre de samme trin, ved hjælp af single-ended adapter fil

beskrivelse

Trimmomatic udfører en række nyttige trimning opgaver for illumina parret-ende og single ended data.Valget af trimningstrin og deres tilknyttede parametre leveres på kommandolinjen.

de aktuelle trimningstrin er:

  • ILLUMINACLIP: Cut adapter og andre illumina-specifikke sekvenser fra læsningen.
  • sliding vindue: udfør en glidende vindue trimning, skære når den gennemsnitlige kvalitet i vinduet falder under en tærskel.
  • førende: Klip baser fra starten af en læsning, hvis under en tærskelkvalitet
  • efterfølgende: klip baser fra slutningen af en læsning, hvis under en tærskelkvalitet
  • Beskær: klip læsningen til en bestemt længde
  • HEADCROP: klip det angivne antal baser fra starten af læsningen
  • MINLEN: slip læsningen, hvis den er under en bestemt længde
  • TOPHRED33: konverter kvalitetsresultater til Phred-33
  • tophred64: Konverter kvalitetsresultater til Phred-64

det fungerer med phred + 33 eller phred + 64 kvalitetsresultater afhængigt af den anvendte Illumina-rørledning), enten ukomprimeret eller gcipp ‘ ed-hurtig. Anvendelse af gcip-format bestemmes ud fra .udvidelse.

for data med en enkelt ende angives en input-og en outputfil plus behandlingstrinnene. For parrede slutdata specificeres to inputfiler og 4 outputfiler, 2 for den ‘parrede’ output, hvor begge læsninger overlevede behandlingen, og 2 for tilsvarende ‘uparret’ output, hvor en læsning overlevede, men partneren læste ikke.

kører Trimmomatic

siden version 0.27 kan trimmomatic udføres ved hjælp af-jar. Den ‘gamle’ metode, der bruger den eksplicitte klasse, fortsætter med at arbejde.

parret sluttilstand:

eller

Single End Mode:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

eller

Hvis der ikke er angivet noget kvalitetsresultat, er phred-64 standard. Dette ændres til et ‘autodetekteret’ kvalitetsresultat i en fremtidig version.

angivelse af en trimlog-fil opretter en log over alle læste besætninger, der angiver følgende detaljer:

  • læsnavnet
  • den overlevende sekvenslængde
  • placeringen af den første overlevende base, aka. mængden trimmet fra starten
  • placeringen af den sidste overlevende base i den oprindelige læse
  • mængden trimmet fra slutningen

flere trin kan specificeres efter behov ved hjælp af yderligere argumenter i slutningen.

de fleste trin tager en eller flere indstillinger, afgrænset af ‘:’ (et kolon)

Trinindstillinger:

  • ILLUMINACLIP: < fastaadaptersetc ><Seed mismatches><palindrome clip threshold><simpelt klip tærskel>
    • fastamedadaptersetc: angiver stien til en FASTA-fil, der indeholder alle adaptere, PCR-sekvenser osv. Navngivningen af de forskellige sekvenser i denne fil bestemmer, hvordan de bruges. Se nedenfor.
    • seedMismatches: angiver den maksimale mismatch count, som stadig vil tillade en fuld kamp, der skal udføres
    • palindromeClipThreshold: angiver, hvor nøjagtig kampen mellem de to ‘adapter ligeret’ læser skal være for PE palindrome læse justering.
    • simpleClipThreshold: angiver, hvor præcis matchen mellem en adapter osv. sekvens skal være imod en læse.
  • glidevindue:<vinduestørrelse><krævetkvalitet>
    • vinduesstørrelse: angiver antallet af baser til gennemsnit på tværs af
    • krævet kvalitet: angiver den krævede gennemsnitlige kvalitet.
  • førende:<kvalitet>
    • kvalitet: angiver den minimumskvalitet, der kræves for at holde en base.
  • efterfølgende:<kvalitet>
    • kvalitet: angiver den minimumskvalitet, der kræves for at holde en base.
  • CROP:<længde>
    • længde: antallet af baser, der skal holdes, fra starten af læsningen.
  • HEADCROP:<længde >
    • længde: Antallet af baser, der skal fjernes fra starten af læsningen.
  • MINLEN:<længde>
    • længde: angiver den mindste længde af læsninger, der skal holdes.

Trimningsrækkefølge

trimning sker i den rækkefølge, som trinene er angivet på kommandolinjen. Det anbefales i de fleste tilfælde, at adapterklipning om nødvendigt udføres så tidligt som muligt.

adapteren Fasta

Illumina adapter og andre tekniske sekvenser er ophavsretligt beskyttet af Illumina,men vi har fået tilladelse til at distribuere dem med Trimmomatic. Foreslåede adaptersekvenser leveres til Trusek2 (som brugt i GAII-maskiner) og Trusek3 (som brugt af Hisekv-og Misekv-maskiner) til både single-end og paired-end-tilstand. Disse sekvenser er ikke blevet grundigt testet, og afhængigt af specifikke problemer, der kan opstå i bibliotekets forberedelse, kan andre sekvenser fungere bedre for et givet datasæt.

for at lave en brugerdefineret version af fasta skal du først forstå, hvordan den vil blive brugt. Trimmomatic bruger to strategier til adapterbeskæring: Palindrome og Simple

Med ‘enkel’ trimning testes hver adaptersekvens mod læsningerne, og hvis der opdages en tilstrækkelig nøjagtig match, klippes læsningen korrekt.’Palindrome’ trimning er specielt designet til at ‘læse igennem’ et kort fragment i adaptersekvensen i den anden ende. I denne tilgang er de passende adaptersekvenser ‘in silico ligeret’ på starten af læsningerne, og de kombinerede adapter+læsesekvenser, frem og tilbage er justeret. Hvis de justeres på en måde, der angiver ‘gennemlæsning’, klippes den fremadrettede læsning, og den omvendte aflæsning falder (da den ikke indeholder nye data).

navngivning af sekvenserne angiver, hvordan de skal bruges. For’ Palindrome ‘klipning skal sekvensnavnene begge starte med’ præfiks ‘og slutte i’ /1 ‘for den forreste adapter og’ /2 ‘ for den omvendte adapter. Alle andre sekvenser kontrolleres ved hjælp af ‘simple’ mode. Sekvenser med navne, der slutter på ‘/ 1’ eller ‘/ 2’, kontrolleres kun mod fremad eller omvendt læsning. Sekvenser, der ikke slutter i ‘/ 1’ eller ‘/ 2’, kontrolleres mod både fremad og omvendt læsning. Hvis du vil tjekke for omvendt komplement af en bestemt sekvens, skal du også specifikt inkludere den omvendt supplerede form af sekvensen med et andet navn.

de anvendte tærskler er en forenklet log-Sandsynlighed tilgang. Hver matchende base tilføjer lidt over 0,6, mens hver uoverensstemmelse reducerer justeringsresultatet med spørgsmål/10. Derfor vil et perfekt match af en 12 basissekvens score lidt over 7, mens 25 baser er nødvendige for at score 15. Som sådan anbefaler vi værdier mellem 7 – 15 for denne parameter. For palindromiske kampe er en længere justering mulig-derfor kan denne tærskel være højere i området 30. Parameteren ‘ seed mismatch ‘bruges til at gøre justeringer mere effektive og specificere det maksimale antal basismismatch i’ seed ‘ (16 baser). Typiske værdier her er 1 eller 2.