Articles

USADELLAB.org -Trimmomatic: en fleksibel lese trimming verktøy For Illumina ngs data

Trimmomatic: en fleksibel lese trimming verktøy For Illumina ngs data

Sitater

Bolger, Am, Lohse, M., & Usadel, B. (2014). Trimmomatic: en fleksibel trimmer For Illumina Sekvensdata. Bioinformatikk, btu170.

Nedlasting Trimmomatic

Versjon 0.39: binær, kilde og manuell

Versjon 0.36: binær og kilde

Hurtigstart

Parret Ende:

med de fleste nye datasett kan du bruke skånsom kvalitet trimming og adapter klipping.

du trenger ofte ikke ledende og traling klipping. Også generelt keepBothReads kan være nyttig når du arbeider med sammenkoblede slutten data, vil du holde selv redunfant informasjon, men dette sannsynligvis gjør rørledninger mer håndterlig. Merk tillegg: 2 foran keepBothReads dette er den minste adapterlengden i palindrom-modus, du kan til og med sette dette til 1. (Standard er en veldig konservativ 8)

hvis du har spørsmål, ikke nøl med å kontakte oss, dette er ikke nødvendigvis en størrelse som passer alle. (f. eks rnaseq uttrykk analyse vs DNA montering).

For referanse (mindre følsom for adaptere)

dette vil utføre følgende:

  • Fjern adaptere (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • Fjern ledende lav kvalitet eller n baser (under kvalitet 3) (LEDENDE:3)
  • Fjern etterfølgende lav kvalitet eller n baser (under kvalitet 3) (ETTERFØLGENDE:3)
  • Skann lese med en 4-base bredt skyvevindu, kutte når gjennomsnittlig kvalitet per base faller under 15 (GLIDEVINDU:4:15)
  • Drop leser under 36 baser lang (MINLEN:36)

enkelt ende:

Dette vil utføre de samme trinnene, ved hjelp av single-ended adapter fil

Beskrivelse

Trimmomatic utfører en rekke nyttige trimming oppgaver for illumina paret ende og enkelt endte data.Valget av trimmingstrinn og tilhørende parametere leveres på kommandolinjen.

de nåværende trimmingstrinnene er:

  • ILLUMINACLIP: Cut adapter og andre illumina-spesifikke sekvenser fra lesingen.
  • SLIDINGWINDOW: Utfør en glidende vindu trimming, kutte når gjennomsnittlig kvalitet i vinduet faller under en terskel.
  • LEDENDE: Skjær baser av starten av en lese, hvis under en terskel kvalitet
  • ETTERFØLGENDE: Skjær baser av slutten av en lese, hvis under en terskel kvalitet
  • CROP: Skjær lese til en angitt lengde
  • HEADCROP: Skjær spesifisert antall baser fra starten av lese
  • MINLEN: Slipp lese hvis det er under en angitt lengde
  • TOPHRED33: Konverter kvalitet score Til Phred-33
  • tophred64: Konverter kvalitet score Til Phred-64

det fungerer MED FASTQ (ved hjelp av phred + 33 eller phred + 64 kvalitet score, avhengig Av Illumina rørledningen brukes), enten ukomprimert eller gzipp ‘ ed FASTQ. Bruk av gzip-formatet bestemmes basert pa det .gz forlengelse.

for single-ended data er en inngang og en utdatafil spesifisert, pluss behandlingstrinnene. For sammenkoblede-end data, to input-filer er spesifisert, og 4 output-filer, 2 for ‘paret’ utgang der begge leser overlevde behandlingen, og 2 for tilsvarende ‘unpaired’ utgang der en lese overlevde,men partneren lese ikke.

Running Trimmomatic

siden versjon 0.27 kan trimmomatic utføres ved hjelp av-jar. Den ‘gamle’ metoden, ved hjelp av den eksplisitte klassen, fortsetter å fungere.

Par Sluttmodus:

eller

Enkelt Endemodus:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

eller

hvis ingen kvalitetspoeng er angitt, er phred-64 standard. Dette vil bli endret til en ‘autodetected’ kvalitetspoeng i en fremtidig versjon.

Når du Angir en trimlog-fil, opprettes en logg over alle leseavskjær, som angir følgende detaljer:

  • lesenavnet
  • den overlevende sekvenslengden
  • plasseringen av den første overlevende basen, aka. mengden trimmet fra starten
  • plasseringen av den siste gjenlevende basen i den opprinnelige lese
  • mengden trimmet fra slutten

Flere trinn kan spesifiseres etter behov, ved å bruke flere argumenter på slutten.

de fleste trinnene tar en eller flere innstillinger, avgrenset av ‘:’ (et kolon)

Trinnalternativer:

  • ILLUMINACLIP: < fastaWithAdaptersEtc ><avvik fra frø><palindrome klipp terskel><enkelt klipp terskel>
    • fastawithadaptersetc: angir banen til en fasta-fil som inneholder alle adaptere, pcr-sekvenser etc. Navngivningen av de ulike sekvensene i denne filen bestemmer hvordan de brukes. Se nedenfor.
    • seedMismatches: angir maksimalt antall mismatch som fortsatt vil tillate full match å bli utført
    • palindromeClipThreshold: angir hvor nøyaktig samsvar mellom de to’ adapter ligert ‘ leser må VÆRE FOR PE palindrom lese justering.
    • simpleClipThreshold: angir hvor nøyaktig samsvar mellom noen adapter etc. sekvensen ma v re mot a lese.
  • SLIDINGWINDOW:<vindustørrelse><påkrevdkvalitet>
    • windowsize: angir antall baser til gjennomsnitt over
    • REQUIREDQUALITY: angir gjennomsnittlig kvalitet som kreves.
    • LEDENDE:<kvalitet>
      • kvalitet: Angir minimumskvaliteten som kreves for å beholde en base.
  • TRAILING:<kvalitet>
    • kvalitet: Angir minimumskvaliteten som kreves for å beholde en base.
    • BESKJÆR:<lengde>
      • lengde: antall baser som skal beholdes, fra starten av lesingen.
  • HEADCROP:<lengde>
    • lengde: Antall baser for å fjerne fra starten av lese.
  • MINLEN:<lengde>
    • lengde: Angir minimumslengden for lesing som skal beholdes.
  • Trimming Rekkefølge

    Trimming skjer i den rekkefølgen som trinnene er angitt på kommandolinjen. Det anbefales i de fleste tilfeller at adapterklipping, om nødvendig, gjøres så tidlig som mulig.

    Adapteren Fasta

    Illumina adapter og andre tekniske sekvenser er opphavsrettsbeskyttet Av Illumina,men Vi har fått tillatelse til å distribuere dem Med Trimmomatic. Foreslåtte adaptersekvenser er gitt For TruSeq2 (som brukt I gaii-maskiner) og TruSeq3 (som brukt Av HiSeq og MiSeq-maskiner), for både single-end og paired-end-modus. Disse sekvensene har ikke blitt grundig testet, og avhengig av spesifikke problemer som kan oppstå i bibliotekets forberedelse, kan andre sekvenser fungere bedre for et gitt datasett.

    for å lage en tilpasset versjon av fasta må du først forstå hvordan den skal brukes. Trimmomatic bruker To strategier for adaptertrimming: Palindrom og Enkel

    med ‘enkel’ trimming, testes hver adaptersekvens mot lesingene, og hvis en tilstrekkelig nøyaktig kamp oppdages, blir lesingen klippet riktig.

    ‘Palindrome’ trimming er spesielt designet for å lese gjennom et kort fragment i adaptersekvensen i den andre enden. I denne tilnærmingen er de riktige adaptersekvensene ‘i silico ligert’ på starten av lesene, og de kombinerte adapteren + lesesekvensene, fremover og bakover, er justert. Hvis de justeres på en måte som indikerer ‘gjennomlesning’, blir fremlesningen klippet og omvendt lesing droppet (siden den ikke inneholder nye data).

    Navngiving av sekvensene angir hvordan de skal brukes. For’ Palindrom ‘klipping, bør sekvensnavnene både starte med ‘Prefiks’ og ende i ‘/1 ‘for fremadapteren og’ /2 ‘ for omvendt adapter. Alle andre sekvenser er sjekket ved hjelp av ‘enkel’ modus. Sekvenser med navn som slutter på ‘/1 ‘eller’ / 2 ‘ vil bare bli sjekket mot forover eller bakover lese. Sekvenser som ikke slutter på ‘/1 ‘eller’ / 2 ‘ vil bli sjekket mot både forover og bakover lese. Hvis du vil se etter omvendt komplement av en bestemt sekvens, må du spesifikt inkludere omvendt komplement av sekvensen også, med et annet navn.

    tersklene som brukes er en forenklet log-sannsynlighet tilnærming. Hver matchende base legger litt over 0,6, mens hver mismatch reduserer justeringsresultatet Med Q/10. Derfor vil en perfekt match av en 12 basesekvens score litt over 7, mens 25 baser er nødvendig for å score 15. Som sadan anbefaler vi verdier mellom 7 – 15 for denne parameteren. For palindromiske kamper er en lengre justering mulig – derfor kan denne terskelen være høyere, i området 30. Den ‘seed mismatch’ parameter brukes til å gjøre justeringer mer effektiv, angi maksimal base mismatch teller i ‘ seed ‘(16 baser). Typiske verdier her er 1 eller 2.