Articles

USADELLAB.org – Trimmomatic: a flexible read trimming tool for Illumina NGS data

Trimmomatic: a flexible read trimming tool for Illumina NGS data

Citations

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: joustava trimmeri Illumina-Sekvenssitietoihin. Bioinformatiikka, btu170.

lataaminen Trimmattu

Versio 0.39: binary, source and manual

Versio 0.36: binary ja source

Quick start

paritettu loppu:

useimmissa uusissa tietokokonaisuuksissa voit käyttää hellävaraista laadun trimmausta ja sovittimen leikkaamista.

et usein tarvitse johdattelua ja traalileikkausta. Myös yleisesti keepBothReads voi olla hyödyllinen, kun työskentelet parillisten päätetietojen kanssa, säilytät jopa redunfant-tietoja, mutta tämä todennäköisesti tekee putkistoistasi helpommin hallittavia. Huomaa lisää: 2 edessä keepBothReads tämä on pienin sovittimen pituus palindromitilassa, voit jopa asettaa tämän 1. (Oletusarvo on hyvin konservatiivinen 8)

Jos sinulla on kysyttävää, älä epäröi ottaa yhteyttä, Tämä ei välttämättä ole yksi koko sopii kaikille. (esim. rnaseq expression analysis vs. DNA assembly).

vain viitteellisiä (vähemmän herkkiä adaptereille)

Tämä suorittaa seuraavan:

  • Poista adapterit (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • Poista heikkolaatuiset tai N-emäkset (alle laatuluokan 3) (johtava:3)
  • Poista heikkolaatuiset tai N-emäkset (alle laatuluokan 3) (perään:3)
  • skannaa lukema 4-pohjaisella leveällä liukuikkunalla, Leikkaa, kun peruslaadun keskiarvo laskee alle 15:n (liukuikkuna:4:15)
  • pudotus lukee alle 36 emäksen pitkän (MINLEN: 36)

yksipäinen:

Tämä suorittaa samat vaiheet, käyttäen yksipäistä sovitintiedostoa

Description

Trimmomatic suorittaa erilaisia hyödyllisiä trimmaustehtäviä illumina-paripäätteisille ja yksipäätteisille tiedoille.Valinta leikkaus vaiheet ja niihin liittyvät parametrit toimitetaan komentoriviltä.

nykyiset trimmausvaiheet ovat:

  • ILLUMINACLIP: Cut adapter ja muut illumina-spesifiset sekvenssit luetusta.
  • SLIDINGWINDOW: tee Liukuikkunan trimmaus, joka leikataan, kun ikkunan keskimääräinen laatu laskee alle kynnyksen.
  • johtava: Leikkaa emäkset pois lukemisen alusta, jos se on alle kynnyslaadun
  • jälki: leikkaa emäkset lukuluvun lopusta, jos alle kynnyslaadun
  • CROP: leikkaa lukuluku määrätyn pituiseksi
  • MINLEN: pudota lukuluku, jos se on alle tietyn pituuden
  • TOPHRED33: Muunna laatulukuluku Phred-33: ksi
  • tofred64: Muuntaa laatupisteet Phred-64: ksi

se toimii fastq: n kanssa (käyttäen phred + 33 tai phred + 64 laatupisteitä, riippuen käytetystä Illumina-putkesta), joko pakkaamattomana tai gzipp ’ ed FASTQ: na. Käyttö gzip muoto määritetään perustuu .GZ-laajennus.

yksipäätteisille tiedoille on määritelty yksi syöttö-ja yksi tulostustiedosto sekä käsittelyvaiheet. Pariloppuisille tiedoille on määritelty kaksi tulotiedostoa ja 4 tulostetiedostoa, 2 parilaiselle tulosteelle, jossa molemmat lukee käsittelystä, ja 2 vastaavalle ”parittomalle” tulosteelle, jossa luku selvisi, mutta kumppani luki ei.

käynnissä oleva Trimmomatic

versiosta 0.27 lähtien trimmomatic voidaan suorittaa käyttämällä-Jaria. ”Vanha” menetelmä, jossa käytetään nimenomaista luokkaa, toimii edelleen.

paritettu Päätetila:

tai

Yksipäätetila:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

tai

Jos laatupisteitä ei ole määritelty, on oletuksena phred-64. Tämä muutetaan ”autodetected” – laatupisteeksi tulevassa versiossa.

Trimlog-tiedoston määritys luo lokin kaikista lukujäljennöksistä, osoittaen seuraavat yksityiskohdat:

  • lukunimi
  • eloonjääneen sekvenssin pituus
  • ensimmäisen säilyneen tukikohdan, aka. alusta karsittu määrä
  • viimeisen säilyneen pohjan sijainti alkuperäisessä luetussa
  • lopusta karsittu määrä

voidaan määrittää tarpeen mukaan käyttämällä lopussa olevia lisäargumentteja.

useimmissa askelissa otetaan yksi tai useampi asetus, rajattuna”: ”(kaksoispiste)

Askelvaihtoehdot:

  • ILLUMINACLIP:<fastaWithAdaptersEtc><seed mismatches><palindromin klipsin kynnys><yksinkertainen klipsi kynnys>
    • fastawithadaptersetc: määrittää fasta-tiedoston polun, joka sisältää kaikki sovittimet, PCR-sekvenssit jne. Eri sekvenssien nimeäminen tässä tiedostossa määrittää, miten niitä käytetään. Katso alta.
    • seedMismatches: määrittää suurimman otteluvirhemäärän, joka vielä mahdollistaa täyden ottelun suorittamisen
    • palindromeClipThreshold: määrittää, kuinka tarkka kahden ”adapteri ligated” lukee on PE palindromin lukea kohdistus.
    • simpleClipThreshold: määrittää, kuinka tarkka sovitin sopii yhteen minkä tahansa sovittimen kanssa jne. sekvenssin täytyy olla lukua vastaan.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • ikkunakoko: määrittää
    • required quality: määrittää vaaditun keskimääräisen laadun.
  • LEADING:<laatu>

    • laatu: määrittää pohjan pitämiseen vaadittavan vähimmäislaadun.
  • jälki:<laatu>
    • laatu: määrittää pohjan pitämiseen vaadittavan vähimmäislaadun.
  • CROP:<length>
    • length: the number of emäs to keep, from the start of the read.
  • HEADCROP:<length>
    • length: Määrä emäkset poistaa alusta lukea.
  • MINLEN:<length>
    • length: määrittelee pidettävien lukujen vähimmäispituuden.
  • Trimmausjärjestys

    trimmaus tapahtuu siinä järjestyksessä, jossa vaiheet on määritelty komentorivillä. On suositeltavaa useimmissa tapauksissa, että adapterin leikkaaminen, tarvittaessa, tehdään mahdollisimman aikaisin.

    Adapter Fasta

    Illumina adapter ja muut tekniset sekvenssit ovat Illuminan tekijänoikeudella suojattuja,mutta meille on myönnetty lupa levittää niitä Trimmomaticilla. Ehdotetut sovitinsekvenssit toimitetaan TruSeq2: lle (käytetään GAII-koneissa) ja TruSeq3: lle (käytetään HiSeq-ja MiSeq-koneissa) sekä yksipäälle että paripäätetilaan. Näitä sekvenssejä ei ole testattu laajasti, ja riippuen erityiskysymyksistä, joita saattaa esiintyä kirjaston valmistelussa, muut sekvenssit voivat toimia paremmin tietyn aineiston osalta.

    voidaksesi tehdä fasta muokatun version, sinun täytyy ensin ymmärtää, miten sitä käytetään. Trimmomatic käyttää sovittimen trimmaukseen kahta strategiaa: palindromia ja yksinkertaista

    ’yksinkertaista’ trimmausta, jokainen sovittimen sekvenssi testataan lukua vastaan, ja jos riittävän tarkka vastaavuus havaitaan, luku leikataan asianmukaisesti.

    ”Palindromin” trimmaus on suunniteltu erityisesti siihen, että toisessa päässä olevaan adapterisarjaan ”luetaan” lyhyt katkelma. Tässä lähestymistavassa sopiva adapteri sekvenssit ovat ”in silico ligated” päälle alussa lukee, ja yhdistetty adapteri+lukea sekvenssit, eteenpäin ja taaksepäin ovat linjassa. Jos ne ovat linjassa tavalla, joka osoittaa ”read-through”, edessä oleva luku leikataan ja käänteinen luku pudotetaan (koska se ei sisällä uusia tietoja).

    sekvenssien nimeäminen kertoo, miten niitä tulee käyttää. ”Palindromin” leikkauksessa sekvenssien nimien tulee sekä alkaa etuliitteellä että päättyä etuohjelman ”/1 ”ja käänteisadapterin ” /2″. Kaikki muut sekvenssit tarkistetaan ’simple’ – tilassa. Sekvenssit, joiden nimet päättyvät arvoihin ”/1 ” tai ”/2”, tarkistetaan vain eteen-tai taaksepäin luettua lukua vastaan. Sekvenssit, jotka eivät pääty lukuihin ”/1 ” tai ”/ 2”, tarkistetaan sekä eteen-että taaksepäin. Jos haluat tarkistaa tietyn sekvenssin käänteisen komplementin, sinun on erityisesti sisällytettävä myös sekvenssin käänteisesti täydennetty muoto, toisella nimellä.

    kynnysarvot ovat yksinkertaistettua log-todennäköisyyttä. Jokainen matching base lisää hieman yli 0.6, kun taas jokainen epäsuhta vähentää kohdistus pisteet Q/10. Näin ollen täydellinen ottelu 12 base järjestyksessä pisteet hieman yli 7, kun taas 25 emäkset tarvitaan pisteet 15. Sellaisenaan suosittelemme arvoja välillä 7 – 15 tälle parametrille. Palindromisia tulitikkuja varten pidempi linjaus on mahdollinen-siksi tämä kynnys voi olla korkeampi, alueella 30. Muuttujaa ”siementen täsmäytys” käytetään tehostamaan täsmäytyksiä, ja siinä täsmennetään ”siementen” (16 emästä) emästen enimmäismäärät. Tyypillisiä arvoja tässä ovat 1 tai 2.