Articles

USADELLAB.org -Trimmomatic: rugalmas olvasási vágóeszköz az Illumina NGS adatokhoz

Trimmomatic: rugalmas olvasási vágóeszköz az Illumina NGS adatokhoz

Idézetek

Bolger, A. M., Lohse, M.,& Usadel, B. (2014). Trimmomatic: rugalmas trimmer Illumina szekvencia adatok. Bioinformatika, btu170.

A Trimmomatic letöltése

0.39-es verzió: bináris, forrás és kézi

0.36-os verzió: bináris és forrás

gyors indítás

párosított vég:

a legtöbb új adatkészlettel kíméletes minőségű vágást és adapternyírást használhat.

gyakran nincs szükség vezető és traling vágásra. Általában a keepBothReads hasznos lehet a párosított végadatokkal való munka során is, még a redunfant információkat is megőrzi, de ez valószínűleg kezelhetőbbé teszi a csővezetékeket. Vegye figyelembe a kiegészítőt: 2 a keepBothReads előtt ez a minimális adapterhossz palindrom módban, ezt akár 1-re is beállíthatja. (Alapértelmezett egy nagyon konzervatív 8)

Ha kérdése van, kérjük, ne habozzon kapcsolatba lépni velünk, ez nem feltétlenül egy kaptafára. (pl. rnaseq expressziós elemzés vs DNS összeállítás).

csak tájékoztató jelleggel (adaptereknél kevésbé érzékeny)

Ez a következő műveletet hajtja végre:

  • adapterek eltávolítása (ILLUMINACLIP: TruSeq3-PE.fa:2:30:10)
  • távolítsa el a vezető gyenge minőségű vagy N bázisokat (a 3. minőség alatt) (vezető:3)
  • távolítsa el a hátsó gyenge minőségű vagy N bázisokat (a 3. minőség alatt) (záró:3)
  • szkennelje be az olvasást egy 4-bázisú széles tolóablakkal, vágás, amikor az alaponkénti átlagos minőség 15 alá csökken (SLIDINGWINDOW:4:15)
  • csepp olvassa a 36 bázis hosszú (MINLEN:36)
  • li>

egyetlen vég:

Ez ugyanazokat a lépéseket fogja végrehajtani, az egyvégű adapterfájl használatával

leírás

a Trimmomatic számos hasznos vágási feladatot hajt végre az illumina párosított végű és egyvégű adataihoz.A vágási lépések kiválasztása és a hozzájuk tartozó paraméterek a parancssorban találhatók.

az aktuális vágási lépések a következők:

  • ILLUMINACLIP: vágott adapter és más illumina-specifikus szekvenciák az olvasásból.
  • SLIDINGWINDOW: végezze el a tolóablak vágás, vágás, ha az átlagos minőség az ablakon belül alá esik egy küszöb.
  • vezető: Vágja le az alapokat az olvasás kezdetéről, ha egy küszöb alatt van Minőség
  • záró: vágja le az alapokat az olvasás végéről, ha egy küszöb alatt van Minőség
  • CROP: vágja le az olvasást egy meghatározott hosszúságra
  • HEADCROP: vágja le a megadott számú alapot az olvasás kezdetétől
  • MINLEN: dobja el az olvasást, ha az egy meghatározott hosszúság alatt van
  • TOPHRED33: minőségi pontszámok konvertálása Phred-33-ra
  • > tophred64: Konvertálja a minőségi pontszámokat Phred-64-re

a FASTQ-val működik (phred + 33 vagy phred + 64 minőségi pontszámokkal, az alkalmazott Illumina csővezetéktől függően), tömörítetlen vagy gzipp ‘ ed FASTQ. Használata gzip formátum alapján határozzuk meg a .gz kiterjesztés.

egyvégű adatok esetén egy bemeneti és egy kimeneti fájl van megadva, valamint a feldolgozási lépések. A párosított végű adatok esetében két bemeneti fájl van megadva, és 4 kimeneti fájl, 2 a ‘párosított’ kimenethez, ahol mindkét olvasás túlélte a feldolgozást, és 2 a megfelelő ‘párosítatlan’ kimenethez, ahol az olvasás fennmaradt, de a partner olvasott nem.

futó Trimmomatic

a 0.27-es verzió óta a trimmomatic a-jar használatával hajtható végre. A’ régi ‘ módszer, az explicit osztályt használva, továbbra is működik.

párosított Végmód:

vagy

egyvégű mód:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

vagy

ha nincs megadva minőségi pontszám, a phred-64 Az alapértelmezett. Ez egy későbbi verzióban automatikusan észlelt minőségi pontszámra változik.

a trimlog fájl megadása naplót hoz létre az összes olvasási vágásról, jelezve a következő részleteket:

  • az olvasási név
  • a túlélő szekvencia hossza
  • az első túlélő bázis helye, más néven. az összeg vágva a kezdetektől
  • a helyét az utolsó fennmaradt bázis az eredeti olvasási
  • az összeg vágva a végén

több lépésben lehet megadni, ha szükséges, segítségével további érveket a végén.

a legtöbb lépés egy vagy több beállítást vesz igénybe, amelyet ‘:’ (kettőspont) határol

lépés opciók:

  • ILLUMINACLIP: < fastaWithAdaptersEtc><vetőmag-eltérések><palindrome clip küszöb><egyszerű klip threshold>
    • fastawithadaptersetc: megadja az összes adaptert, PCR szekvenciát stb.tartalmazó fasta fájl elérési útját. A fájlban található különféle szekvenciák elnevezése határozza meg, hogyan használják őket. Lásd alább.
    • seedMismatches: megadja a maximális eltérési számot, amely továbbra is lehetővé teszi a teljes mérkőzés végrehajtását
    • palindromeClipThreshold: megadja, hogy a PE palindrom olvasási igazítás esetén milyen pontosnak kell lennie a két ‘adapter lekötött’ olvasmány közötti egyezésnek.
    • simpleClipThreshold: meghatározza, hogy mennyire pontos az illesztés bármely adapter között stb. szekvencia ellen kell olvasni.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowsize: megadja az átlagos bázisok számát
    • REQUIREDQUALITY: megadja a szükséges átlagos minőséget.
  • vezető:<quality>
    • minőség: meghatározza a bázis megtartásához szükséges minimális minőséget.
  • záró:<minőség>
    • minőség: meghatározza a bázis megtartásához szükséges minimális minőséget.

  • CROP:<hossz>
    • hossz: a tartandó bázisok száma az olvasás kezdetétől.
  • HEADCROP:< hossz >
    • hossz: Az olvasás kezdetétől eltávolítandó bázisok száma.
  • MINLEN:<length>
    • length: meghatározza az olvasások minimális hosszát.

vágási sorrend

a vágás a parancssorban megadott sorrendben történik. A legtöbb esetben ajánlott, hogy az adapter vágása, ha szükséges, a lehető leghamarabb megtörténjen.

A Fasta Adapter

az Illumina adapter és más műszaki szekvenciák szerzői jogvédelem alatt állnak az Illumina által,de engedélyt kaptunk a Trimmomatic terjesztésére. A javasolt adapter szekvenciák a TruSeq2 (a GAII gépekben használt) és a TruSeq3 (a HiSeq és a MiSeq gépek által használt), mind az egyvégű, mind a párosított végű módban. Ezeket a szekvenciákat nem tesztelték széles körben, és a könyvtári előkészítés során felmerülő konkrét problémáktól függően más szekvenciák jobban működhetnek egy adott adatkészletnél.

a fasta egyedi verziójának elkészítéséhez először meg kell értenie, hogyan fogják használni. A Trimmomatic két stratégiát használ az adapter vágásához: Palindrome és Simple

az ‘simple’ vágással minden egyes adaptersorozatot tesztelnek a leolvasások alapján, és ha kellően pontos egyezést észlelnek, a leolvasást megfelelően levágják.

a’Palindrome’ vágást kifejezetten arra az esetre tervezték, ha egy rövid fragmentumot átolvasunk a másik végén lévő adaptersorozatba. Ebben a megközelítésben a megfelelő adaptersorozatokat ‘in silico ligáljuk’ az olvasás elejére, és a kombinált adapter+olvasási szekvenciák, előre és hátra igazodnak. Ha olyan módon igazodnak egymáshoz, hogy az ‘átolvasást’ jelzi, akkor az előre leolvasott értéket levágják, a hátrameneti értéket pedig leejtik (mivel nem tartalmaz új adatokat).

a szekvenciák elnevezése jelzi, hogyan kell használni őket. A ‘palindrom’ vágásnál a szekvencianeveknek ‘Prefix’ – el kell kezdődniük, és ‘/1’ – vel kell végződniük az előre adapternél és ‘/2’ – vel a fordított adapternél. Az összes többi szekvenciát az ‘egyszerű’ mód segítségével ellenőrizzük. A ‘/1’ vagy ‘/2’ végződésű szekvenciákat csak az előre vagy hátra leolvasott értékek alapján ellenőrizzük. A nem ‘/1’ – re vagy ‘/2’ – re végződő szekvenciákat mind az előre, mind a hátramenetben ellenőrizni kell. Ha ellenőrizni szeretné egy adott szekvencia fordított kiegészítését, akkor külön meg kell adnia a szekvencia fordított kiegészítésű formáját is, egy másik névvel.

az alkalmazott küszöbértékek egyszerűsített log-valószínűségi megközelítés. Minden egyező bázis valamivel több mint 0,6-ot ad hozzá, míg minden eltérés Q/10-rel csökkenti az igazítási pontszámot. Ezért egy 12 alapszekvencia tökéletes mérkőzése alig több mint 7 pontot ér el, míg 25 bázisra van szükség a 15 pont megszerzéséhez. Mint ilyen, 7-15 közötti értékeket ajánlunk ehhez a paraméterhez. Palindromikus mérkőzések esetén hosszabb igazítás lehetséges-ezért ez a küszöb magasabb lehet, 30 tartományban. A ‘seed mismatch’ paraméter az igazítások hatékonyabbá tételére szolgál, meghatározva a ‘seed’ (16 bázis) maximális alapmismatch-számát. Tipikus értékek itt 1 vagy 2.