Articles

USADELLAB.org – Trimmomatic: flexibilní číst ořezávání nástroj pro Illumina NGS dat

Trimmomatic: flexibilní číst ořezávání nástroj pro Illumina NGS dat

Citace

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: flexibilní zastřihovač pro sekvenční data Illumina. Bioinformatika, btu170.

Stahování Trimmomatic

Verze 0.39: binární, zdroj a návod.

Verze 0.36: binární a zdrojové

Rychlý start

Spárované Konec:

většina nových datových sad, můžete použít jemný kvalitní ořezávání a adaptér výstřižek.

často nepotřebujete ořezávání vedení a traliningu. Také v obecné keepBothReads mohou být užitečné při práci s spárován end dat, budete mít i redunfant informace, ale pravděpodobně to dělá vaše potrubí více zvládnutelné. Poznámka: další: 2 před keepBothReads toto je minimální délka adaptéru v režimu palindromu, můžete to dokonce nastavit na 1. (Výchozí je velmi konzervativní 8)

Máte-li dotazy, neváhejte nás kontaktovat,není to nutně jedna velikost pro všechny. analýza exprese RNAseq vs sestavení DNA).

pouze pro informaci (méně citlivé na adaptéry)

provede se následující:

  • odebrat adaptéry (ILLUMINACLIP: TruSeq3-PE.fa:2:30:10)
  • Odstraňte přední nízké kvality nebo N základny (níže kvality 3) (VEDOUCÍ:3)
  • Odstranit koncové nízké kvality nebo N základny (níže kvality 3) (KONCOVÉ:3)
  • Skenování číst s 4-base široké posuvné okno, řezání, když průměrná kvalita za základ klesne pod 15 (SLIDINGWINDOW:4:15)
  • Pokles čte pod 36 bází dlouhé (MINLEN:36)

Single End:

Tento bude provádět stejné kroky, pomocí single-ended adaptér souboru

Popis

Trimmomatic provádí řadu užitečných ořezávání úkoly pro illumina spárované-end a jeden skončil data.Výběr ořezávacích kroků a jejich přidružené parametry jsou uvedeny na příkazovém řádku.

aktuální kroky ořezávání jsou:

  • ILLUMINACLIP: vyjmout adaptér a další sekvence specifické pro illuminu ze čtení.
  • SLIDINGWINDOW: proveďte ořezávání posuvných oken, jakmile průměrná kvalita v okně klesne pod práh.
  • vedoucí: Řez základů ze začátku číst, je-li pod práh kvality
  • KONCOVÉ: Řez základů z konce čtení, je-li pod práh kvality
  • OŘÍZNOUT: Snížit číst zadané délky
  • HEADCROP: Snížit zadaný počet základen od začátku číst
  • MINLEN: Pokles číst, pokud to je pod stanovenou délku
  • TOPHRED33: Převést kvality Phred skóre-33
  • TOPHRED64: Převést kvality Phred skóre-64

To funguje s FASTQ (pomocí phred + 33 nebo phred + 64 skóre kvality, v závislosti na Illumina potrubí se používá), a to buď nekomprimované nebo gzipp ‚ ed FASTQ. Použití formátu gzip je určena na základě .rozšíření gz.

pro data s jedním koncem je zadán jeden vstupní a jeden výstupní soubor plus kroky zpracování. Pro spárování-end dat, dva vstupní soubory jsou specifikovány, a 4 výstupní soubory, 2 pro ‚spárované‘ výstup, kde se obě čte přežil zpracování, a 2 pro odpovídající ‚nepárové‘ výstup, kde číst přežil, ale partner číst neměl.

běží Trimmomatic

od verze 0.27, trimmomatic lze provádět pomocí-jar. „Stará“ metoda pomocí explicitní třídy pokračuje v práci.

Spárované End Mode:

nebo

Jeden Konec Režimu:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

nebo

Pokud žádné skóre kvality je uvedeno, phred-64 je výchozí. To se v budoucí verzi změní na skóre kvality „automaticky detekováno“.

zadáním souboru trimlog vytvoříte protokol všech přečtených ověsů s uvedením následujících údajů:

  • název čtení
  • délka přežívající sekvence
  • umístění první přežívající základny, aka. množství upraven od začátku
  • umístění z posledních dochovaných základny v původním číst
  • množství upraven od konce

Více kroků může být zadán podle potřeby, pomocí další argumenty na konci.

Většina kroků, jedno nebo více nastavení, oddělených ‚:‘ (dvojtečka)

Krok možnosti:

  • ILLUMINACLIP:<fastaWithAdaptersEtc><sémě nesouladu><palindrom klip práh><jednoduchý klip práh>
    • fastaWithAdaptersEtc: určuje cestu k fasta soubor obsahující všechny adaptéry, PCR, sekvence atd. Pojmenování různých sekvencí v tomto souboru určuje, jak jsou používány. Nížit.
    • seedMismatches: určuje maximální počet nesouladů, který stále umožní provést úplnou shodu
    • palindromeClipThreshold: určuje, jak přesné zápas mezi dvěma ligován adaptér‘ čte, musí být pro PE palindrome číst zarovnání.
    • simpleClipThreshold: určuje, jak přesná je shoda mezi libovolným adaptérem atd. sekvence musí být proti čtení.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowSize: určuje počet základen na průměru
    • requiredQuality: určuje průměrné požadované kvalitě.
  • vedoucí:<kvalitní>
    • kvalita: Určuje minimální kvalitě potřebné udržet základnu.
  • KONCOVÉ:<kvalitní>
    • kvalita: Určuje minimální kvalitě potřebné udržet základnu.
  • OŘÍZNOUT:<délka>
    • délka: počet základen udržet, od začátku přečíst.
  • HEADCROP:<délka>
    • délka: Počet základen odstranit od začátku čtení.
  • MINLEN:<délka>
    • délka: Určuje minimální délku čte být uchovávány.

pořadí ořezávání

ořezávání probíhá v pořadí, v jakém jsou kroky zadány na příkazovém řádku. Ve většině případů se doporučuje, aby se ořezávání adaptéru v případě potřeby provedlo co nejdříve.

adaptér Fasta

adaptér Illumina a další technické sekvence jsou chráněny autorskými právy Illumina, ale bylo nám uděleno povolení k jejich distribuci pomocí Trimmomatic. Navrhl adaptér sekvence jsou k dispozici pro TruSeq2 (jak je používán v gail nám strojů) a TruSeq3 (jako používá HiSeq a MiSeq stroje), pro single-end a spárované-end režimu. Tyto sekvence nebyly rozsáhle testovány, a v závislosti na konkrétních problémech, které se mohou vyskytnout při přípravě knihovny, jiné sekvence mohou pro danou datovou sadu fungovat lépe.

Chcete-li vytvořit vlastní verzi fasta, musíte nejprve pochopit, jak bude použita. Trimmomatic používá dvě strategie pro adaptér úprava: Palindrom a Jednoduché

S „jednoduché“ ořezávání, každý adaptér sekvence je testován proti čte, a je-li dostatečně přesné, zápas je detekován, přečtěte si je připnutý správně.

ořezávání’palindromu‘ je speciálně navrženo pro případ „přečtení“ krátkého fragmentu do sekvence adaptéru na druhém konci. V tomto přístupu, odpovídající adaptér sekvence jsou ‚in silico ligován se na začátku čte, a v kombinaci adaptér+čtení sekvence, vpřed a vzad jsou vyrovnány. Pokud se vyrovnat způsobem, který naznačuje, ‚čtení‘, dopředu číst je oříznut a naopak číst klesla (protože neobsahuje žádné nové údaje).

pojmenování sekvencí označuje, jak by měly být použity. Pro ořezávání „palindromu“ by názvy sekvencí měly začínat „prefixem“ a končit na „/1 „pro dopředný adaptér a“ /2 “ pro zpětný adaptér. Všechny ostatní sekvence jsou kontrolovány v režimu „simple“. Sekvence s názvy končícími na ‚/ 1 ‚nebo‘ / 2 ‚ budou kontrolovány pouze proti čtení vpřed nebo vzad. Sekvence nekončící na ‚/ 1 ‚nebo‘ / 2 ‚ budou kontrolovány proti čtení vpřed i vzad. Pokud chcete zkontrolovat zpětný doplněk konkrétní sekvence, musíte konkrétně zahrnout i zpětně doplněnou formu sekvence, s jiným názvem.

použité prahové hodnoty jsou zjednodušeným přístupem log-likelihood. Každá odpovídající základna přidává něco přes 0,6, zatímco každý nesoulad snižuje skóre zarovnání O Q / 10. Proto, perfektní shoda 12 základní sekvence bude skóre něco přes 7, zatímco 25 základny jsou potřebné pro skóre 15. Pro tento parametr doporučujeme hodnoty mezi 7 – 15. U palindromických zápasů je možné delší zarovnání – proto může být tato prahová hodnota vyšší v rozmezí 30. Parametr „neshoda osiva“ se používá k zefektivnění zarovnání a specifikuje maximální počet neshod základny v „osivu“ (16 bází). Typické hodnoty jsou zde 1 nebo 2.