Articles

USADELLAB.org -Trimmomatic: elastyczne narzędzie do przycinania odczytu danych Illumina NGS

Trimmomatic: elastyczne narzędzie do przycinania odczytu danych Illumina NGS

Cytaty

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: elastyczny trymer do danych sekwencji Illumina. Bioinformatyka, btu170.

pobieranie Trimmomatic

wersja 0.39: binarny, źródłowy i ręczny

wersja 0.36: binarny i źródłowy

Szybki start

sparowany koniec:

przy większości nowych zestawów danych można użyć delikatnego przycinania jakości i przycinania adaptera.

często nie trzeba prowadzić i tralingu. Również ogólnie keepBothReads może być przydatne podczas pracy z sparowanymi danymi końcowymi, zachowasz nawet informacje redunfant, ale to prawdopodobnie ułatwia zarządzanie potokami. Uwaga dodatkowe: 2 przed keepBothReads jest to minimalna długość adaptera w trybie palindromu, możesz nawet ustawić to na 1. (Domyślnie jest to bardzo konserwatywne 8)

Jeśli masz pytania, nie wahaj się z nami skontaktować, niekoniecznie jest to jeden rozmiar dla wszystkich. (np. rnaseq expression analysis vs DNA assembly).

tylko w celach informacyjnych (mniej wrażliwe na Adaptery)

to wykona następujące czynności:

  • Usuń Adaptery (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • Usuń wiodącą niską jakość lub N baz (poniżej Jakości 3) (wiodącą:3)
  • Usuń końcową niską jakość lub N baz (poniżej Jakości 3) (końcową:3)
  • Skanuj odczyt za pomocą przesuwnego okna o szerokości 4 podstawy, tnąc, gdy średnia jakość na bazę spadnie poniżej 15 (SLIDINGWINDOW:4:15)
  • spadek odczytuje poniżej 36 baz (MINLEN:36)
  • /li>

single end:

to wykona te same kroki, używając pojedynczego pliku adaptera

opis

Trimmomatic wykonuje wiele przydatnych zadań przycinania dla danych Illumina sparowanych i pojedynczych.Wybór kroków przycinania i powiązanych z nimi parametrów jest dostarczany w wierszu poleceń.

aktualnymi krokami przycinania są:

  • ILLUMINACLIP: Cut adapter i inne sekwencje specyficzne dla illumina z odczytu.
  • SLIDINGWINDOW: wykonaj przesuwne przycinanie okna, cięcie, gdy średnia jakość w oknie spadnie poniżej progu.
  • prowadzący: Cut bases off the start of a read, if below a threshold quality
  • TRAILING: Cut bases off the end of a read, if below a threshold quality
  • CROP: Cut The read to a specified length
  • HEADCROP: Cut the specified number of bases from the start of the read
  • MINLEN: Drop the read if it is below a specified length
  • TOPHRED33: Convert quality scores to Phred-33
  • tophred64: Konwertuj wyniki jakości na Phred-64

współpracuje z FASTQ (używając wyników jakości phred + 33 lub phred + 64, w zależności od używanego potoku Illumina), nieskompresowanym lub gzipp ’ ed FASTQ. Wykorzystanie formatu gzip jest ustalane na podstawie .rozszerzenie gz.

dla danych jednostronnych określa się jeden plik wejściowy i jeden plik wyjściowy, plus kroki przetwarzania. Dla sparowanych danych końcowych określa się dwa pliki wejściowe i 4 pliki wyjściowe, 2 dla „sparowanego” wyjścia, w którym oba odczyty przetrwały przetwarzanie, i 2 dla odpowiedniego „niesparowanego” wyjścia, w którym odczyt przetrwał, ale odczytany partner nie przetrwał.

uruchamianie Trimmomatic

od wersji 0.27, trimmomatic może być uruchamiany przy użyciu-jar. „Stara” metoda, używając klasy explicit, nadal działa.

sparowany tryb końcowy:

lub

Tryb Pojedynczy:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

lub

Jeśli nie podano Wyniku Jakości, domyślnym jest phred-64. Zostanie to zmienione na „Automatycznie wykrywany” wynik jakości w przyszłej wersji.

podanie pliku trimlog tworzy dziennik wszystkich odczytywanych wycinków, wskazując następujące szczegóły:

  • odczytana nazwa
  • ocalała długość sekwencji
  • lokalizacja pierwszej ocalałej bazy, aka. ilość przycięta od początku
  • lokalizacja ostatniej zachowanej bazy w oryginalnym odczycie
  • ilość przycięta od końca

wiele kroków można określić w razie potrzeby, używając dodatkowych argumentów na końcu.

Większość kroków ma jedno lub więcej ustawień, rozdzielone przez ’:’ (dwukropek)

opcje kroku:

  • ILLUMINACLIP: <fastaWithAdaptersEtc><niedopasowania nasion><próg klipowy palindromu><prosty próg klipowy>
    • fastawithadaptersetc: określa ścieżkę do pliku FASTA zawierającego wszystkie adaptery, sekwencje PCR itp. Nazewnictwo różnych sekwencji w tym pliku określa sposób ich użycia. Patrz poniżej.
    • seedMismatches: określa maksymalną liczbę niedopasowań, która pozwoli na pełne dopasowanie
    • palindromeClipThreshold: określa, jak dokładne musi być dopasowanie dwóch odczytów „podwiązanych adapterem” dla wyrównania odczytu palindromu PE.
    • simpleClipThreshold: określa, jak dokładne dopasowanie między dowolnym adapterem itp. sekwencja musi być niezgodna z odczytem.
  • SLIDINGWINDOW:<windowSize><wymaganość>
    • windowsize: określa liczbę baz do średniej w obrębie
    • REQUIREDQUALITY: określa wymaganą średnią jakość.
  • :<jakość>
    • jakość: określa minimalną jakość wymaganą do utrzymania bazy.
  • <jakość>
    • jakość: określa minimalną jakość wymaganą do utrzymania bazy.
  • CROP:<długość>
    • długość: liczba baz do zachowania, od początku odczytu.
  • HEADCROP:<długość>
    • długość: Liczba baz do usunięcia z początku odczytu.
  • MINLEN:<długość>
    • długość: określa minimalną długość odczytów, które mają być przechowywane.

kolejność przycinania

przycinanie odbywa się w kolejności określonej w wierszu poleceń. W większości przypadków zaleca się, aby przycinanie adaptera, w razie potrzeby, odbywało się jak najwcześniej.

Adapter Fasta

adapter Illumina i inne sekwencje techniczne są chronione prawem autorskim przez Illumina,ale otrzymaliśmy pozwolenie na ich dystrybucję z Trimmomatic. Sugerowane sekwencje adapterów są dostępne dla TruSeq2 (używanego w maszynach GAII) i TruSeq3 (używanego przez maszyny Hiseq i MiSeq), zarówno dla trybu pojedynczego, jak i sparowanego. Sekwencje te nie zostały szeroko przetestowane i w zależności od konkretnych problemów, które mogą wystąpić w przygotowaniu biblioteki, inne sekwencje mogą działać lepiej dla danego zbioru danych.

aby stworzyć niestandardową wersję fasta, musisz najpierw zrozumieć, w jaki sposób będzie ona używana. Trimmomatic wykorzystuje dwie strategie przycinania adapterów: palindrom i Simple

przy „prostym” przycinaniu każda sekwencja adaptera jest testowana pod kątem odczytu, a jeśli zostanie wykryte wystarczająco dokładne dopasowanie, odczyt jest odpowiednio przycięty.

przycinanie „palindromu” jest specjalnie zaprojektowane do „czytania” krótkiego fragmentu w sekwencji adaptera na drugim końcu. W tym podejściu odpowiednie sekwencje adapterów są „ligowane in silico” na początku odczytu, a połączone sekwencje adaptera+odczytu, do przodu i do tyłu są wyrównane. Jeśli wyrównają się w sposób oznaczający „odczyt”, odczyt do przodu jest przycięty, a odczyt do tyłu odrzucony (ponieważ nie zawiera nowych danych).

nazewnictwo sekwencji wskazuje, w jaki sposób należy je stosować. W przypadku przycinania „palindromu” nazwy sekwencji powinny zaczynać się od „prefiksu”, a kończyć na „/1 „dla adaptera do przodu i” /2 ” dla adaptera do tyłu. Wszystkie pozostałe sekwencje są sprawdzane w trybie’ simple’. Sekwencje o nazwach kończących się na '/1 'lub’ / 2 ’ będą sprawdzane tylko przed odczytem do przodu lub do tyłu. Sekwencje nie kończące się na „/1 ” lub „/2 ” będą sprawdzane zarówno przed odczytem do przodu, jak i do tyłu. Jeśli chcesz sprawdzić odwrotne dopełnienie określonej sekwencji, musisz dokładnie uwzględnić odwrotną uzupełnioną formę sekwencji, również z inną nazwą.

stosowane progi są uproszczoną metodą logarytmiczną. Każda pasująca baza dodaje nieco ponad 0,6, podczas gdy każde niedopasowanie zmniejsza wynik wyrównania O Q / 10. W związku z tym, Idealne dopasowanie 12 sekwencji bazowej zdobędzie nieco ponad 7, podczas gdy 25 BAZ jest potrzebnych do zdobycia 15. W związku z tym zalecamy wartości pomiędzy 7 – 15 dla tego parametru. W przypadku dopasowań palindromicznych możliwe jest dłuższe wyrównanie-dlatego próg ten może być wyższy, w zakresie 30. Parametr „niedopasowanie materiału siewnego” jest stosowany w celu zwiększenia skuteczności wyrównań, określając maksymalną liczbę niedopasowań bazy w „nasionach” (16 zasad). Typowe wartości to 1 lub 2.