USADELLAB.org -Trimmomatic: elastyczne narzędzie do przycinania odczytu danych Illumina NGS
Trimmomatic: elastyczne narzędzie do przycinania odczytu danych Illumina NGS
Cytaty
Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: elastyczny trymer do danych sekwencji Illumina. Bioinformatyka, btu170.
pobieranie Trimmomatic
wersja 0.39: binarny, źródłowy i ręczny
wersja 0.36: binarny i źródłowy
Szybki start
sparowany koniec:
przy większości nowych zestawów danych można użyć delikatnego przycinania jakości i przycinania adaptera.
często nie trzeba prowadzić i tralingu. Również ogólnie keepBothReads może być przydatne podczas pracy z sparowanymi danymi końcowymi, zachowasz nawet informacje redunfant, ale to prawdopodobnie ułatwia zarządzanie potokami. Uwaga dodatkowe: 2 przed keepBothReads jest to minimalna długość adaptera w trybie palindromu, możesz nawet ustawić to na 1. (Domyślnie jest to bardzo konserwatywne 8)
Jeśli masz pytania, nie wahaj się z nami skontaktować, niekoniecznie jest to jeden rozmiar dla wszystkich. (np. rnaseq expression analysis vs DNA assembly).
tylko w celach informacyjnych (mniej wrażliwe na Adaptery)
to wykona następujące czynności:
- Usuń Adaptery (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
- Usuń wiodącą niską jakość lub N baz (poniżej Jakości 3) (wiodącą:3)
- Usuń końcową niską jakość lub N baz (poniżej Jakości 3) (końcową:3)
- Skanuj odczyt za pomocą przesuwnego okna o szerokości 4 podstawy, tnąc, gdy średnia jakość na bazę spadnie poniżej 15 (SLIDINGWINDOW:4:15)
- spadek odczytuje poniżej 36 baz (MINLEN:36)
- /li>
single end:
to wykona te same kroki, używając pojedynczego pliku adaptera
opis
Trimmomatic wykonuje wiele przydatnych zadań przycinania dla danych Illumina sparowanych i pojedynczych.Wybór kroków przycinania i powiązanych z nimi parametrów jest dostarczany w wierszu poleceń.
aktualnymi krokami przycinania są:
- ILLUMINACLIP: Cut adapter i inne sekwencje specyficzne dla illumina z odczytu.
- SLIDINGWINDOW: wykonaj przesuwne przycinanie okna, cięcie, gdy średnia jakość w oknie spadnie poniżej progu.
- prowadzący: Cut bases off the start of a read, if below a threshold quality
- TRAILING: Cut bases off the end of a read, if below a threshold quality
- CROP: Cut The read to a specified length
- HEADCROP: Cut the specified number of bases from the start of the read
- MINLEN: Drop the read if it is below a specified length
- TOPHRED33: Convert quality scores to Phred-33
- tophred64: Konwertuj wyniki jakości na Phred-64
współpracuje z FASTQ (używając wyników jakości phred + 33 lub phred + 64, w zależności od używanego potoku Illumina), nieskompresowanym lub gzipp ’ ed FASTQ. Wykorzystanie formatu gzip jest ustalane na podstawie .rozszerzenie gz.
dla danych jednostronnych określa się jeden plik wejściowy i jeden plik wyjściowy, plus kroki przetwarzania. Dla sparowanych danych końcowych określa się dwa pliki wejściowe i 4 pliki wyjściowe, 2 dla „sparowanego” wyjścia, w którym oba odczyty przetrwały przetwarzanie, i 2 dla odpowiedniego „niesparowanego” wyjścia, w którym odczyt przetrwał, ale odczytany partner nie przetrwał.
uruchamianie Trimmomatic
od wersji 0.27, trimmomatic może być uruchamiany przy użyciu-jar. „Stara” metoda, używając klasy explicit, nadal działa.
sparowany tryb końcowy:
lub
Tryb Pojedynczy:
java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...
lub
Jeśli nie podano Wyniku Jakości, domyślnym jest phred-64. Zostanie to zmienione na „Automatycznie wykrywany” wynik jakości w przyszłej wersji.
podanie pliku trimlog tworzy dziennik wszystkich odczytywanych wycinków, wskazując następujące szczegóły:
- odczytana nazwa
- ocalała długość sekwencji
- lokalizacja pierwszej ocalałej bazy, aka. ilość przycięta od początku
- lokalizacja ostatniej zachowanej bazy w oryginalnym odczycie
- ilość przycięta od końca
wiele kroków można określić w razie potrzeby, używając dodatkowych argumentów na końcu.
Większość kroków ma jedno lub więcej ustawień, rozdzielone przez ’:’ (dwukropek)
opcje kroku:
- ILLUMINACLIP: <fastaWithAdaptersEtc><niedopasowania nasion><próg klipowy palindromu><prosty próg klipowy>
- fastawithadaptersetc: określa ścieżkę do pliku FASTA zawierającego wszystkie adaptery, sekwencje PCR itp. Nazewnictwo różnych sekwencji w tym pliku określa sposób ich użycia. Patrz poniżej.
- seedMismatches: określa maksymalną liczbę niedopasowań, która pozwoli na pełne dopasowanie
- palindromeClipThreshold: określa, jak dokładne musi być dopasowanie dwóch odczytów „podwiązanych adapterem” dla wyrównania odczytu palindromu PE.
- simpleClipThreshold: określa, jak dokładne dopasowanie między dowolnym adapterem itp. sekwencja musi być niezgodna z odczytem.
- SLIDINGWINDOW:<windowSize><wymaganość>
- windowsize: określa liczbę baz do średniej w obrębie
- REQUIREDQUALITY: określa wymaganą średnią jakość.
- :<jakość>
- jakość: określa minimalną jakość wymaganą do utrzymania bazy.
- <jakość>
- jakość: określa minimalną jakość wymaganą do utrzymania bazy.
- CROP:<długość>
- długość: liczba baz do zachowania, od początku odczytu.
- HEADCROP:<długość>
- długość: Liczba baz do usunięcia z początku odczytu.
- MINLEN:<długość>
- długość: określa minimalną długość odczytów, które mają być przechowywane.
kolejność przycinania
przycinanie odbywa się w kolejności określonej w wierszu poleceń. W większości przypadków zaleca się, aby przycinanie adaptera, w razie potrzeby, odbywało się jak najwcześniej.
Adapter Fasta
adapter Illumina i inne sekwencje techniczne są chronione prawem autorskim przez Illumina,ale otrzymaliśmy pozwolenie na ich dystrybucję z Trimmomatic. Sugerowane sekwencje adapterów są dostępne dla TruSeq2 (używanego w maszynach GAII) i TruSeq3 (używanego przez maszyny Hiseq i MiSeq), zarówno dla trybu pojedynczego, jak i sparowanego. Sekwencje te nie zostały szeroko przetestowane i w zależności od konkretnych problemów, które mogą wystąpić w przygotowaniu biblioteki, inne sekwencje mogą działać lepiej dla danego zbioru danych.
aby stworzyć niestandardową wersję fasta, musisz najpierw zrozumieć, w jaki sposób będzie ona używana. Trimmomatic wykorzystuje dwie strategie przycinania adapterów: palindrom i Simple
przy „prostym” przycinaniu każda sekwencja adaptera jest testowana pod kątem odczytu, a jeśli zostanie wykryte wystarczająco dokładne dopasowanie, odczyt jest odpowiednio przycięty.
przycinanie „palindromu” jest specjalnie zaprojektowane do „czytania” krótkiego fragmentu w sekwencji adaptera na drugim końcu. W tym podejściu odpowiednie sekwencje adapterów są „ligowane in silico” na początku odczytu, a połączone sekwencje adaptera+odczytu, do przodu i do tyłu są wyrównane. Jeśli wyrównają się w sposób oznaczający „odczyt”, odczyt do przodu jest przycięty, a odczyt do tyłu odrzucony (ponieważ nie zawiera nowych danych).
nazewnictwo sekwencji wskazuje, w jaki sposób należy je stosować. W przypadku przycinania „palindromu” nazwy sekwencji powinny zaczynać się od „prefiksu”, a kończyć na „/1 „dla adaptera do przodu i” /2 ” dla adaptera do tyłu. Wszystkie pozostałe sekwencje są sprawdzane w trybie’ simple’. Sekwencje o nazwach kończących się na '/1 'lub’ / 2 ’ będą sprawdzane tylko przed odczytem do przodu lub do tyłu. Sekwencje nie kończące się na „/1 ” lub „/2 ” będą sprawdzane zarówno przed odczytem do przodu, jak i do tyłu. Jeśli chcesz sprawdzić odwrotne dopełnienie określonej sekwencji, musisz dokładnie uwzględnić odwrotną uzupełnioną formę sekwencji, również z inną nazwą.
stosowane progi są uproszczoną metodą logarytmiczną. Każda pasująca baza dodaje nieco ponad 0,6, podczas gdy każde niedopasowanie zmniejsza wynik wyrównania O Q / 10. W związku z tym, Idealne dopasowanie 12 sekwencji bazowej zdobędzie nieco ponad 7, podczas gdy 25 BAZ jest potrzebnych do zdobycia 15. W związku z tym zalecamy wartości pomiędzy 7 – 15 dla tego parametru. W przypadku dopasowań palindromicznych możliwe jest dłuższe wyrównanie-dlatego próg ten może być wyższy, w zakresie 30. Parametr „niedopasowanie materiału siewnego” jest stosowany w celu zwiększenia skuteczności wyrównań, określając maksymalną liczbę niedopasowań bazy w „nasionach” (16 zasad). Typowe wartości to 1 lub 2.