Articles

USADELLAB.org – Trimmomatic: Ein flexibles Lese-Trimmwerkzeug für Illumina NGS-Daten

Trimmomatic: Ein flexibles Lese-Trimmwerkzeug für Illumina NGS-Daten

Zitate

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: Ein flexibler Trimmer für Illumina-Sequenzdaten. Bioinformatik, btu170.

Herunterladen von Trimmomatic

Version 0.39: Binär, Quelle und Handbuch

Version 0.36: Binär und Quelle

Schnellstart

Schnelles Ende:

Mit den meisten neuen Datensätzen können Sie qualitativ hochwertiges Trimmen und Adapterschneiden verwenden.

Sie brauchen oft kein führendes und tragendes Clipping. Im Allgemeinen kann keepBothReads auch nützlich sein, wenn Sie mit gepaarten Enddaten arbeiten. Beachten Sie das zusätzliche: 2 vor keepBothReads Dies ist die minimale Adapterlänge im Palindrom-Modus, Sie können dies sogar auf 1 setzen. (Standard ist eine sehr konservative 8)

Wenn sie fragen haben, zögern sie bitte nicht uns zu kontaktieren, dies ist nicht unbedingt eine größe passt alle. (z. B. RNAseq-Expressionsanalyse vs DNA-Assemblierung).

nur als Referenz (weniger empfindlich für Adapter)

Dadurch wird Folgendes ausgeführt:

  • Adapter entfernen (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • Führende niedrige Qualität oder N Basen entfernen (unter Qualität 3) (LEADING:3)
  • nachgestellte niedrige Qualität oder N Basen entfernen (unter Qualität 3) (TRAILING:3)
  • Scannen Sie den Lesevorgang mit einem 4-base breiten Schiebefenster, das schneidet, wenn die durchschnittliche Qualität pro Basis unter 15 fällt (SLIDINGWINDOW:4:15)
  • Drop liest unter die 36 Basen lang (MINLEN:36)

Einzelnes Ende:

Dies führt die gleichen Schritte mit der Single-Ended-Adapterdatei aus

Beschreibung

Trimmomatic führt eine Vielzahl nützlicher Trimmaufgaben für illumina-Daten mit gepaarten und Single-Ended-Daten durch.Die Auswahl der Trimmschritte und die zugehörigen Parameter werden in der Befehlszeile bereitgestellt.

Die aktuellen Trimmschritte sind:

  • ILLUMINACLIP: Schneiden Sie Adapter und andere illumina-spezifische Sequenzen aus dem Read.
  • SLIDINGWINDOW: Führt ein Sliding-Fenster-Trimmen durch, das schneidet, sobald die durchschnittliche Qualität innerhalb des Fensters unter einen Schwellenwert fällt.
  • FÜHREND: Cut bases off the beginn of a read, if below a threshold quality
  • TRAILING: Cut bases off the end of a read, if below a threshold quality
  • ZUSCHNEIDEN: Schneiden Sie den Lesevorgang auf eine bestimmte Länge ab
  • HEADCROP: Schneiden Sie die angegebene Anzahl von Basen vom Beginn des Lesevorgangs ab
  • MINLEN: Löschen Sie den Lesevorgang, wenn er unter einer bestimmten Länge liegt
  • TOPHRED33: Konvertieren von Qualitätswerten in Phred-33
  • TOPHRED64: Konvertieren Sie Qualitätswerte in Phred-64

Es funktioniert mit FASTQ (mit phred + 33 oder phred + 64 Qualitätswerten, abhängig von der verwendeten Illumina-Pipeline), entweder unkomprimiert oder gzipp’ed FASTQ. Verwendung von GZIP-Format wird auf der Grundlage der bestimmt .gz-Erweiterung.

Für Single-Ended-Daten werden eine Eingabe- und eine Ausgabedatei sowie die Verarbeitungsschritte angegeben. Für gepaarte Daten werden zwei Eingabedateien und 4 Ausgabedateien angegeben, 2 für die ‚gepaarte‘ Ausgabe, bei der beide Lesevorgänge die Verarbeitung überlebt haben, und 2 für die entsprechende ‚ungepaarte‘ Ausgabe, bei der ein Lesevorgang überlebt hat, der Partnerlesevorgang jedoch nicht.

Trimmomatic ausführen

Seit Version 0.27 kann trimmomatic mit -jar ausgeführt werden. Die ‚alte‘ Methode, die die explizite Klasse verwendet, funktioniert weiterhin.

Paired-End-Modus:

oder

Single-End-Modus:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

oder

Wenn kein Qualitätsfaktor angegeben ist, ist phred-64 der Standardwert. Dies wird in einer zukünftigen Version in einen ‚automatisch erkannten‘ Qualitätsfaktor geändert.

Wenn Sie eine Trimlog-Datei angeben, wird ein Protokoll aller gelesenen Trimmings erstellt, das die folgenden Details enthält:

  • der gelesene Name
  • die überlebende Sequenzlänge
  • die Position der ersten überlebenden Basis, aka. der vom Anfang beschnittene Betrag
  • die Position der letzten überlebenden Basis im ursprünglichen Lesevorgang
  • der vom Ende beschnittene Betrag

Mehrere Schritte können nach Bedarf angegeben werden, indem zusätzliche Argumente am Ende verwendet werden.

Die meisten Schritte erfordern eine oder mehrere Einstellungen, die durch ‚:‘ (einen Doppelpunkt) begrenzt sind

Schrittoptionen:

  • ILLUMINACLIP:<fastaWithAdaptersEtc><Seed-Fehlanpassungen><Palindrom-Clip-Schwelle><einfache Clip-Schwelle>
    • fastaWithAdaptersEtc: Gibt den Pfad zu einer Fasta-Datei an, die alle Adapter, PCR-Sequenzen usw. enthält. Die Benennung der verschiedenen Sequenzen in dieser Datei bestimmt, wie sie verwendet werden. Siehe unten.
    • seedMismatches: Gibt den maximalen Mismatch-Count an, der noch eine vollständige Übereinstimmung ermöglicht
    • palindromeClipThreshold: gibt an, wie genau die Übereinstimmung zwischen den beiden ‚adapterligierten‘ Lesevorgängen für die Ausrichtung des Palindrom-Lesevorgangs sein muss.
    • simpleClipThreshold: gibt an, wie genau die Übereinstimmung zwischen einem Adapter usw. sequenz muss gegen ein Lesen sein.
  • SLIDINGWINDOW:<Fenstergröße><Erforderliche Qualität>
    • Fenstergröße: gibt die Anzahl der Basen an, die über
    • requiredQuality gemittelt werden sollen: Gibt die erforderliche durchschnittliche Qualität an.

  • FÜHREND:<Qualität>
    • Qualität: Gibt die Mindestqualität an, die zum Beibehalten einer Basis erforderlich ist.
  • TRAILING:<Qualität>
    • Qualität: Gibt die Mindestqualität an, die erforderlich ist, um eine Basis zu erhalten.
  • CROP:<length>
    • length: Die Anzahl der Basen, die vom Beginn des Lesevorgangs an beibehalten werden sollen.
  • HEADCROP:<Länge>
    • Länge: Die Anzahl der Basen, die vom Beginn des Lesevorgangs entfernt werden sollen.
  • MINLEN:<length>
    • length: Gibt die minimale Länge der einzuhaltenden Lesevorgänge an.

Trimmreihenfolge

Das Trimmen erfolgt in der Reihenfolge, in der die Schritte in der Befehlszeile angegeben sind. Es wird in den meisten Fällen empfohlen, das Adapterclipping bei Bedarf so früh wie möglich durchzuführen.

Der Adapter Fasta

Illumina Adapter und andere technische Sequenzen sind von Illumina urheberrechtlich geschützt, aber wir haben die Erlaubnis erhalten, sie mit Trimmomatic zu vertreiben. Vorgeschlagene Adaptersequenzen werden für TruSeq2 (wie in GAII-Maschinen verwendet) und TruSeq3 (wie von HiSeq- und MiSeq-Maschinen verwendet) sowohl für den Single-End- als auch für den Paired-End-Modus bereitgestellt. Diese Sequenzen wurden nicht ausgiebig getestet, und abhängig von spezifischen Problemen, die bei der Bibliotheksvorbereitung auftreten können, können andere Sequenzen für einen bestimmten Datensatz besser funktionieren.

Um eine benutzerdefinierte Version von fasta zu erstellen, müssen Sie zunächst verstehen, wie sie verwendet wird. Trimmomatic verwendet zwei Strategien zum Trimmen von Adaptern: Palindrom und Simple

Mit ’simple‘ Trimmen wird jede Adaptersequenz gegen die Lesevorgänge getestet, und wenn eine ausreichend genaue Übereinstimmung festgestellt wird, wird der Lesevorgang entsprechend abgeschnitten.

‚Palindrome‘ Trimmen ist speziell für den Fall des ‚Durchlesens‘ eines kurzen Fragments in die Adaptersequenz am anderen Ende konzipiert. Bei diesem Ansatz werden die entsprechenden Adaptersequenzen am Anfang der Lesevorgänge in silico ligiert und die kombinierten Adapter + Lesesequenzen vorwärts und rückwärts ausgerichtet. Wenn sie in einer Weise ausgerichtet sind, die ‚Read-through‘ anzeigt, wird der Vorwärts-Lesevorgang abgeschnitten und der Rückwärts-Lesevorgang gelöscht (da er keine neuen Daten enthält).

Die Benennung der Sequenzen gibt an, wie sie verwendet werden sollen. Für das ‚Palindrom‘-Clipping sollten die Sequenznamen beide mit ‚Prefix‘ beginnen und in ‚/ 1‘ für den Vorwärtsadapter und ‚/ 2‘ für den Rückwärtsadapter enden. Alle anderen Sequenzen werden im ‚einfachen‘ Modus geprüft. Sequenzen mit Namen, die auf ‚/ 1‘ oder ‚/ 2‘ enden, werden nur gegen das Vorwärts- oder Rückwärtslesen geprüft. Sequenzen, die nicht mit ‚/ 1‘ oder ‚/ 2‘ enden, werden sowohl mit dem Vorwärts- als auch mit dem Rückwärtslesen verglichen. Wenn Sie nach der umgekehrten Ergänzung einer bestimmten Sequenz suchen möchten, müssen Sie auch die umgekehrte ergänzte Form der Sequenz mit einem anderen Namen angeben.

Die verwendeten Schwellenwerte sind ein vereinfachter Log-Likelihood-Ansatz. Jede übereinstimmende Basis fügt etwas mehr als 0,6 hinzu, während jede Nichtübereinstimmung die Ausrichtungspunktzahl um Q / 10 reduziert. Daher wird eine perfekte Übereinstimmung einer 12-Basen-Sequenz etwas mehr als 7 Punkte erzielen, während 25 Basen benötigt werden, um 15 Punkte zu erzielen. Daher empfehlen wir für diesen Parameter Werte zwischen 7 – 15. Bei palindromischen Matches ist eine längere Ausrichtung möglich – daher kann diese Schwelle höher sein, im Bereich von 30. Der Parameter ‚Seed mismatch‘ wird verwendet, um Alignments effizienter zu gestalten, indem die maximale Anzahl der Base Mismatch im ‚Seed‘ (16 Basen) angegeben wird. Typische Werte sind hier 1 oder 2.