Articles

USADELLAB.org – Trimmomatic : Un outil de coupe de lecture flexible pour les données Illumina NGS

Trimmomatic: Un outil de coupe de lecture flexible pour les données Illumina NGS

Citations

Bolger, A. M., Lohse, M., &Usadel, B. (2014). Trimmomatic: Un trimmer flexible pour les données de séquence Illumina. Bioinformatique, btu170.

Téléchargement Trimmomatic

Version 0.39: binaire, source et manuel

Version 0.36: binaire et source

Démarrage rapide

Fin jumelée:

Avec la plupart des nouveaux ensembles de données, vous pouvez utiliser un rognage de qualité douce et un écrêtage de l’adaptateur.

Vous n’avez souvent pas besoin de découpage de leading et de traling. De plus, en général, keepBothReads peut être utile lorsque vous travaillez avec des données de fin appariées, vous conserverez même des informations redondantes, mais cela rend probablement vos pipelines plus gérables. Notez les supplémentaires: 2 devant keepBothReads c’est la longueur minimale de l’adaptateur en mode palindrome, vous pouvez même la régler sur 1. (La valeur par défaut est un 8 très conservateur)

Si vous avez des questions, n’hésitez pas à nous contacter, ce n’est pas nécessairement une taille unique. (par exemple, analyse de l’expression RNAseq vs assemblage d’ADN).

pour référence uniquement (moins sensible pour les adaptateurs)

Ceci effectuera les opérations suivantes :

  • Retirer les adaptateurs (ILLUMINACLIP:TruSeq3-PE.fa: 2:30: 10)
  • Supprimer les bases de faible qualité ou N (en dessous de la qualité 3) (EN DESSOUS de la qualité 3)
  • Supprimer les bases de faible qualité ou N (en dessous de la qualité 3) (en dessous de la qualité 3)
  • Numériser la lecture avec une fenêtre coulissante large à 4 bases, en coupant lorsque la qualité moyenne par base tombe en dessous de 15 (SLIDINGWINDOW: 4:15)
  • Drop lit en dessous des 36 bases longues (MINLEN: 36)

Extrémité simple:

Ceci effectuera les mêmes étapes, en utilisant le fichier d’adaptateur à extrémité unique

Description

Trimmomatic effectue une variété de tâches de rognage utiles pour les données à extrémité jumelée et à extrémité unique illumina.La sélection des étapes de rognage et leurs paramètres associés sont fournis sur la ligne de commande.

Les étapes de coupe actuelles sont :

  • ILLUMINACLIP: Adaptateur de coupe et autres séquences spécifiques à illumina de la lecture.
  • SLIDINGWINDOW: Effectuez un rognage de fenêtre coulissante, en coupant une fois que la qualité moyenne de la fenêtre tombe en dessous d’un seuil.
  • LEADER: Couper les bases au début d’une lecture, si elles sont inférieures à une qualité seuil
  • TRAILING: Couper les bases à la fin d’une lecture, si elles sont inférieures à une qualité seuil
  • CROP: Couper la lecture à une longueur spécifiée
  • HEADCROP: Couper le nombre spécifié de bases à partir du début de la lecture
  • MINLEN: Supprimer la lecture si elle est inférieure à une longueur spécifiée
  • TOPHRED33: Convertir les scores de qualité en Phred-33
  • VOYEUR64: Convertir les scores de qualité en Phred-64

Il fonctionne avec FASTQ (en utilisant des scores de qualité phred + 33 ou phred + 64, selon le pipeline Illumina utilisé), soit FASTQ non compressé, soit gzipp’ed. L’utilisation du format gzip est déterminée en fonction de la.extension gz.

Pour les données à une extrémité, un fichier d’entrée et un fichier de sortie sont spécifiés, ainsi que les étapes de traitement. Pour les données de fin appariées, deux fichiers d’entrée sont spécifiés et 4 fichiers de sortie, 2 pour la sortie « appariée » où les deux lectures ont survécu au traitement et 2 pour la sortie « non appariée » correspondante où une lecture a survécu, mais pas la lecture du partenaire.

En cours d’exécution Trimmomatic

Depuis la version 0.27, trimmomatic peut être exécuté en utilisant -jar. L’ancienne méthode, utilisant la classe explicite, continue de fonctionner.

Mode de fin apparié :

ou

Mode de fin unique :

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

ou

Si aucun score de qualité n’est spécifié, phred-64 est la valeur par défaut. Cela sera remplacé par un score de qualité « autodétecté » dans une prochaine version.

La spécification d’un fichier trimlog crée un journal de tous les trimmings lus, indiquant les détails suivants:

  • le nom lu
  • la longueur de la séquence survivante
  • l’emplacement de la première base survivante, aka. le montant coupé depuis le début
  • l’emplacement de la dernière base survivante dans la lecture d’origine
  • le montant coupé depuis la fin

Plusieurs étapes peuvent être spécifiées selon les besoins, en utilisant des arguments supplémentaires à la fin.

La plupart des étapes prennent un ou plusieurs paramètres, délimités par ‘:’ (un deux-points)

Options d’étape:

  • ILLUMINACLIP: <fastaWithAdaptersEtc >< inadéquation des semences ><seuil de clip palindrome ><clip simple threshold >
    • fastaWithAdaptersEtc: spécifie le chemin d’accès à un fichier fasta contenant tous les adaptateurs, séquences PCR, etc. La dénomination des différentes séquences de ce fichier détermine leur utilisation. Voir ci-dessous.
    • seedMismatches : spécifie le nombre maximal d’incompatibilités qui permettra toujours d’effectuer une correspondance complète
    • palindromeClipThreshold: spécifie la précision de la correspondance entre les deux lectures « ligaturées par adaptateur » pour l’alignement de lecture du palindrome PE.
    • simpleClipThreshold: spécifie la précision de la correspondance entre n’importe quel adaptateur, etc. la séquence doit être contre une lecture.
  • SLIDINGWINDOW: <windowSize ><requiredQuality >
    • windowSize : spécifie le nombre de bases à moyenner sur
    • requiredQuality : spécifie la qualité moyenne requise.

  • LEADER:<qualité >
    • qualité : Spécifie la qualité minimale requise pour conserver une base.
  • TRAILING: <quality>
    • quality : Spécifie la qualité minimale requise pour conserver une base.
  • CROP: <length >
    • length: Le nombre de bases à conserver, depuis le début de la lecture.
  • HEADCROP: < longueur >
    • longueur: Le nombre de bases à supprimer depuis le début de la lecture.
  • MINLEN: < longueur >
    • longueur : Spécifie la longueur minimale des lectures à conserver.

Ordre de rognage

Le rognage se produit dans l’ordre dans lequel les étapes sont spécifiées sur la ligne de commande. Il est recommandé dans la plupart des cas que l’écrêtage de l’adaptateur, si nécessaire, soit effectué le plus tôt possible.

L’adaptateur Fasta

L’adaptateur Illumina et d’autres séquences techniques sont protégés par Illumina, mais nous avons obtenu l’autorisation de les distribuer avec Trimmomatic. Des séquences d’adaptateur suggérées sont fournies pour TruSeq2 (utilisé dans les machines GAII) et TruSeq3 (utilisé par les machines HiSeq et MiSeq), pour le mode à extrémité unique et le mode à extrémité jumelée. Ces séquences n’ont pas été largement testées, et en fonction de problèmes spécifiques pouvant survenir lors de la préparation de la bibliothèque, d’autres séquences peuvent mieux fonctionner pour un ensemble de données donné.

Pour créer une version personnalisée de fasta, vous devez d’abord comprendre comment elle sera utilisée. Trimmomatic utilise deux stratégies pour le rognage de l’adaptateur: Palindrome et Simple

Avec un rognage « simple », chaque séquence d’adaptateur est testée par rapport aux lectures, et si une correspondance suffisamment précise est détectée, la lecture est coupée de manière appropriée.

Le rognage ‘Palindrome’ est spécialement conçu pour le cas de la « lecture » d’un court fragment dans la séquence de l’adaptateur à l’autre extrémité. Dans cette approche, les séquences d’adaptateur appropriées sont « ligaturées in silico » sur le début des lectures, et les séquences combinées adaptateur + lecture, avant et arrière sont alignées. S’ils s’alignent d’une manière qui indique « lecture », la lecture avant est coupée et la lecture inverse est supprimée (car elle ne contient aucune nouvelle donnée).

La dénomination des séquences indique comment elles doivent être utilisées. Pour l’écrêtage ‘Palindrome’, les noms de séquence doivent commencer par ‘Prefix’ et se terminer par ‘/1’ pour l’adaptateur avant et ‘/2’ pour l’adaptateur arrière. Toutes les autres séquences sont vérifiées en mode « simple ». Les séquences dont les noms se terminent par ‘/1’ ou ‘/2’ ne seront vérifiées que par rapport à la lecture avant ou arrière. Les séquences ne se terminant pas par ‘/1’ ou ‘/2’ seront vérifiées à la fois par rapport à la lecture avant et arrière. Si vous souhaitez vérifier le complément inverse d’une séquence spécifique, vous devez également inclure spécifiquement la forme complétée inverse de la séquence, avec un autre nom.

Les seuils utilisés sont une approche simplifiée de log-vraisemblance. Chaque base correspondante ajoute un peu plus de 0,6, tandis que chaque non-concordance réduit le score d’alignement de Q / 10. Par conséquent, une correspondance parfaite d’une séquence de 12 bases marquera un peu plus de 7, tandis que 25 bases sont nécessaires pour en marquer 15. En tant que tel, nous recommandons des valeurs comprises entre 7 et 15 pour ce paramètre. Pour les correspondances palindromiques, un alignement plus long est possible – ce seuil peut donc être plus élevé, de l’ordre de 30. Le paramètre ‘seed mismatch’ est utilisé pour rendre les alignements plus efficaces, en spécifiant le nombre maximal d’incompatibilités de base dans la ‘seed’ (16 bases). Les valeurs typiques ici sont 1 ou 2.