Articles

USADELLAB.org -Trimmomatic: Una herramienta de recorte de lectura flexible para datos NGS de Illumina

Trimmomatic: Una herramienta de recorte de lectura flexible para datos NGS de Illumina

Citas

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmatic: Un recortador flexible para Datos de Secuencia Illumina. Bioinformática, btu170.

Descargar Trimmatic

Versión 0.39: binario, fuente y manual

Versión 0.36: binario y fuente

Inicio rápido

Fin emparejado:

Con la mayoría de los conjuntos de datos nuevos, puede usar recorte de calidad suave y recorte de adaptador.

A menudo no es necesario recortar la dirección y el traling. También en general, keepBothReads puede ser útil cuando se trabaja con datos finales emparejados, mantendrá incluso la información de redunfant, pero es probable que esto haga que sus canalizaciones sean más manejables. Tenga en cuenta el adicional :2 delante de keepBothReads esta es la longitud mínima del adaptador en el modo palíndromo, incluso puede configurarlo en 1. (El valor predeterminado es un 8 muy conservador)

Si tiene preguntas, no dude en contactarnos, esto no es necesariamente una talla única para todos. (por ejemplo, análisis de expresión RNAseq vs ensamblaje de ADN).

solo para referencia (menos sensible para adaptadores)

Esto realizará lo siguiente:

  • Quitar adaptadores (ILLUMINACLIP:TruSeq3-PE.fa: 2: 30: 10)
  • Eliminar las bases principales de baja calidad o N (por debajo de la calidad 3) (LEADING:3)
  • Eliminar las bases finales de baja calidad o N (por debajo de la calidad 3) (TRAILING:3)
  • Escanear la lectura con una ventana deslizante ancha de 4 bases, cortando cuando la calidad promedio por base cae por debajo de 15 (VENTANA DESLIZANTE:4:15)
  • /li>

Un solo extremo:

Esto realizará los mismos pasos, utilizando el archivo de adaptador de extremo único

Descripción

Trimmomatic realiza una variedad de tareas de recorte útiles para los datos de extremo emparejado y extremo único de illumina.La selección de pasos de recorte y sus parámetros asociados se proporcionan en la línea de comandos.

Los pasos de recorte actuales son:

  • Adaptador de corte ILLUMINACLIP y otras secuencias específicas de illumina de la lectura.
  • VENTANA DESLIZANTE: Realice un recorte de ventana deslizante, cortando una vez que la calidad promedio dentro de la ventana caiga por debajo de un umbral.
  • LÍDER: Cortar bases del inicio de una lectura, si está por debajo de una calidad de umbral
  • FINAL: Cortar bases del final de una lectura, si está por debajo de una calidad de umbral
  • RECORTAR: Cortar la lectura a una longitud especificada
  • HEADCROP: Cortar el número especificado de bases desde el inicio de la lectura
  • MINLEN: Eliminar la lectura si está por debajo de una longitud especificada
  • TOPHRED33: Convertir las puntuaciones de calidad a Phred-33
  • TOPHRED64: Convierte puntuaciones de calidad a Phred-64

Funciona con FASTQ (utilizando puntuaciones de calidad phred + 33 o phred + 64, dependiendo de la canalización Illumina utilizada), ya sea sin comprimir o FASTQ gzipp’ed. El uso del formato gzip se determina en función del .extensión gz.

Para datos de un solo extremo, se especifican un archivo de entrada y un archivo de salida, además de los pasos de procesamiento. Para los datos de extremo emparejado, se especifican dos archivos de entrada y 4 archivos de salida, 2 para la salida ‘emparejada’ donde ambas lecturas sobrevivieron al procesamiento, y 2 para la salida ‘no emparejada’ correspondiente donde una lectura sobrevivió, pero la lectura del asociado no.

Ejecutando Trimmomatic

Desde la versión 0.27, trimmomatic se puede ejecutar usando-jar. El método’ viejo’, usando la clase explícita, sigue funcionando.

Modo de extremo emparejado:

o

Modo de extremo único:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

o

Si no se especifica una puntuación de calidad, phred-64 es el valor predeterminado. Esto se cambiará a una puntuación de calidad’ detectada automáticamente ‘ en una versión futura.

Al especificar un archivo trimlog se crea un registro de todos los recortes de lectura, que indica los siguientes detalles:

  • el nombre de lectura
  • la longitud de secuencia superviviente
  • la ubicación de la primera base superviviente, también conocida como. la cantidad recortada desde el principio
  • la ubicación de la última base sobreviviente en la lectura original
  • la cantidad recortada desde el final

Se pueden especificar varios pasos según sea necesario, utilizando argumentos adicionales al final.

La mayoría de los pasos toman una o más configuraciones, delimitadas por’: ‘(dos puntos)

Opciones de paso:

  • ILLUMINACLIP:< fastaWithAdaptersEtc><desajustes de semilla><umbral de clip de palíndromo><clip simple umbral>
    • fastaWithAdaptersEtc: especifica la ruta de acceso a un archivo fasta que contiene todos los adaptadores, secuencias de PCR, etc. El nombre de las diversas secuencias dentro de este archivo determina cómo se usan. Véase más adelante.
    • seedMismatches: especifica el recuento máximo de desajustes que aún permitirá realizar una coincidencia completa
    • palindromeClipThreshold: especifica cuán precisa debe ser la coincidencia entre las dos lecturas ligadas por adaptador para la alineación de lectura de palíndromos de PE.
    • simpleClipThreshold: especifica cuán precisa es la coincidencia entre cualquier adaptador, etc. la secuencia debe estar en contra de una lectura.

  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowSize: especifica el número de bases de promedio en todo
    • requiredQuality: especifica el promedio de la calidad requerida.
  • PRINCIPAL:< quality>
    • quality: Especifica la calidad mínima requerida para mantener una base.
  • TRAILING:<calidad>
    • calidad: Especifica la calidad mínima necesaria para mantener una base.
  • CULTIVO:<longitud>
    • longitud: El número de bases de mantener, desde el inicio de la lectura.
  • HEADCROP:<longitud>
    • longitud: El número de bases a eliminar desde el inicio de la lectura.
  • MINLEN:<longitud>
    • longitud: Especifica la longitud mínima de las lecturas que se mantiene.

Orden de recorte

El recorte se produce en el orden en que se especifican los pasos en la línea de comandos. En la mayoría de los casos, se recomienda que el recorte del adaptador, si es necesario, se realice lo antes posible.

El Adaptador Fasta

El adaptador Illumina y otras secuencias técnicas están protegidos por derechos de autor por Illumina,pero se nos ha concedido permiso para distribuirlos con Trimmatic. Se proporcionan secuencias de adaptadores sugeridas para TruSeq2 (como se usa en las máquinas GAII) y TruSeq3 (como se usa en las máquinas HiSeq y MiSeq), tanto para el modo de extremo único como para el modo de extremo emparejado. Estas secuencias no han sido ampliamente probadas, y dependiendo de los problemas específicos que puedan ocurrir en la preparación de la biblioteca, otras secuencias pueden funcionar mejor para un conjunto de datos dado.

Para hacer una versión personalizada de fasta, primero debe comprender cómo se usará. Trimmatic utiliza dos estrategias para recortar el adaptador: Palíndromo y Simple

Con el recorte ‘simple’, cada secuencia de adaptador se prueba con las lecturas, y si se detecta una coincidencia lo suficientemente precisa, la lectura se recorta adecuadamente.

El recorte de’Palíndromo ‘está diseñado específicamente para el caso de’ leer ‘ un fragmento corto en la secuencia del adaptador en el otro extremo. En este enfoque, las secuencias de adaptador apropiadas se «ligan in silico» al inicio de las lecturas, y las secuencias combinadas de adaptador+lectura, hacia adelante y hacia atrás se alinean. Si se alinean de una manera que indica ‘lectura completa’, la lectura hacia adelante se recorta y la lectura inversa se elimina (ya que no contiene datos nuevos).

El nombre de las secuencias indica cómo deben usarse. Para el recorte de’ Palíndromo’, los nombres de secuencia deben comenzar con’ Prefijo ‘y terminar en’ /1 ‘para el adaptador hacia adelante y’ /2 ‘ para el adaptador inverso. Todas las demás secuencias se comprueban utilizando el modo «simple». Las secuencias con nombres que terminen en ‘ /1 ‘o’ /2 ‘ solo se cotejarán con la lectura hacia adelante o hacia atrás. Las secuencias que no terminen en ‘ /1 ‘o’ /2 ‘ se cotejarán con la lectura hacia adelante y hacia atrás. Si desea verificar el complemento inverso de una secuencia específica, también debe incluir específicamente la forma de complemento inverso de la secuencia, con otro nombre.

Los umbrales utilizados son un enfoque de log verosimilitud simplificado. Cada base coincidente agrega un poco más de 0,6, mientras que cada desajuste reduce la puntuación de alineación en Q/10. Por lo tanto, una coincidencia perfecta de una secuencia de 12 bases marcará un poco más de 7, mientras que se necesitan 25 bases para anotar 15. Como tal, recomendamos valores entre 7 y 15 para este parámetro. Para coincidencias palindrómicas, es posible una alineación más larga, por lo que este umbral puede ser más alto, en el rango de 30. El parámetro ‘ desajuste de semilla ‘se utiliza para hacer que las alineaciones sean más eficientes, especificando el número máximo de desajustes de base en la’ semilla ‘ (16 bases). Los valores típicos aquí son 1 o 2.