Articles

USADELLAB.org -Trimmomatic: a flexible read trimming tool for Illumina NGS data

Trimmomic: A flexible read trimming tool for Illumina NGS data

citações

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: um aparador flexível para dados de sequência de iluminação. Bioinformática, btu170.

a Descarregar Trimmomatic

Versão 0.39: binário, fonte e manual

Versão 0.36: binário e fonte

Quick start

Emparelhado Final:

Com a maioria dos novos conjuntos de dados você pode usar delicado qualidade de corte e adaptador de recorte.

muitas vezes você não precisa de liderar e escalar recortes. Também em geral keepBothReads podem ser úteis quando se trabalha com dados finais emparelhados, você vai manter até mesmo informações de reserva, mas isso provavelmente torna seus pipelines mais gerenciáveis. Note o adicional: 2 na frente de keepBothReads este é o comprimento mínimo do adaptador no modo palindrome, você pode até definir isso para 1. (Default is a very conservative 8)

If you have questions please don’t hesitate to contact us, this is not necessarily one size fits all. (por exemplo, análise da expressão RNAseq Versus conjunto de ADN).

apenas para referência (menos sensível para adaptadores)

Isto irá executar as seguintes:

  • Remover adaptadores (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • Remover líder de baixa qualidade ou N bases (abaixo de qualidade 3) (LÍDER:3)
  • Remover à direita de baixa qualidade ou N bases (abaixo de qualidade 3) (à DIREITA:3)
  • Digitalizar a ler com 4 da base de dados de larga janela de correr, de corte quando a qualidade média por base cai abaixo de 15 (SLIDINGWINDOW:4:15)
  • Drop lê abaixo a 36 bases de comprimento (MINLEN:36)

End:

Isto irá executar as mesmas etapas, usando o ficheiro Adaptador de ponta simples

Descrição

Trimmatic executa uma variedade de tarefas de limpeza úteis para iluminar as extremidades emparelhadas e os dados de ponta simples.A seleção de passos de corte e seus parâmetros associados são fornecidos na linha de comando.

as etapas de limpeza actuais são:

  • ILLUMINACLIP: Adaptador De Corte e outras sequências de iluminação específicas da leitura.janela deslizante: efectuar uma limpeza de janela deslizante, cortando logo que a qualidade média dentro da janela desça abaixo de um limiar.liderança: Corte bases início da leitura, se abaixo de um limiar de qualidade
  • à DIREITA: Corte de bases ao final da leitura, se abaixo de um limiar de qualidade
  • RECORTAR: Cortar a leitura para um determinado comprimento
  • HEADCROP: Cortar o número especificado de bases a partir do início da leitura
  • MINLEN: Largar a leitura se ele estiver abaixo de um determinado comprimento
  • TOPHRED33: Converter os índices de qualidade para Phred-33
  • TOPHRED64: Converter índices de qualidade para Phred-64

Ele funciona com FASTQ (usando phred + 33 ou phred + 64 índices de qualidade, dependendo da Illumina pipeline usado), ou descomprimido gzipp ed FASTQ. A utilização do formato gzip é determinada com base no .extensão gz.

para os dados de uma única extremidade, um ficheiro de entrada e um de saída são especificados, mais as etapas de processamento. Para dados emparelhados, dois arquivos de entrada são especificados, e 4 arquivos de saída, 2 para a saída ‘emparelhada’ onde ambas as leituras sobreviveram ao processamento, e 2 para a saída “emparelhada” correspondente, onde uma leitura sobreviveu, mas a leitura do parceiro não sobreviveu.

executando o Trimamatic

desde a versão 0.27, o trimamatic pode ser executado usando-jar. O método’ velho’, usando a classe explícita, continua a funcionar.

Emparelhado Final Mode:

ou

End Modo:

java -jar <path to trimmomatic jar> SE <input> <output> <step 1> ...

ou

Se nenhum índice de qualidade é especificado, o phred-64 é o padrão. Isto será alterado para uma pontuação de qualidade’ autodetectada ‘ em uma versão futura.

especificando um ficheiro trimlog cria um registo de todas as aparas de leitura, indicando os seguintes detalhes:

  • o nome lido
  • o comprimento da sequência sobrevivente
  • a localização da primeira base sobrevivente, também conhecida por. a quantidade aparada desde o início
  • a localização da última base sobrevivente na leitura original
  • a quantidade aparada a partir da extremidade

podem ser especificadas várias etapas, se necessário, usando argumentos adicionais no final.

A maioria dos passos toma uma ou Mais configurações, delimitadas por’: ‘(A colon)

Step options:

  • ILLUMINACLIP:<fastaWithAdaptersEtc><semente de incompatibilidades><palíndromo clipe limite de><simples clip limite de>
    • fastaWithAdaptersEtc: especifica o caminho para um arquivo fasta contendo todos os adaptadores de PCR de sequências, etc. A nomeação das várias sequências dentro deste arquivo determina como elas são usadas. Abaixar.
    • seedMismatches: especifica o número máximo de erros de correspondência que ainda permitirá a realização de uma correspondência completa
    • palindromeClipThreshold: especifica o quão precisa a correspondência entre as duas leituras do adaptador ligado deve ser para o alinhamento de leitura do PE palindrome.
    • simplecthreshold: especifica a precisão da correspondência entre qualquer adaptador, etc. a sequência deve estar contra uma leitura.
  • SLIDINGWINDOW:<windowSize><requiredQuality>
    • windowSize: especifica o número de bases média
    • requiredQuality: especifica a média de qualidade exigido.

  • LÍDER:<quality>
    • quality: Specifies the minimum quality required to keep a base.
  • à DIREITA:<qualidade>
    • qualidade: Especifica a qualidade mínima necessária para manter uma base.
  • CULTURA:<duração>
    • tamanho: O número de bases de manter, desde o início da leitura.
  • HEADCROP:<duração>
    • comprimento: O número de bases a remover do início da leitura.
  • MINLEN:<duração>
    • length: Especifica o comprimento mínimo de leituras para ser mantido.

A Ordem de corte

a limpeza ocorre na ordem em que os passos são especificados na linha de comandos. Recomenda-se na maioria dos casos que o recorte do adaptador, se necessário, seja feito o mais cedo possível.

o adaptador Fasta

Adaptador de iluminação e outras sequências técnicas são protegidas por direitos de Autor pela Illumina,mas foi-nos concedida autorização para distribuí-las com Trimmático. Sequências de adaptadores sugeridas são fornecidas para o TruSeq2 (como usado em máquinas GAII) e para o TruSeq3 (como usado por máquinas HiSeq e MiSeq), tanto para o modo de ponta única quanto para o modo emparelhado. Estas sequências não foram extensivamente testadas, e dependendo de questões específicas que podem ocorrer na preparação da biblioteca, outras sequências podem funcionar melhor para um dado conjunto de dados.

para fazer uma versão personalizada do fasta, você deve primeiro entender como ele será usado. O trimmatic usa duas estratégias para a limpeza do adaptador: Palindrome e Simple

com limpeza ‘simples’, cada sequência do adaptador é testada contra as leituras, e se for detectada uma correspondência suficientemente precisa, a leitura é recortada de forma adequada.

a limpeza do palíndromo é especificamente concebida para o caso de “leitura através” de um pequeno fragmento na sequência do adaptador na outra extremidade. Nesta abordagem, as sequências de adaptador apropriadas São “in silico ligated” no início das leituras, e as sequências de leitura combinadas adaptador+, para a frente e para trás são alinhadas. Se eles se alinharem de uma maneira que indica ‘read-through’, a leitura para a frente é recortada e a leitura reversa descartada (uma vez que não contém dados novos).

A denominação das sequências indica como devem ser utilizadas. Para a recorte do Palindrome, os nomes das sequências devem começar com o prefixo e terminar em ‘/1’ para o adaptador dianteiro e ‘/2′ para o adaptador reverso. Todas as outras sequências são assinaladas com o modo “simples”. As sequências com nomes que terminem em’ /1 ‘ou’ /2 ‘ serão verificadas apenas com a leitura para a frente ou para trás. As sequências que não terminem em “/1 ” ou “/2 ” serão verificadas tanto em relação à leitura para a frente como em relação à leitura para trás. Se você quiser verificar o complemento reverso de uma seqüência específica, você precisa incluir especificamente a forma reversa complementada da seqüência também, com outro nome.os limiares utilizados são uma abordagem simplificada da probabilidade logarítmica. Cada base correspondente adiciona pouco mais de 0.6, enquanto cada desfasamento reduz a pontuação de alinhamento em Q / 10. Portanto, uma combinação perfeita de uma sequência de base de 12 marcará pouco mais de 7, enquanto 25 bases são necessárias para marcar 15. Como tal, recomendamos valores entre 7 e 15 para este parâmetro. Para fósforos palindrômicos, é possível um alinhamento mais longo – portanto, este limiar pode ser maior, na faixa de 30. O parâmetro “desajustamento de sementes” é utilizado para tornar os alinhamentos mais eficientes, especificando a contagem máxima de desajustamentos de base na “semente” (16 bases). Valores típicos aqui são 1 ou 2.