USADELLAB.org -Trimmomatic:イルミナNGSデータ用の柔軟な読み取りトリミングツール
Trimmomatic:イルミナNGSデータ用の柔軟な読み取りトリミングツール
引用
Bolger,A.M.,Lohse,M.,&Usadel,B.(2014). Trimmomatic:Illuminaのシーケンスデータのための適用範囲が広いトリマー。 バイオインフォマティクス、btu170。
Trimmomaticのダウンロード
バージョン0.39:バイナリとソースとマニュアル
バージョン0.36:バイナリとソース
クイックスタート
ペアエンド:
多くの場合、リードとトラリングクリッピングは必要ありません。
また、一般的にkeepBothReadsは、ペアになったエンドデータを扱うときに便利ですが、redunfant情報も保持しますが、パイプラインをより管理しやすくする可能性があります。 追加に注意してください:2keepBothReadsの前にこれは回文モードでの最小アダプタの長さです、あなたも1にこれを設定することができます。 (デフォルトは非常に保守的です8)
ご質問がある場合はお気軽にお問い合わせください、これは必ずしもワンサイズがすべてに適合していません。 (例えば、Rnaseq発現解析対DNA集合)。
参照用のみ(アダプターの感度が低い)
これにより、次の操作が実行されます。
- アダプターの削除(ILLUMINACLIP:Truseq3-PE.fa:2:30:10)
- 主要な低品質またはN塩基を削除(品質3以下)(先頭:3)
- 末尾の低品質またはN塩基を削除(品質3以下)(末尾:3)
- ベースあたりの平均品質が15(SLIDINGWINDOW:4:15)
- ドロップは36塩基の下に読み込みます(MINLEN:36)
- 4ベースのワイドスライディングウィンドウで読み取りをスキャンし、ベースあたりの平均品質が15(SLIDINGWINDOW:4:15)
- ドロップは36塩基の下に読み込みます(MINLEN:36)
シングルエンド:
これは、シングルエンドアダプタファイルを使用して、同じ手順を実行します
説明
Trimmomaticは、イルミナのペアエンドおよびシングルエンドデータのための様々な便利なトリミングタスクを実行します。トリミングステップの選択とそれに関連するパラメータは、コマンドラインで提供されます。
現在のトリミング手順は次のとおりです。
- ILLUMINACLIP:読み取りからアダプターと他のillumina固有のシーケンスをカットします。
- SLIDINGWINDOW:スライディングウィンドウトリミングを実行し、ウィンドウ内の平均品質がしきい値を下回ったら切断します。
- リード: しきい値品質
- 末尾:しきい値品質
- CROP:指定された長さに読み取りをカット
- HEADCROP:読み取りの開始から指定された数の塩基をカット
- MINLEN:指定された長さ
- TOPHRED33:品質スコアをPhred-33に変換
- トフレッド64: 品質スコアをPhred-64に変換
fastq(使用されるIlluminaパイプラインに応じてphred+33またはphred+64品質スコアを使用)、非圧縮またはgzippされたFASTQで動作します。 Gzip形式の使用は、に基づいて決定されます。gz拡張子。
シングルエンド-データの場合、入力ファイルと出力ファイルが1つずつ指定され、処理ステップが指定されます。 ペアエンド-データの場合は、2つの入力ファイルが指定され、4つの出力ファイル、両方の読み取りが処理を生き残った”ペア”出力の場合は2つ、読み取りが生
Trimmomaticの実行
バージョン0.27以降では、-jarを使用してtrimmomaticを実行できます。 明示的なクラスを使用した’old’メソッドは引き続き機能します。
または
品質スコアが指定されていない場合、phred-64がデフォルトです。
または
品質スコアが指定されていない場合、phred-64がデフ これは、将来のバージョンで”自動検出された”品質スコアに変更されます。
trimlogファイルを指定すると、読み取り済みのすべてのトリミングのログが作成され、次の詳細が示されます:
- 読み取り名
- 生き残ったシーケンスの長さ
- 最初に生き残った塩基の場所、別名。 最初からトリミングされた量
- 元の読み取りで最後に残っているベースの位置
- 最後からトリミングされた量
複数のステップは、必要に応じて、末尾に追加の引数を使用して指定することができます。
ほとんどのステップでは、’:'(コロン)で区切られた1つ以上の設定が必要です。
ステップオプション:
- ILLUMINACLIP:<fastaWithAdaptersEtc><><><<>>
- fastawithadaptersetc:すべてのアダプター、pcrシーケンスなどを含むfastaファイルへのパスを指定します。 このファイル内のさまざまなシーケンスの名前によって、それらの使用方法が決まります。 以下を参照。
- seedMismatches:完全一致を実行できる最大不一致数を指定します
- palindromeClipThreshold: PE回文読み取りアライメントのために、二つの’adapter ligated’読み取り間の一致がどれほど正確でなければならないかを指定します。
- simpleClipThreshold:任意のアダプタなどの間の一致の正確さを指定します。 sequenceは読み取りに対してでなければなりません。
- SLIDINGWINDOW:<windowSize><requiredQuality>
- windowSize:指定します
- requiredquality全体で平均する基底の数:必要な平均品質を指定します。/li>
- リーディング:<>
- 品質:ベースを維持するために必要な最小品質を指定します。
- 末尾:<>
- 品質:ベースを維持するために必要な最小品質を指定します。
- クロップ:<>
- 長さ:読み取りの開始から、維持する塩基の数。ul>
- 長さ:保持される読み取りの最小長を指定します。
- : 読み取りの開始から削除するベースの数。MINLEN:<>
トリミング順序
トリミングは、コマンドラインでステップを指定した順序で行われます。 ほとんどの場合、アダプタクリッピングは、必要に応じてできるだけ早く行うことをお勧めします。
アダプター Fasta
Illuminaアダプターおよびその他の技術的なシーケンスはIlluminaによって著作権がありますが、Trimmomaticでそれらを配布する許可が与えられています。 推奨されるアダプタシーケンスは、Truseq2(GAIIマシンで使用)およびTruseq3(HiSeqおよびMiSeqマシンで使用)に対して、シングルエンドおよびペアエンドモードの両方で提供さ これらのシーケンスは広範囲にテストされておらず、ライブラリの準備で発生する可能性のある特定の問題に応じて、他のシーケンスが特定のデータセットfastaのカスタムバージョンを作成するには、まずそれがどのように使用されるかを理解する必要があります。
回文と単純
‘単純’トリミングでは、各アダプタシーケンスが読み取りに対してテストされ、十分に正確な一致が検出された場合、読み取りが適切にクリッ
“回文”トリミングは、短い断片をもう一方の端のアダプターシーケンスに”読み取り”する場合に特別に設計されています。 このアプローチでは、適切なアダプターシーケンスは、読み取りの開始時に”in silico ligated”され、結合されたアダプター+読み取りシーケンス、順方向と逆方向が整列されます。 それらが’read-through’を示す方法で整列した場合、順方向読み取りはクリップされ、逆方向読み取りは削除されます(新しいデータが含まれていないため)。
シーケンスの命名は、それらがどのように使用されるべきかを示します。 ‘回文’クリッピングの場合、シーケンス名は’Prefix’で始まり、順方向アダプタの場合は’/1’で終わり、逆方向アダプタの場合は’/2’で終わる必要があります。 他のすべてのシーケンスは’simple’モードを使用してチェックされます。 名前が’/1’または’/2’で終わるシーケンスは、順方向または逆方向の読み取りに対してのみチェックされます。 ‘/1’または’/2’で終わっていないシーケンスは、順方向読み取りと逆方向読み取りの両方に対してチェックされます。 特定の配列の逆補数をチェックする場合は、配列の逆補数形式も別の名前で具体的に含める必要があります。
使用されるしきい値は、単純化された対数尤度アプローチです。 一致する各ベースはわずか0.6を加算し、各不一致は整列スコアをQ/10減少させます。 したがって、12塩基配列の完全な一致は7をわずかに上回りますが、15を得点するには25塩基が必要です。 そのため、このパラメータには7-15の値をお勧めします。 回文一致の場合、より長いアライメントが可能であるため、このしきい値は30の範囲で高くなる可能性があります。 ‘Seed mismatch’パラメータは、’seed'(16塩基)の最大塩基不一致数を指定して、整列をより効率的にするために使用されます。 ここでの典型的な値は1または2です。
- 長さ:読み取りの開始から、維持する塩基の数。ul>