Articles

qiime2のq2-feature-classifierプラグインを使用したマーカー遺伝子アンプリコン配列の分類学的分類の最適化

tax-creditを使用して、複数のマーカー遺伝子配列の分類学的分類器を最適化および比較しました。 QIIME1にラップされた2つの一般的に使用される分類器(RDP分類器(バージョン2.2)、legacy BLAST(バージョン2.2))を評価しました。22))、二つのQIIME1アライメントベースのコンセンサス分類分類器(QIIME1で利用可能なデフォルトのUCLUST分類器(バージョン1.2.22qに基づく)、およびSortMeRNA(バージョン2.0 29/11/2014))、q2-feature-classifierで新たにリリースされた二つのアライメントベースのコンセンサス分類分類器(BLAST+(バージョン2.6.0)およびVSEARCH(バージョン2.0.3)に基づく)、および新しい多項naive Bayes機械学習分類器q2-feature-CLASSIFIERで(q2-FEATURE-CLASSIFIERメソッドとソースコードの可用性については、”メソッド”のセクションを参照してください)。 各方法の最適なパラメータ構成を決定するためにパラメータスイープを行った。

モックコミュニティ評価

我々は最初に既知の比率で組み合わされた微生物細胞またはDNAの人工的に構築された混合物であるモックコ 我々は15細菌16S rRNA遺伝子モックコミュニティと4真菌内部転写スペーサー(ITS)モックコミュニティ(表1)mockrobiota、モックコミュニティデータのための公共リポジトリ モックコミュニティは、(1)シミュレートされたコミュニティとは異なり、正確にモデル化することが困難な実際のシーケンスエラーを組み込むなど、実際の動作条件下でのメソッドパフォーマンスの定量的評価が可能であること、(2)自然なコミュニティサンプルとは異なり、モックコミュニティの実際の構成が事前に知られており、コミュニティのプロファイリング精度の定量的評価が可能であることから、モックコミュニティのベンチマークに有用である。

表1現在税額控除に統合されているモックコミュニティ

追加の優先順位は、q2-feature-classifierに実装されているナイーブベイズ分類器の分類精度に対するクラス重みの設定の効果をテストすることでした。 機械学習では、クラスの重みまたは事前確率は、各クラスが観測されると予想される頻度を指定する重みのベクトルです(ベイズ推論の下でこの用語を重みベクトルの確率分布として使用することと区別する必要があります)。 クラスの重みを設定する代わりに、各クエリシーケンスが参照シーケンスデータベースに存在する分類群のいずれかに属している可能性が等しいと仮定す この仮定は、単純ベイズ分類器の文脈では一様クラス事前評価として知られており、RDP分類器によって行われ、マーカー遺伝子分類の精度への影響はまだ検証されていない。 クラスの重みが均一であるか、ある程度知られていると仮定すると、結果に影響を与え、回避することはできません。 モックコミュニティは、実際のデータセットが必要とするように、参照分類法のセット上で一様ではない分類学的存在量を持っています。 したがって、それらを使用して、クラスの重みに関する仮定の影響を評価することができます。 クラスの重みをサンプルの既知の分類学的組成に設定したところで、結果に”bespoke”というラベルを付けました。

我々は、クラスから種までの分類学的レベルで分類されたモックコミュニティ配列の分類器の性能の精度を評価しました。 モックコミュニティ配列は、細菌および真菌モックコミュニティのためのGreengenes99%OTUs16S rRNA遺伝子またはUNITE99%OTUs ITS参照配列をそれぞれ使用して分類した。 予想されるように、分類の正確さは、分類の深さが増加するにつれて減少し、すべての方法は、すべてのパラメータセットにわたって0.8を超える中央値F-測度を有する属レベルまでモックコミュニティ配列の分類学的所属を予測することができた(最小:UCLUST F=0.81、最大:naive Bayes bespoke F=1.00)(図。 1a)。 しかし、種の所属は、方法構成の中ではるかに低く、より可変精度で予測された(中央値F-測定最小:UCLUST F=0.42、最大:naive Bayes bespoke F=0。95)、パラメータ最適化の重要性を強調している(以下でより詳細に説明する)。 したがって、パラメータ構成の影響を強く受ける分類器や、より広い範囲のパラメータがテストされた分類器(単純ベイズなど)では、分類器の性能が過小評価されています。 最適化された方法のみを比較する(すなわち、各方法のためのトップ実行パラメータ構成)、naive Bayes bespokeは有意に高いF-measure(paired t test P<0.05)を達成した(図。 図1b)、リコール、分類群検出率、分類群精度率(図1b)、リコール、分類群検出率、分類群精度率(図1b)。 他のすべての方法よりも低いBray−Curtisの非類似性(図1C)、および低いBray−Curtisの非類似性(図1C)。 1d)。

図。 1

16S rRNA遺伝子配列(左の列)と真菌その配列(右の列)のモックコミュニティデータセット上の分類器のパフォーマンス。 クラスから種レベルまでの各分類分類方法の平均F測度(すべての構成とすべてのモックコミュニティデータセットで平均)。 誤差バー=95%信頼区間。 b平均F-種レベルでの各最適化された分類器(すべてのモックコミュニティ全体で平均化)の測定。 c種レベルでの各最適化された分類器の平均分類群精度率(すべてのモックコミュニティ全体で平均)。 d予想される模擬コミュニティの組成と、各最適化された分類器によって予測されるその組成との間の平均ブレイ-カーティス距離(すべての模擬コミュ バイオリンプロットには、各スコア分布の中央値(白い点)、四分位数(黒いバー)、およびカーネル密度推定値(バイオリン)が表示されます。 小文字が異なるバイオリンは、有意に異なる手段を持っています(ペアtテスト誤検出率-修正されたP<0。05)

モックコミュニティは必然的に単純化されており、多様な範囲の分類群にわたってメソッドのパフォーマンスを評価するこ 生の配列にはPCRおよび配列決定エラーが含まれている可能性がありますが(生物学的条件下での方法性能を評価することができます)、予想されるモック このアプローチは、通常の操作条件を複製し、期待される配列の回復を評価しますが、暗黙的にクエリ配列に完全一致を見つける方法に偏っている可能性があり、検出された配列が参照配列と完全に一致するいくつかの天然の微生物群集を近似していません。 したがって、分類器の性能をさらにテストするために、シミュレートされたシーケンス読み取り分類(後述)を実行しました。

交差検証された分類学分類

参照データベースから派生したシミュレートされたシーケンス読み取りは、私たちは、単一のモックコミュニティが一般的に包含するよりも、シーケンスの大きな多様性にわたってメソッドのパフォーマンスを評価することができます。 まず,シミュレートされた読み取りに対する分類分類の層別k分割交差検証を用いて分類器の性能を評価した。 K倍交差検証戦略は、分類学的分類の階層的性質を考慮するためにわずかに修正されており、この研究のすべての分類器(レガシーブラストを除く)は、分類がユーザー定義の”信頼”または”コンセンサス”しきい値を超える最も低い(すなわち、最も具体的な)分類学的レベルを割り当てることによって処理する(材料と方法を参照)。 変更は、各テストセット内の予想されるタクソノミを、そのタクソノミのインスタンスがトレーニングセット内に存在する最大レベルに切り捨てるこ

シミュレートされた読み取りは、Greengenes99%OTUs16S rRNA遺伝子またはUNITE99%OTUsその参照配列から生成されました。 Greengenes16S rRNA遺伝子シミュレートされた読み取りは、全長16S rRNA遺伝子(プライマー27F/1492R)とV4(プライマー515F/806R)とV1-3サブドメイン(プライマー27F/534R)か 税額控除で現在利用可能なシミュレートされた読み取りは、いくつかの理由でPCRまたはシーケンスからの人工的なエラーを組み込 私たちのモックコミュニティ解析はすでに真のノイズの多い実験条件下で分類器の性能を評価しているので、シミュレートされた配列の解析の目標は、理論的な分類器の性能を評価することです(正確な配列の一致が参照データベースに存在しない場合)。 さらに、マーカー遺伝子アンプリコン配列解析パイプラインは、一般に、実行ごとのエラープロファイルをモデル化し、ノイズの多い配列をフィルタリングし、実際の配列変異体を解決するためにノイズ除去法を利用する。 したがって、我々の評価では、すべてのシーケンスエラーがデノイザの性能から分類器の性能を分離するためにデノイザされている理想化された(そうで この一連のテストおよび以下の新規分類群では、「オーダーメイド」分類器は、訓練されるたびに訓練セットから推論された事前確率を有していた。

交差検証された読み取りの分類は、より粗い分類レベルでより良好に行われた(図。 2a)、模擬コミュニティの結果で観察された傾向に似ています。 細菌配列の場合、すべての方法の平均分類精度は、家族レベルでの完璧に近いスコア(V4ドメイン中央値F-最小測定:BLAST+F=0.92、最大値:レガシー BLAST F=0.99)から低下したが、種レベルでの正確なスコア(最小中央値:BLAST+F=0.76、最大値:SortMeRNA F=0.84)は、いくつかのモックコミュニティデータセット(図)と比較して保持された。 2a)。 真菌配列は、平均BLAST+およびVSEARCH性能は、パラメータ構成に高い感度を示す、すべての分類学的レベルで著しく低かった例外を除いて、同様の性能を示し、種レベ 2a)。

図。 2

交差検証シーケンスデータセットでの分類器のパフォーマンス。 16S rRNA遺伝子V4サブドメイン(最初の行)、V1–3サブドメイン(第二の行)、全長16S rRNA遺伝子(第三のトウ)、および真菌その配列(第四の行)の分類精度。 クラスから種レベルまでの各タクソノミ分類方法(すべての構成およびすべての交差検証されたシーケンスデータセット全体で平均化)の平均F測度。 誤差バー=95%信頼区間。 b平均F-種レベルでの最適化された分類器ごとの測定(すべての交差検証された配列データセット全体で平均化)。 小文字が異なるバイオリンは、有意に異なる手段を有する(対になったt検定偽検出率-補正されたP<0.05)。 f間のc相関-V4サブドメイン(x軸)、V1–3サブドメイン(y軸)、および全長16S rRNA遺伝子配列(z軸)の各方法/構成分類のパフォーマンスを測定します。 各相関は有意です(P<0.001)

16S rRNA遺伝子シミュレートされた配列の種レベルの分類は、V4ドメインの最適化UCLUSTおよびSortMeRNA配 2b)。 UCLUSTは、その分類(F=0.51)のための最高のF尺度を達成しました。 しかしながら、全ての最適化された分類器は、その配列についての従来のBLASTを除いて、同様のF−測定範囲を達成した(図1 0A)。 2b)。

16S rRNA遺伝子シミュレートされた読み取りの種レベルの分類性能は、各サブドメインと全長遺伝子配列との間に有意に相関していた(図。 2c)。 我々のテストでは、全長シーケンスは、V1-3およびV4サブドメインよりもわずかに低い精度を示した。 超可変サブドメイン読み取りに対する全長16S rRNA遺伝子の相対的なパフォーマンスは、文献では可変であり、我々の結果は、このトピックの進行中の議論に別のデータポイントを追加します。 それにもかかわらず、種レベルの分類は、方法構成の間に強い相関をもたらした(図。 図2c)および最適化された方法性能(図2c)。 2b)、プライマーの選択は、すべての方法にわたって均一に分類精度に影響を与えることを示唆している。 そこで、下流の分析のためのv4サブドメイン読み取りに焦点を当てました。

Novel taxon classification evaluation

Novel taxon classificationは、参照データベースに表されていない”新規”クレードで挑戦したときに分類器がどのように機能するかを評価する、分類器の動 理想的な分類器は、この分類群が属する最も近い分類学的系統を識別する必要がありますが、それ以上は識別しません。 この評価では、交差検証された分類の場合と同様に、参照データベースをk回サブサンプリングしてクエリと参照配列セットを生成しますが、2つの重要な区別が存在します。(1)分類に使用される参照データベースは、分類が試行されている分類ランクである分類学レベルLでのクエリ配列の分類学的所属に一致する配列を除外します。(2)各方法が”新しい”種、属、家族などに遭遇したときの分類性能を評価するために、各分類学レベルでこれを実行します。

これらの違いのために、新しい分類群分類結果の解釈は、模擬コミュニティおよび交差検証された分類の解釈とは異なります。 後者の場合、分類精度は、各分類結果の各分類レベルで評価することができる:家族レベルおよび種レベルでの平均分類精度は、同じ結果を評価するが、 しかし、新規分類群の場合、異なるクエリ配列および参照配列が各分類学レベルで分類のためにコンパイルされ、それぞれに対して別々の分類が実行さ したがって、家族と種レベルでの分類は独立したイベントであり、一つは、参照データベースに表されていない”新しい”家族に遭遇したときに各方法がどれだけ正確に実行されるかを評価し、もう一つは”新しい”種に遭遇したときに実行される。

新規分類群評価では、変更された一連のメトリックを使用して、どのタイプの分類エラーが発生するかについての詳細な情報を提供します。 各分類学レベルでの精度、リコール、およびF測定の計算L正確な分類学分類がレベルL-1で行われたかどうかを評価する: 例えば、正しい種クラスが参照データベース内で表現されていないため、”新規”種は属を割り当てる必要があります。 このシナリオでの種レベルの分類は、過剰分類です(リコールと精度の両方に影響します)。 過剰分類は、新規配列が既知の生物として誤解される程度を示す、新規分類群評価のための重要な指標の一つである。 この過剰分類は、例えば、既知の病原体としての未知ではあるが最も可能性の高い無害な環境配列の誤った分類につながる可能性があるため、しばしば非常に望ましくない。 正しいクレード内に分類されているが、Lよりも具体的なレベルには分類されていない新規配列は、(リコールに影響を与えるが、精度には影響しない)下分類されている。 完全に異なるクレードに分類されたシーケンスは、誤分類されます(リコールと精度の両方に影響します)。

精度、リコール、およびF-measureはすべて、0に近い平均スコアから徐々に増加します。クラスレベルでは0、細菌の属レベルではピークスコアに達し、真菌の種レベルではピークスコアに達します(Fig. 3a–c)。 これらの傾向は、すべての分類方法の下分類率および誤分類率の漸進的な減少と対になっており、クラス、順序、またはファミリーレベルで既知の一致 3d、f)。 種レベルでは、UCLUST、BLAST+、およびVSEARCHは、16S rRNA遺伝子分類の他のすべての方法よりも有意に優れたF測定を達成した(P<0.05)(図 3g)。 UCLUSTは、その分類のために他のすべての方法よりも有意に優れたF-尺度を達成した(図。 3g)。 ほとんどの方法では、これらのメトリックごとにゼロに近いスコアを個別に生成するように最適化できますが、極端な構成によってのみ最適化され、どのシナリオでも受け入れられないFメジャーにつながります。 すべての比較は、単一のメトリックを最大化(または最小化)するように最適化された方法間で行われたため、精度を最大化する構成は、リコールまたは他のメトリクスを最大化する構成とは異なることが多いことに注意してください。 異なる指標間のこのトレードオフは、以下でより詳細に説明されています。

図。 3

16S rRNA遺伝子配列(左の列)と真菌その配列(右の列)の新規分類群シミュレートされた配列データセットに対する分類器の性能。 各分類法の分類法(すべての構成およびすべての新規分類群配列データセットにわたって平均化)について、平均F測定(a)、精度(b)、リコール(c)、過分類(d)、下分類(e)、およ 誤差バー=95%信頼区間。 b平均F-種レベルでの各最適化された分類器(すべての新規分類群配列データセット全体で平均)の測定。 小文字が異なるバイオリンは、有意に異なる手段を持っています(ペアtテスト誤検出率-修正されたP<0。05)

新規分類群評価は、特定の参照データベースを与えられた分類器の性能の推定値を提供しますが、その一般化は、利用可能な参照デー Clostridium groupなどのデータベース内の誤ったラベルと多系統クレードは、誤分類の確率を高めます。 新規クエリとトップ参照ヒットとの間の配列類似性に基づく相補的分析は、この問題を軽減することができます。 しかし、ラベルベースのアプローチを適用することを選択しました。つまり、特定の参照配列データベース(現在利用可能なリソースに固有の誤ったラベルと多系統分類群を含む)を使用して、分類器が分類学的ラベルを誤って分類する可能性はどれくらいありますか?

マルチ評価法の最適化

モックコミュニティと交差検証分類評価は、構成パフォーマンスの同様の傾向をもたらしたが、新規分類群のパラメー 4). 私たちは、各評価のメソッド構成パフォーマンス間の関係を決定し、この情報を使用して、すべての評価で最も効果的な構成を選択しようとしました。 16S rRNA遺伝子配列種レベルの分類では、模擬および交差検証された配列の最大F測定を達成する方法構成は、新規分類群分類では不十分であり得る(図 4b)。 最適化は、1 6S rRNA遺伝子配列の属レベルの分類のためにより簡単である(図1 0B)。 真菌配列について(図4A)および真菌配列について(図4A)。 (平均F測定値として測定される)構成性能が、3つの評価すべての中で同様の構成によって最大化される、図4C、d)に示すように、構成性能は、3つの評

図。 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. 散布図は、属レベル(a)と種レベル(b)で16S rRNA遺伝子の分類のために、すべてのサンプルにわたって平均された各メソッド構成の平均F測定スコアを示し、属これらの基準を満たしたパラメータ範囲。 表2は、いくつかの一般的な操作条件の下で、模擬コミュニティ、交差検証、および新規分類群評価の種レベルの分類精度スコアを最大化する方法構成 “バランスの取れた”構成は、一般的な使用に推奨され、F-measureスコアを最大化する方法です。 “Precision”および”recall”構成は、モック、交差検証、および新規分類群の分類について、それぞれ精度およびリコールスコアを最大化します(表2)。 “新規”構成は、新規分類群分類のためのF測定スコアを最適化し、二次的にモックおよび交差検証された性能のために(表2)。 これらの構成は、過剰分類が過剰になる可能性のある未確認種の大規模な割合を含むと予想されるサンプルタイプでの使用に推奨されます。 しかしながら、これらの構成は、既知の種の分類のために最適に機能しない場合がある(すなわち、過小分類率はより高くなる)。 真菌の場合、”精度”に推奨される同じ構成は、新規な分類群の分類に適しています(表2)。 1 6S rRNA遺伝子配列については、BLAST+、UCLUST、およびVSEARCHコンセンサス分類器が、新規分類群の分類に最も効果的である(表2)。

表2標準動作条件のための最適化された方法構成

計算ランタイム

ハイスループットシーケンスプラッ分析パイプライン-分類が必要な数千の一意のシーケンスを超える可能性があります。 いくつかの実験的条件下では、(精度、リコール、またはその他のメトリックに基づく)トップパフォーマンスの方法では、許容可能な時間枠内で多数のシーケ 例えば、マイクロバイオーム評価が臨床現場や商業的なシナリオに翻訳されるようになるにつれて、臨床シナリオの下では迅速なターンアラウンドが不可欠であり、大量のサンプル量と顧客の期待がターンアラウンド時間と方法選択を制約する可能性がある。

我々は、(1)クエリシーケンスの数と(2)参照シーケンスの数の線形関数として計算ランタイムを評価しました。 線形依存性は、図1 0において経験的に明らかである。 5. これらの指標の両方について、勾配はパフォーマンスの最も重要な尺度です。 切片には、分類器の訓練、参照系列の前処理、前処理されたデータのロード、または系列数の増加に伴って有意性が減少する他の「設定」ステップにかかる時間が含まれる可能性があり、したがって無視できる。

図。 5

タクソノミ分類子のランタイムパフォーマンス比較。 各タクソノミ分類器のランタイムは、クエリシーケンスの数を変えて定数10,000の参照シーケンスを保持するか(a)、参照シーケンスの数を変えて定数1のクエリシーケンスを保持するか(b)