Articles

Optimierung der taxonomischen Klassifizierung von Marker-Gen-Amplifikationssequenzen mit dem q2-feature-Classifier-Plugin von QIIME 2

Wir haben tax-credit verwendet, um mehrere Marker-Gen-Sequenz-Taxonomie-Klassifikatoren zu optimieren und zu vergleichen. Wir haben zwei häufig verwendete Klassifikatoren ausgewertet, die in QIIME 1 (RDP Classifier (Version 2.2) , Legacy BLAST (Version 2.2)) enthalten sind.22) ), zwei QIIME 1 Alignment-basierte Konsens-Taxonomie-Klassifikatoren (der Standard-UCLUST-Klassifikator, der in QIIME 1 (basierend auf Version 1.2.22q) und SortMeRNA (Version 2.0 29/11/2014) verfügbar ist), zwei Alignment-basierte Konsens-Taxonomie-Klassifikatoren, die neu in q2 veröffentlicht wurden-feature-classifier (basierend auf BLAST + (Version 2.6.0) und VSEARCH (Version 2.0.3) ) und ein neues multinomiales Naive Bayes Klassifikator in q2-feature-Classifier (Informationen zu q2-feature-Classifier-Methoden und Verfügbarkeit des Quellcodes finden Sie im Abschnitt „Methoden“). Wir haben Parameter-Sweeps durchgeführt, um optimale Parameterkonfigurationen für jede Methode zu bestimmen.

Mock Community evaluations

Wir haben zunächst die Leistung von Klassifikatoren an Mock-Communities gemessen, bei denen es sich um künstlich konstruierte Mischungen von mikrobiellen Zellen oder DNA handelt, die in bekannten Verhältnissen kombiniert wurden . Wir verwendeten 15 bakterielle 16S-rRNA-Gen-Mock-Communities und 4 Pilz-interne transkribierte Spacer (ITS) -Mock-Communities (Tabelle 1), die aus Mockrobiota , einem öffentlichen Repository für Mock-Community-Daten, stammen. Mock-Communities sind für das Methoden-Benchmarking nützlich, da sie (1) im Gegensatz zu simulierten Communities quantitative Bewertungen der Methodenleistung unter tatsächlichen Betriebsbedingungen ermöglichen, d. H. echte Sequenzierungsfehler enthalten, die schwer genau zu modellieren sind; und (2) Im Gegensatz zu natürlichen Community-Stichproben ist die tatsächliche Zusammensetzung einer Mock-Community im Voraus bekannt, was quantitative Bewertungen der Genauigkeit der Community-Profilerstellung ermöglicht.

Tabelle 1 Scheingemeinschaften, die derzeit in Tax-credit integriert sind

Eine zusätzliche Priorität bestand darin, die Auswirkung der Einstellung von Klassengewichten auf die Klassifizierungsgenauigkeit für den Naive Bayes-Klassifikator zu testen, der in q2-feature-classifier implementiert ist. Im maschinellen Lernen sind Klassengewichte oder vorherige Wahrscheinlichkeiten Vektoren von Gewichten, die die Häufigkeit angeben, mit der erwartet wird, dass jede Klasse beobachtet wird (und sollte von der Verwendung dieses Begriffs unter Bayes’scher Inferenz als Wahrscheinlichkeitsverteilung von Gewichtungsvektoren unterschieden werden). Eine Alternative zum Festlegen von Klassengewichten besteht darin, anzunehmen, dass jede Abfragesequenz mit gleicher Wahrscheinlichkeit zu einer der Taxa gehört, die in der Referenzsequenzdatenbank vorhanden sind. Diese Annahme, die im Kontext eines Naive Bayes-Klassifikators als Uniform Class Priors bekannt ist, wird vom RDP-Klassifikator getroffen , und ihre Auswirkungen auf die Genauigkeit der Marker-Gen-Klassifikation müssen noch validiert werden. Die Annahme, dass die Klassengewichte einheitlich oder bis zu einem gewissen Grad bekannt sind, wirkt sich auf die Ergebnisse aus und kann nicht vermieden werden. Die Scheingemeinschaften haben taxonomische Häufigkeiten, die über den Satz von Referenztaxonomien bei weitem nicht einheitlich sind, wie jeder echte Datensatz muss. Wir können sie daher verwenden, um die Auswirkungen von Annahmen über Klassengewichte zu bewerten. Wenn wir die Klassengewichte auf die bekannte taxonomische Zusammensetzung einer Probe festgelegt haben, haben wir die Ergebnisse als „maßgeschneidert“ bezeichnet.

Wir haben die Genauigkeit der Klassifikatorleistung anhand von Mock-Community-Sequenzen bewertet, die auf taxonomischer Ebene von der Klasse bis zur Art klassifiziert wurden. Mock-Community-Sequenzen wurden unter Verwendung des Greengenes 99% OTUs 16S rRNA-Gens oder UNITE 99% OTUs ITS-Referenzsequenzen für bakterielle bzw. pilzliche Mock-Communities klassifiziert. Wie erwartet, nahm die Klassifizierungsgenauigkeit mit zunehmender Klassifizierungstiefe ab, und alle Methoden konnten die taxonomische Zugehörigkeit von Scheingemeinschaftssequenzen bis hinunter zur Gattungsebene mit medianen F-Maßen von mehr als 0,8 über alle Parametersätze hinweg vorhersagen (Minimum: UCLUST F = 0,81, Maximum: Naive Bayes Bespoke F = 1,00) (Abb. 1a). Die Artenzugehörigkeit wurde jedoch mit viel geringerer und variablerer Genauigkeit unter den Methodenkonfigurationen vorhergesagt (Median F-Maß Minimum: UCLUST F = 0,42, Maximum: Naive Bayes-Maß F = 0.95), Hervorhebung der Bedeutung der Parameteroptimierung (weiter unten ausführlicher erörtert). Abbildung 1a veranschaulicht Liniendiagramme des mittleren F-Maßes auf jeder taxonomischen Ebene, gemittelt über alle Klassifikatorkonfigurationen; Daher wird die Klassifikatorleistung für einige Klassifikatoren unterschätzt, die stark von Parameterkonfigurationen beeinflusst werden oder für die ein breiterer Bereich von Parametern getestet wurde (z. B. naive Bayes). Vergleich nur optimierter Methoden (z., die leistungsstärksten Parameterkonfigurationen für jede Methode), erzielte Naive Bayes signifikant höhere F-Werte (gepaarter T-Test P < 0,05) (Abb. 1b), Recall, Taxon-Erkennungsrate, Taxon-Genauigkeitsrate (Abb. 1c) und geringere Bray-Curtis-Unähnlichkeit als alle anderen Methoden (Abb. 1d).

Abb. 1

Leistung des Klassifikators in Mock-Community-Datensätzen für 16S-rRNA-Gensequenzen (linke Spalte) und für SEINE Sequenzen (rechte Spalte). ein durchschnittliches F-Maß für jede Taxonomie-Klassifizierungsmethode (gemittelt über alle Konfigurationen und alle Mock-Community-Datensätze) von der Klassen- bis zur Artenebene. Fehlerbalken = 95% Konfidenzintervalle. b Durchschnitt F-Maß für jeden optimierten Klassifikator (gemittelt über alle Scheingemeinschaften) auf Artenebene. c Durchschnittliche Taxongenauigkeitsrate für jeden optimierten Klassifikator (gemittelt über alle Scheingemeinschaften) auf Artenebene. d Durchschnittlicher Bray-Curtis-Abstand zwischen der erwarteten Scheingemeinschaftszusammensetzung und ihrer Zusammensetzung, wie sie von jedem optimierten Klassifikator vorhergesagt wird (gemittelt über alle Scheingemeinschaften), auf Artenebene. Geigendiagramme zeigen Median (weißer Punkt), Quartile (schwarze Balken) und Kerndichteschätzung (Geige) für jede Punkteverteilung. Violinen mit unterschiedlichen Kleinbuchstaben haben signifikant unterschiedliche Mittelwerte (gepaarter t-Test falsche Erkennungsrate korrigiert P < 0.05)

Scheingemeinschaften sind notwendigerweise simpel und können die Methodenleistung in einer Vielzahl von Taxa nicht bewerten. Obwohl Rohsequenzen PCR- und Sequenzierungsfehler enthalten können (was es uns ermöglicht, die Methodenleistung unter biologischen Bedingungen zu bewerten), werden Sequenzen, die den erwarteten Mock-Community-Sequenzen entsprechen, vor der Klassifizierung nicht aus der Referenzdatenbank entfernt. Dieser Ansatz repliziert normale Betriebsbedingungen und bewertet die Wiederherstellung erwarteter Sequenzen, kann jedoch implizit zu Methoden neigen, die eine genaue Übereinstimmung mit den Abfragesequenzen finden, und nähert sich nicht einigen natürlichen mikrobiellen Gemeinschaften an, in denen wenige oder keine detektierten Sequenzen genau mit den Referenzsequenzen übereinstimmen. Daher haben wir simulierte Sequenzleseklassifizierungen (siehe unten) durchgeführt, um die Leistung des Klassifikators weiter zu testen.

Kreuzvalidierte Taxonomieklassifikation

Simulierte Sequenzlesungen, abgeleitet aus Referenzdatenbanken, ermöglichen es uns, die Methodenleistung über eine größere Vielfalt von Sequenzen hinweg zu bewerten, als eine einzelne Scheingemeinschaft im Allgemeinen umfasst. Wir haben zunächst die Leistung des Klassifikators mithilfe einer geschichteten k-fachen Kreuzvalidierung der Taxonomieklassifikation für simulierte Lesevorgänge bewertet. Die k-fache Kreuzvalidierungsstrategie wird geringfügig modifiziert, um der hierarchischen Natur der taxonomischen Klassifikationen Rechnung zu tragen, die alle Klassifikatoren in dieser Studie (mit Ausnahme von Legacy BLAST) behandeln, indem sie die niedrigste (d. H. spezifischste) taxonomische Ebene zuweisen, in der die Klassifizierung einen benutzerdefinierten Schwellenwert für „Vertrauen“ oder „Konsens“ überschreitet (siehe Materialien und Methoden). Die Änderung besteht darin, jede erwartete Taxonomie in jedem Testsatz auf die maximale Ebene abzuschneiden, auf der eine Instanz dieser Taxonomie im Trainingssatz vorhanden ist.

Simulierte Lesevorgänge wurden aus Greengenes 99% OTUs 16S rRNA-Gen oder aus 99% OTUs ITS-Referenzsequenzen generiert. Greengenes 16S rRNA-Gen simulierte Lesevorgänge wurden aus 16S-rRNA–Genen voller Länge (Primer 27F / 1492R) und V4 (Primer 515F / 806R) und V1-3-Subdomänen (Primer 27F / 534R) generiert. Die simulierten Lesevorgänge, die derzeit in Tax-Credit verfügbar sind, enthalten aus mehreren Gründen keine künstlichen Fehler aus PCR oder Sequenzierung. Da unsere Mock-Sequence-Analysen bereits die Klassifikatorleistung unter echten verrauschten experimentellen Bedingungen bewerten, besteht das Ziel der Analysen simulierter Sequenzen darin, die theoretische Klassifikatorleistung zu bewerten (wenn genaue Sequenzübereinstimmungen in der Referenzdatenbank nicht vorhanden sind). Darüber hinaus verwenden Marker-Gen-Amplikonsequenzanalyse-Pipelines häufig Rauschunterdrückungsmethoden, um Fehlerprofile pro Lauf zu modellieren, verrauschte Sequenzen zu filtern und tatsächliche Sequenzvarianten aufzulösen. Daher simulieren wir in unseren Auswertungen ein idealisiertes (wenn auch unwahrscheinliches) theoretisches Szenario, in dem alle Sequenzierungsfehler denoisiert wurden, um die Klassifikatorleistung von der Denoiserleistung zu trennen. In diesem Testsatz und weiter unten für neuartige Taxa hatte der „maßgeschneiderte“ Klassifikator frühere Wahrscheinlichkeiten, die bei jedem Training aus dem Trainingssatz abgeleitet wurden.

Die Klassifizierung von kreuzvalidierten Lesevorgängen verlief auf gröberen Klassifizierungsebenen besser (Abb. 2a), ähnlich dem in den Gemeinschaftsergebnissen beobachteten Trend. Für bakterielle Sequenzen sank die durchschnittliche Klassifizierungsgenauigkeit für alle Methoden von nahezu perfekten Scores auf Familienebene (V4-Domäne Median F-messen Minimum: BLAST + F = 0,92, Maximum: Legacy BLAST F = 0,99), aber immer noch genaue Scores auf Artenebene (Median Minimum: BLAST + F = 0,76, Maximum: SortMeRNA F = 0,84), relativ zu einigen Mock-Community-Datensätzen (Abb. 2a). Pilzsequenzen zeigten eine ähnliche Leistung, mit der Ausnahme, dass die mittlere BLAST + – und VSEARCH-Leistung auf allen taxonomischen Ebenen deutlich niedriger war, was auf eine hohe Empfindlichkeit gegenüber Parameterkonfigurationen hinweist, und F-Messungen auf Artenebene waren im Allgemeinen viel niedriger (medianes Minimum: BLAST + F = 0,17, Maximum: UCLUST F = 0,45) als die von Bakteriensequenzklassifikationen (Abb. 2a).

Abb. 2

Klassifikatorleistung bei kreuzvalidierten Sequenzdatensätzen. Klassifizierungsgenauigkeit des 16S-rRNA-Gens V4-Subdomain (erste Zeile), V1–3-Subdomain (zweite Zeile), des 16S-rRNA-Gens in voller Länge (dritte Zeile) und aller SEINER Sequenzen (vierte Zeile). ein durchschnittliches F-Maß für jede Taxonomie-Klassifizierungsmethode (gemittelt über alle Konfigurationen und alle kreuzvalidierten Sequenzdatensätze) von Klasse zu Art. Fehlerbalken = 95% Konfidenzintervalle. b Durchschnitt F-Maß für jeden optimierten Klassifikator (gemittelt über alle kreuzvalidierten Sequenzdatensätze) auf Artenebene. Violinen mit unterschiedlichen Kleinbuchstaben haben signifikant unterschiedliche Mittelwerte (paarweise t-Test falsche Erkennungsrate korrigiert P < 0,05). c Korrelation zwischen der F-Measure-Leistung für jede Methode / Konfiguration Klassifizierung der V4-Subdomäne (x–Achse), der V1-3-Subdomäne (y-Achse) und der 16S-rRNA-Gensequenzen in voller Länge (z-Achse). Inset listet den Pearson R2-Wert für jede paarweise Korrelation auf; jede Korrelation ist signifikant (P < 0.001)

Spezies-Level–Klassifikationen von 16S rRNA-Gen simulierten Sequenzen wurden am besten mit optimierten UCLUST und SortMeRNA Konfigurationen für V4 Domäne und naive Bayes und RDP für V1-3 Domäne und voller Länge 16S rRNA-Gensequenzen (Abb. 2b). UCLUST erreichte das höchste F-Maß für SEINE Klassifizierung (F = 0,51). Alle optimierten Klassifikatoren erreichten jedoch ähnliche F-Messbereiche, mit Ausnahme von Legacy BLAST für SEINE Sequenzen (Abb. 2b).

Die Klassifizierungsleistung der 16S-rRNA-Gensequenzen auf Speziesebene korrelierte signifikant zwischen jeder Subdomäne und den Gensequenzen in voller Länge (Abb. 2c). In unseren Tests zeigten Sequenzen in voller Länge eine etwas geringere Genauigkeit als V1-3- und V4-Subdomains. Die relative Leistung von 16S-rRNA-Genen voller Länge im Vergleich zu hypervariablen Subdomain-Lesevorgängen ist in der Literatur variabel , und unsere Ergebnisse fügen der laufenden Diskussion dieses Themas einen weiteren Datenpunkt hinzu. Dennoch ergaben Klassifikationen auf Artenebene eine starke Korrelation zwischen den Methodenkonfigurationen (Abb. 2c) und optimierte Verfahrensleistung (Fig. 2b), was darauf hindeutet, dass die Primerwahl die Klassifizierungsgenauigkeit gleichmäßig über alle Methoden hinweg beeinflusst. Daher haben wir uns auf V4-Subdomain-Lesevorgänge für Downstream-Analysen konzentriert.

Bewertung der neuartigen Taxonklassifizierung

Die neuartige Taxonklassifizierung bietet eine einzigartige Perspektive auf das Verhalten von Klassifikatoren und bewertet, wie sich Klassifikatoren verhalten, wenn sie mit einer „neuartigen“ Klasse konfrontiert werden, die nicht in der Referenzdatenbank vertreten ist . Ein idealer Klassifikator sollte die nächste taxonomische Linie identifizieren, zu der dieses Taxon gehört, aber nicht weiter. Bei dieser Auswertung wird eine Referenzdatenbank k-mal unterabgetastet, um Abfrage- und Referenzsequenzsätze zu erzeugen, wie bei der kreuzvalidierten Klassifikation, aber es gibt zwei wichtige Unterschiede: (1) Die für die Klassifizierung verwendete Referenzdatenbank schließt jede Sequenz aus, die der taxonomischen Zugehörigkeit der Abfragesequenzen auf taxonomischer Ebene entspricht L, der taxonomische Rang, auf dem die Klassifizierung versucht wird; und (2) Dies wird auf jeder taxonomischen Ebene durchgeführt, um die Klassifizierungsleistung zu bewerten, wenn jede Methode auf eine „neuartige“ Art, Gattung, Familie usw. trifft.

Aufgrund dieser Unterschiede unterscheidet sich die Interpretation neuartiger Taxonklassifizierungsergebnisse von der der gemeinschaftlichen und kreuzvalidierten Klassifikationen. Für letztere kann die Klassifizierungsgenauigkeit auf jeder taxonomischen Ebene für jedes Klassifizierungsergebnis bewertet werden: Die mittlere Klassifizierungsgenauigkeit auf Familien- und Artenebene bewertet dieselben Ergebnisse, konzentriert sich jedoch auf unterschiedliche taxonomische Klassifizierungsebenen. Für neuartige Taxa werden jedoch unterschiedliche Abfrage- und Referenzsequenzen für die Klassifizierung auf jeder taxonomischen Ebene zusammengestellt und für jede separate Klassifikationen durchgeführt. Daher sind Klassifikationen auf Familien— und Artenebene unabhängige Ereignisse – eine bewertet, wie genau jede Methode funktioniert, wenn sie auf eine „neuartige“ Familie trifft, die nicht in der Referenzdatenbank vertreten ist, die andere, wenn eine „neuartige“ Art angetroffen wird.Neuartige Taxonbewertungen verwenden eine Reihe modifizierter Metriken, um mehr Informationen darüber zu liefern, welche Arten von Klassifizierungsfehlern auftreten. Präzisions-, Rückruf- und F-Measure-Berechnungen auf jeder taxonomischen Ebene L Beurteilen Sie, ob auf Ebene L-1 eine genaue Taxonomieklassifizierung vorgenommen wurde: beispielsweise sollte einer „neuartigen“ Art eine Gattung zugewiesen werden, da die richtige Artklasse nicht in der Referenzdatenbank vertreten ist. Jede Klassifizierung auf Artenebene in diesem Szenario ist eine Überklassifizierung (die sowohl den Rückruf als auch die Präzision betrifft) . Die Überklassifizierung ist eine der Schlüsselmetriken für die Bewertung neuartiger Taxa, Angabe des Ausmaßes, in dem neuartige Sequenzen als bekannte Organismen falsch interpretiert werden. Diese Überklassifizierung ist oft höchst unerwünscht, da sie beispielsweise zur falschen Einstufung unbekannter, aber höchstwahrscheinlich harmloser Umweltsequenzen als bekannte Pathogene führen kann. Neuartige Sequenzen, die innerhalb der richtigen Clade klassifiziert sind, aber auf einem weniger spezifischen Niveau als L, sind unterklassifiziert (was den Rückruf, aber nicht die Präzision beeinflusst) . Sequenzen, die in eine völlig andere Klasse eingeteilt werden, werden falsch klassifiziert (was sich sowohl auf den Rückruf als auch auf die Präzision auswirkt) .

Präzision, Rückruf und F-Messung steigen alle allmählich von den Durchschnittswerten nahe 0 an.0 auf Klassenebene und erreicht Spitzenwerte auf Gattungsebene für Bakterien und Artenebene für Pilze (Abb. 3a-c). Diese Trends sind mit einer allmählichen Abnahme der Unterklassifizierungs- und Fehlklassifizierungsraten für alle Klassifizierungsmethoden verbunden, was darauf hinweist, dass alle Klassifikatoren schlecht abschneiden, wenn sie auf Sequenzen ohne bekannte Übereinstimmung auf Klassen-, Ordnungs- oder Familienebene stoßen (Abb. 3d, f). Auf Speziesebene erzielten UCLUST, BLAST+ und VSEARCH signifikant bessere F-Messungen als alle anderen Methoden für 16S-rRNA-Genklassifikationen (P < 0,05) (Abb. 3g). UCLUST erzielte für SEINE Klassifikationen signifikant bessere F-Messungen als alle anderen Methoden (Abb. 3g). Über-, Unter- und Fehlklassifizierungswerte sind für die Optimierung von Klassifikatoren für reale Anwendungsfälle weniger aussagekräftig, da die meisten Methoden so optimiert werden könnten, dass sie für jede dieser Metriken separat Werte nahe Null ergeben, jedoch nur durch extreme Konfigurationen, was zu F-Messungen führt, die unter keinem Szenario akzeptabel wären. Beachten Sie, dass alle Vergleiche zwischen Methoden durchgeführt wurden, die optimiert wurden, um eine einzelne Metrik zu maximieren (oder zu minimieren), und daher unterscheiden sich die Konfigurationen, die die Genauigkeit maximieren, häufig von denen, die den Rückruf oder andere Metriken maximieren. Dieser Kompromiss zwischen verschiedenen Metriken wird nachstehend ausführlicher erörtert.

Abb. 3

Klassifikatorleistung bei simulierten Sequenzdatensätzen für neuartige Taxa für 16S-rRNA-Gensequenzen (linke Spalte) und für DEREN Sequenzen (rechte Spalte). a-f, Durchschnittliches F-Maß (a), Präzision (b), Rückruf (c), Überklassifizierung (d), Unterklassifizierung (e) und Fehlklassifizierung (f) für jede Taxonomie-Klassifizierungsmethode (gemittelt über alle Konfigurationen und alle neuartigen Taxa-Sequenzdatensätze) vom Stamm bis zur Artebene. Fehlerbalken = 95% Konfidenzintervalle. b Durchschnitt F-Maß für jeden optimierten Klassifikator (gemittelt über alle Datensätze neuartiger Taxa-Sequenzen) auf Artenebene. Violinen mit unterschiedlichen Kleinbuchstaben haben signifikant unterschiedliche Mittelwerte (gepaarter t-Test falsche Erkennungsrate korrigiert P < 0.05)

Die neuartige Taxonbewertung liefert eine Schätzung der Klassifikatorleistung bei einer bestimmten Referenzdatenbank, ihre Verallgemeinerung ist jedoch durch die Qualität der verfügbaren Referenzdatenbanken und durch den etikettenbasierten Ansatz zur Partitionierung und Bewertung begrenzt. Falsch markierte und polyphyletische Kladen in der Datenbank, z. B. Clostridium-Gruppe, erhöhen die Wahrscheinlichkeit einer Fehlklassifizierung. Eine komplementäre Analyse, die auf der Sequenzähnlichkeit zwischen einer neuartigen Abfrage und einem Top-Referenztreffer basiert, könnte dieses Problem abmildern. Wir entscheiden uns jedoch für einen etikettenbasierten Ansatz, da er das biologische Problem, mit dem Benutzer rechnen können, besser widerspiegelt, d. H. Unter Verwendung einer bestimmten Referenzsequenzdatenbank (die eine gewisse Menge falsch markierter und polyphyletischer Taxa enthält, die den derzeit verfügbaren Ressourcen innewohnen), wie wahrscheinlich ist es, dass ein Klassifikator eine taxonomische Bezeichnung falsch klassifiziert?

Multi-Evaluation method optimization

Die Mock Community und Cross-Validation Classification Evaluierungen ergaben ähnliche Trends in der Konfigurationsleistung, aber die Optimierung der Parameterauswahl für die neuen Taxa führte im Allgemeinen zu suboptimalen Entscheidungen für die Mock Community und Cross-Validation Tests (Abb. 4). Wir haben versucht, die Beziehung zwischen der Methodenkonfigurationsleistung für jede Bewertung zu bestimmen und diese Informationen zu verwenden, um Konfigurationen auszuwählen, die bei allen Bewertungen die beste Leistung erbringen. Für die 16S-rRNA-Gensequenzklassifizierung auf Speziesebene können Methodenkonfigurationen, die maximale F-Maßnahmen für Mock- und kreuzvalidierte Sequenzen erreichen, für die neuartige Taxonklassifizierung schlecht abschneiden (Abb. 4b). Die Optimierung ist für die Klassifizierung von 16S-rRNA-Gensequenzen auf Gattungsebene einfacher (Abb. 4a) und für Pilzsequenzen (Fig. 4c, d), für die die Konfigurationsleistung (gemessen als mittleres F-Maß) durch ähnliche Konfigurationen unter allen drei Auswertungen maximiert wird.

Abb. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Streudiagramme zeigen die mittleren F-Measure-Werte für jede Methodenkonfiguration, gemittelt über alle Proben, für die Klassifizierung von 16S-rRNA-Genen auf Gattungsebene (a) und Artenebene (b) und für IHRE Sequenzen auf Gattungsebene (c) und Artenebene (d)

Um optimale Methodenkonfigurationen zu identifizieren, legen wir für jede Bewertung Mindestschwellenwerte für die Genauigkeitsbewertung fest, indem wir natürliche Brüche im Bereich der Qualitätswerte identifizieren und methoden und Parameterbereiche, die diese Kriterien erfüllten. Tabelle 2 listet Methodenkonfigurationen auf, die die Einstufungsgenauigkeitswerte auf Artenebene für die Gemeinschaft maximieren, kreuzvalidiert, und neuartige Taxonbewertungen unter mehreren gemeinsamen Betriebsbedingungen. „Ausgewogene“ Konfigurationen werden für den allgemeinen Gebrauch empfohlen und sind Methoden, die F-Measure-Scores maximieren. „Precision“- und „Recall“ -Konfigurationen maximieren die Precision- bzw. Recall-Scores für Scheinklassifikationen, kreuzvalidierte Klassifikationen und neuartige Taxa (Tabelle 2). „Neuartige“ Konfigurationen optimieren die F-Measure-Scores für die neuartige Taxonklassifizierung und zweitens für die Mock- und Cross-validierte Leistung (Tabelle 2). Diese Konfigurationen werden für die Verwendung mit Probentypen empfohlen, von denen erwartet wird, dass sie große Anteile nicht identifizierter Spezies enthalten, für die eine Überklassifizierung übermäßig sein kann. Diese Konfigurationen funktionieren jedoch möglicherweise nicht optimal für die Klassifizierung bekannter Arten (d. H. Die Unterklassifizierungsraten sind höher). Für Pilze eignen sich die gleichen Konfigurationen, die für „Präzision“ empfohlen werden, gut für die neuartige Taxonklassifizierung (Tabelle 2). Für 16S-rRNA-Gensequenzen eignen sich BLAST + -, UCLUST- und VSEARCH-Konsensus-Klassifikatoren am besten für die neuartige Taxonklassifizierung (Tabelle 2).

Tabelle 2 Optimierte Methodenkonfigurationen für Standardbetriebsbedingungen

Rechenlaufzeit

Sequenzierungsplattformen (und Experimente) mit hohem Durchsatz führen weiterhin zu steigenden Sequenzzahlen, die – selbst nach Qualitätsfilterung und Dereplikation oder operativen taxonomischen Einheiten—Clustering—Schritten, die für die meisten Mikrobiomanalyse-Pipelines – können Tausende von eindeutigen Sequenzen überschreiten, die klassifiziert werden müssen. Eine zunehmende Anzahl von Abfragesequenzen und Referenzsequenzen kann zu inakzeptablen Laufzeiten führen, und unter einigen experimentellen Bedingungen kann die leistungsstärkste Methode (basierend auf Genauigkeit, Rückruf oder einer anderen Metrik) nicht ausreichen, um eine große Anzahl von Sequenzen innerhalb eines akzeptablen Zeitrahmens zu verarbeiten. Beispielsweise können schnelle Turnarounds in klinischen Szenarien von entscheidender Bedeutung sein, da die Mikrobiombewertung in die klinische Praxis umgesetzt wird, oder in kommerziellen Szenarien, in denen große Probenvolumina und Kundenerwartungen die Durchlaufzeiten und die Methodenauswahl einschränken können.

Wir haben die Rechenlaufzeit als lineare Funktion von (1) der Anzahl der Abfragesequenzen und (2) der Anzahl der Referenzsequenzen bewertet. Die lineare Abhängigkeit ist empirisch in Fig. 5. Für beide Metriken ist die Steigung das wichtigste Leistungsmaß. Das Abfangen kann die Zeit umfassen, die zum Trainieren des Klassifikators, zum Vorverarbeiten der Referenzsequenzen, zum Laden vorverarbeiteter Daten oder anderer „Setup“ -Schritte benötigt wird, deren Bedeutung mit zunehmender Sequenzanzahl abnimmt und daher vernachlässigbar ist.

Abb. 5

Laufzeitleistungsvergleich von Taxonomie-Klassifikatoren. Laufzeit (en) für jeden Taxonomieklassifikator entweder Variieren der Anzahl der Abfragesequenzen und Konstant halten von 10.000 Referenzsequenzen (a) oder Variieren der Anzahl der Referenzsequenzen und konstant Halten von 1 Abfragesequenz (b)