het optimaliseren van de taxonomische classificatie van Marker-gen ampliconsequenties met QIIME 2′ s Q2-feature-classifier plugin
We gebruikten tax-credit om meerdere marker-gen sequentie taxonomie classifiers te optimaliseren en te vergelijken. We evalueerden twee veelgebruikte classifiers die zijn verpakt in QIIME 1 ( RDP Classifier (versie 2.2), legacy BLAST (versie 2.2.22) ), twee qiime 1 alignment-based consensus taxonomy classifiers (de standaard UCLUST classifier beschikbaar in QIIME 1 (gebaseerd op versie 1.2.22 q) , en SortMeRNA (versie 2.0 29/11/2014) ), twee alignment-based consensus taxonomy classifiers nieuw uitgebracht in q2-feature-classifier (gebaseerd op BLAST+ (Versie 2.6.0) en VSEARCH (Versie 2.0.3) ), en een nieuwe multinomial naive Bayes machine-learning classifier in q2-feature-classifier (zie de sectie “methoden” voor informatie over Q2-feature-classifier methoden en beschikbaarheid van broncode). We hebben parameter sweeps uitgevoerd om optimale parameterconfiguraties voor elke methode te bepalen.
Mock community evaluations
we hebben eerst de classificatieprestaties vergeleken bij mock communities, die kunstmatig geconstrueerde mengsels zijn van microbiële cellen of DNA gecombineerd met bekende verhoudingen . We gebruikten 15 bacteriële 16S rRNA gen mock gemeenschappen en 4 schimmel interne getranscribeerd spacer (its) mock gemeenschappen (Tabel 1) afkomstig van mockrobiota , een publieke repository voor mock gemeenschap gegevens. Mock gemeenschappen zijn nuttig voor methode benchmarking omdat (1) in tegenstelling tot gesimuleerde gemeenschappen, ze toestaan kwantitatieve beoordelingen van de prestaties van de methode onder de werkelijke bedrijfsomstandigheden, dat wil zeggen, het opnemen van echte sequencing fouten die moeilijk nauwkeurig te modelleren kunnen zijn; en (2) in tegenstelling tot natuurlijke gemeenschap monsters, de werkelijke samenstelling van een mock gemeenschap is van tevoren bekend, waardoor kwantitatieve beoordelingen van de gemeenschap profiling nauwkeurigheid.
een extra prioriteit was het testen van het effect van het instellen van klassengewichten op de classificatienauwkeurigheid voor de naïeve Bayes classifier geïmplementeerd in q2-feature-classifier. In machine learning zijn klassengewichten of eerdere waarschijnlijkheden vectoren van gewichten die de frequentie specificeren waarmee elke klasse naar verwachting zal worden waargenomen (en moet worden onderscheiden van het gebruik van deze term onder Bayesiaanse gevolgtrekking als een kansverdeling van gewichten vectoren). Een alternatief voor het instellen van klassengewichten is om aan te nemen dat elke query-sequentie even waarschijnlijk behoort tot een van de taxa die aanwezig zijn in de referentiesequentiedatabase. Deze aanname, bekend als uniforme klasse priors in de context van een naïeve Bayes classifier, wordt gemaakt door de RDP classifier , en de impact ervan op marker-gen classificatie nauwkeurigheid moet nog worden gevalideerd. Het maken van ofwel de veronderstelling dat de klasse gewichten uniform zijn of tot op zekere hoogte bekend zal de resultaten beïnvloeden en kan niet worden vermeden. De nepgemeenschappen hebben taxonomische abundanties die verre van uniform zijn over de reeks referentietaxonomieën, zoals elke echte dataset moet. We kunnen ze daarom gebruiken om de impact van het maken van veronderstellingen met betrekking tot klassengewichten te beoordelen. Waar we de klassengewichten hebben ingesteld op de bekende taxonomische samenstelling van een monster, hebben we de resultaten “op maat”gelabeld.
we evalueerden de nauwkeurigheid van de classificatieprestaties op basis van “mock community” – sequenties, ingedeeld op taxonomische niveaus, van klasse tot soort. De opeenvolgingen van de modelgemeenschap werden geclassificeerd gebruikend het gen van Greengenes 99% OTUs 16S rRNA of verenigt 99% OTUs zijn referentieopvolgingen voor bacteriële en schimmelgemeenschappen. Zoals verwacht, nam de classificatienauwkeurigheid af naarmate de classificatiediepte toenam, en alle methoden konden de taxonomische verwantschap van nepcommunity-sequenties tot op genusniveau voorspellen met mediane F-metingen van meer dan 0,8 over alle parametersets (minimum: UCLUST F = 0,81, maximum: naive Bayes maatwerk F = 1,00) (Fig. 1 bis). Echter, soort aansluiting werd voorspeld met veel lagere en meer variabele Nauwkeurigheid tussen methode configuraties (mediaan F-maat minimum: UCLUST F = 0,42, maximum: naïeve Bayes maat F = 0.95), met de nadruk op het belang van parameteroptimalisatie (hieronder meer in detail besproken). Figuur 1a illustreert lijndiagrammen van gemiddelde F-maat op elk taxonomisch niveau, gemiddeld over alle classificatieconfiguraties; vandaar dat de classificatieprestaties worden onderschat voor sommige classificatieconfiguraties die sterk worden beïnvloed door parameterconfiguraties of waarvoor een breder scala aan parameters werd getest (bv. naïeve Bayes). Het vergelijken van alleen geoptimaliseerde methoden (d.w.z., de best presterende parameterconfiguraties voor elke methode), bereikte naïeve Bayes op maat significant hogere f-maat (gepaarde t-test P < 0,05) (Fig. 1b), terugroepactie, taxondetectiesnelheid, taxonnauwkeurigheid (Fig. 1c), en lagere Bray-Curtis ongelijkheid dan alle andere methoden (Fig. 1d).
Mock communities zijn noodzakelijkerwijs simplistisch, en kunnen de methodologische prestaties in een breed scala van taxa niet beoordelen. Hoewel de ruwe opeenvolgingen PCR en het rangschikken fouten kunnen bevatten (toestaand ons om methodeprestaties onder biologische voorwaarden te beoordelen), worden de opeenvolgingen die de verwachte opeenvolgingen van de modelgemeenschap overeenkomen niet verwijderd uit het referentiegegevensbestand voorafgaand aan classificatie. Deze benadering repliceert normale bedrijfsomstandigheden en beoordeelt herstel van verwachte sequenties, maar kan impliciet bias naar methoden die een exacte overeenkomst met de query sequenties vinden, en benadert niet sommige natuurlijke microbiële gemeenschappen waarin weinig of geen gedetecteerde sequenties precies overeenkomen met de referentiesequenties. Daarom hebben we gesimuleerde sequence read classificaties (hieronder beschreven) uitgevoerd om de classificatieprestaties verder te testen.
Cross-gevalideerde taxonomieclassificatie
gesimuleerde sequentielezen, afgeleid van referentiedatabases, stellen ons in staat de prestaties van de methode te beoordelen over een grotere diversiteit aan sequenties dan een enkele mock-gemeenschap over het algemeen omvat. We hebben eerst de classificatieprestaties geëvalueerd met behulp van gestratificeerde k-voudige kruisvalidatie van taxonomieclassificatie voor gesimuleerde reads. De k-fold cross-validation strategie wordt enigszins aangepast om rekening te houden met de hiërarchische aard van taxonomische classificaties, die alle classificeerders in deze studie (met uitzondering van legacy BLAST) hanteren door het laagste (d.w.z., meest specifieke) taxonomische niveau toe te wijzen waar de classificatie een door de gebruiker gedefinieerde “vertrouwen” of “consensus” drempel overschrijdt (zie materialen en methoden). De wijziging is om elke verwachte taxonomie in elke testset af te korten tot het maximumniveau waarop een exemplaar van die taxonomie in de trainingsset aanwezig is.
gesimuleerde reads werden gegenereerd uit het Greengenes 99% OTUs 16S rRNA gen of UNITE 99% OTUs ITS referentiesequenties. Greengenes 16S rRNA gen gesimuleerde reads werden gegenereerd uit full-length 16S rRNA genen (primers 27F / 1492R) en V4 (primers 515F/806R) en v1–3 subdomeinen (primers 27F/534R). De gesimuleerde leest die momenteel beschikbaar zijn in belastingkrediet nemen geen kunstmatige fouten van PCR of het rangschikken om verscheidene redenen op. Aangezien onze mock communities analyses al classifier prestaties onder echte lawaaierige experimentele omstandigheden beoordelen, is het doel van de analyses van gesimuleerde sequenties om theoretische classifier prestaties te beoordelen (wanneer exacte sequence matches niet bestaan in de referentie database). Bovendien gebruiken de pijpleidingen van de de opeenvolgingsanalyse van marker-genamplicon algemeen het denoising methodes om per-loops foutprofielen te modelleren, lawaaierige opeenvolgingen te filteren, en daadwerkelijke opeenvolgingsvarianten op te lossen. Daarom simuleren we in onze evaluaties een geïdealiseerd (indien onwaarschijnlijk) theoretisch scenario waarin alle sequentiefouten zijn ontkend om de classificatieprestaties van de denoiserprestaties te scheiden. In deze set van tests en hieronder voor nieuwe taxa, de “op maat” classifier had eerdere waarschijnlijkheden die werden afgeleid uit de training set elke keer dat het werd getraind.
classificatie van cross-gevalideerde meetwaarden presteerde beter op grovere classificatieniveaus (Fig. 2a), vergelijkbaar met de ontwikkeling die werd waargenomen bij de modelresultaten van de gemeenschap. Voor bacteriële sequenties daalde de gemiddelde classificatienauwkeurigheid voor alle methoden van bijna perfecte scores op familieniveau (v4-domein mediaan F-meting minimum: BLAST+ F = 0,92, maximum: legacy BLAST F = 0,99), maar behield nog steeds accurate scores op soortenniveau (mediaan minimum: BLAST+ F = 0,76, maximum: SortMeRNA F = 0,84), ten opzichte van sommige modelgegevensreeksen van de gemeenschap (Fig. 2 bis). Schimmelinfectie sequenties tentoongesteld vergelijkbare prestaties, met de uitzondering dat betekent BLAST+ en VERTZOEKEN prestaties aanzienlijk lager op alle taxonomische niveaus, met vermelding van hoge gevoeligheid en parameter-instellingen en soorten-niveau F-maatregelen zijn in het algemeen veel lager (mediaan minimum: BLAST+ F = 0.17, maximum: UCLUST F = 0.45) dan die van bacteriële sequence-indelingen (Fig. 2 bis).
Species-level classificaties van 16S rRNA gen gesimuleerde sequenties waren het best met geoptimaliseerde UCLUST en SortMeRNA configuraties voor V4 domein, en naïeve Bayes en RDP voor V1–3 domein en full-length 16S rRNA gen sequenties (Fig. 2b). UCLUST behaalde de hoogste F-maat voor zijn classificatie (f = 0,51). Nochtans, bereikten alle geoptimaliseerde classifiers gelijkaardige F-meetbereiken, met uitzondering van legacy BLAST voor zijn opeenvolgingen (Fig. 2b).
De Classificatieprestaties op soortniveau van 16S rRNA gen gesimuleerde reads waren significant gecorreleerd tussen elk subdomein en de volledige gensequenties (Fig. 2c). In onze tests, full-length sequenties vertoonde iets lagere nauwkeurigheid dan V1-3 en v4 subdomeinen. De relatieve prestaties van full-length 16S rRNA genen versus hypervariable subdomein leest is variabel in de literatuur , en onze resultaten voegen een ander gegevenspunt toe aan de voortdurende discussie over dit onderwerp. Niettemin leverden classificaties op soortenniveau een sterke correlatie op tussen methodeconfiguraties (Fig. 2c) en geoptimaliseerde methodeprestaties (Fig. 2b), wat suggereert dat primer choice de classificatienauwkeurigheid uniform over alle methoden beïnvloedt. Vandaar, richtten we ons op v4 subdomein leest voor downstream analyses.
nieuwe taxonclassificatie evaluatie
Nieuwe taxonclassificatie biedt een uniek perspectief op classificatiegedrag, waarbij wordt beoordeeld hoe classifiers presteren wanneer ze worden uitgedaagd met een “nieuwe” clade die niet in de referentiedatabase wordt weergegeven . Een ideale classificeerder moet de dichtstbijzijnde taxonomische afstamming identificeren waartoe dit taxon behoort, maar niet verder. In deze evaluatie wordt een referentiedatabank k keer gesubsampled om query-en referentiesequentiesets te genereren, zoals voor cross-gevalideerde classificatie, maar er bestaan twee belangrijke onderscheidingen: (1) de referentiedatabank die wordt gebruikt voor classificatie sluit elke sequentie uit die overeenkomt met de taxonomische verwantschap van de query-sequenties op taxonomisch niveau L, de taxonomische rang waarop classificatie wordt geprobeerd; en (2) Dit wordt op elk taxonomisch niveau uitgevoerd om de classificatieprestaties te beoordelen wanneer elke methode een “nieuwe” soort, geslacht, familie, enz.tegenkomt.
vanwege deze verschillen verschilt de interpretatie van de resultaten van de nieuwe taxonclassificatie van die van de modelgemeenschap en cross-gevalideerde classificaties. Voor deze laatste kan de classificatienauwkeurigheid op elk taxonomisch niveau voor elk classificatieresultaat worden beoordeeld: gemiddelde classificatienauwkeurigheid op familie-en soortenniveau evalueert dezelfde resultaten, maar concentreert zich op verschillende taxonomische classificatieniveaus. Voor nieuwe taxa worden echter verschillende query-en referentiesequenties samengesteld voor classificatie op elk taxonomisch niveau en worden voor elke taxa afzonderlijke classificaties uitgevoerd. Daarom zijn classificaties op familie – en soortenniveau onafhankelijke gebeurtenissen—de ene beoordeelt hoe nauwkeurig elke methode presteert wanneer het een “nieuwe” familie tegenkomt die niet in de referentiedatabase wordt weergegeven, de andere wanneer een “nieuwe” soort wordt aangetroffen.
nieuwe taxonbeoordelingen maken gebruik van een reeks aangepaste statistieken om meer informatie te verschaffen over welke soorten classificatiefouten zich voordoen. Precisie -, terugroep – en F-meetberekeningen op elk taxonomisch niveau l beoordelen of een nauwkeurige taxonomieclassificatie is gemaakt op niveau L-1: bijvoorbeeld, een “nieuwe” soort moet worden toegewezen aan een geslacht, omdat de juiste soort klasse niet wordt weergegeven in de referentiedatabase. Elke classificatie op soortenniveau in dit scenario is een overclassificatie (die zowel de terugroepactie als de precisie beïnvloedt) . Overclassificatie is een van de belangrijkste maatstaven voor nieuwe taxa-evaluatie, die aangeeft in welke mate nieuwe sequenties verkeerd zullen worden geïnterpreteerd als bekende organismen. Deze overclassificatie is vaak hoogst ongewenst omdat het, bijvoorbeeld, tot de onjuiste classificatie van onbekende maar hoogstwaarschijnlijk onschadelijke milieuopeenvolgingen als bekende ziekteverwekkers kan leiden. Nieuwe sequenties die zijn geclassificeerd binnen de juiste clade, maar op een minder specifiek niveau dan L, zijn ondergeclassificeerd (invloed op recall, maar niet Precisie) . De opeenvolgingen die in een geheel andere clade worden geclassificeerd worden verkeerd geclassificeerd (beà nvloedend zowel terugroepen als precisie).
precisie, recall en F-meting nemen geleidelijk toe van gemiddelde scores in de buurt van 0.0 op klasse niveau, het bereiken van piek scores op genus niveau voor bacteriën en soorten niveau voor schimmels (Fig. 3a-c). Deze trends gaan gepaard met een geleidelijke daling van de onderclassificatie-en misclassificatiepercentages voor alle classificatiemethoden, wat erop wijst dat alle classificeerders slecht presteren wanneer zij sequenties tegenkomen zonder bekende overeenkomst op het niveau van klasse, orde of familie (Fig. 3d, f). Op soortniveau bereikten UCLUST, BLAST+ en VSEARCH significant betere F-metingen dan alle andere methoden voor 16S rRNA genclassificaties (P < 0,05) (Fig. 3g). UCLUST bereikte beduidend betere F-maatregelen dan alle andere methoden voor zijn classificaties (Fig. 3g). Over-, onder -, en misclassificatie scores zijn minder informatief voor het optimaliseren van classifiers voor echte use cases, omdat de meeste methoden kunnen worden geoptimaliseerd om bijna nul scores voor elk van deze statistieken afzonderlijk, maar alleen door middel van extreme configuraties, wat leidt tot F-maatregelen die onaanvaardbaar zou zijn onder elk scenario. Merk op dat alle vergelijkingen werden gemaakt tussen methoden geoptimaliseerd om te maximaliseren (of minimaliseren) een enkele metriek, en dus de configuraties die de precisie te maximaliseren zijn vaak verschillend van die die recall of andere metrics maximaliseren. Deze afweging tussen verschillende metrics wordt hieronder meer in detail besproken.
de nieuwe taxon-evaluatie geeft een schatting van de classificatieprestaties in een specifieke referentiedatabase, maar de generalisatie ervan wordt beperkt door de kwaliteit van de beschikbare referentiedatabases en door de op etiketten gebaseerde aanpak die wordt gebruikt voor partitionering en evaluatie. Verkeerd gelabelde en polyphyletic clades in de database, bijvoorbeeld, clostridium groep, verhogen de kans op misclassificatie. Een aanvullende analyse op basis van sequentieverschil tussen een nieuwe query en top referentie hit zou dit probleem te verminderen. We kiezen er echter voor om een op etiketten gebaseerde benadering toe te passen, omdat deze beter het biologische probleem weerspiegelt dat gebruikers kunnen verwachten te ondervinden, d.w.z. door gebruik te maken van een bepaalde referentiesequentiedatabase (die een bepaalde hoeveelheid verkeerd gelabelde en polyfyletische taxa zal bevatten die inherent zijn aan de momenteel beschikbare bronnen), hoe waarschijnlijk is het dat een classificeerder een taxonomisch label verkeerd classificeert?
optimalisatie van de Multi-evaluatiemethode
De classificatieevaluaties van de mock-gemeenschap en de kruisvalidatie leverden vergelijkbare trends op in de configuratieprestaties, maar het optimaliseren van parameters voor de nieuwe taxa leidde over het algemeen tot suboptimale keuzes voor de mock-gemeenschap en de kruisvalidatietests (Fig. 4). We hebben geprobeerd de relatie tussen de configuratie van de methode te bepalen voor elke evaluatie en deze informatie te gebruiken om configuraties te selecteren die het beste presteren bij alle evaluaties. Voor 16S rRNA genvolgorde klasse-niveau classificatie, methodeconfiguraties die maximale F-metingen voor mock en cross-gevalideerde sequenties te bereiken kan slecht presteren voor nieuwe taxon classificatie (Fig. 4b). Optimalisatie is eenvoudiger voor genus-niveau classificatie van 16S rRNA gen sequenties (Fig. 4a) en voor schimmelsequenties (Fig. 4c, d), waarvoor de configuratieprestaties (gemeten als gemiddelde F-maat) worden gemaximaliseerd door vergelijkbare configuraties van alle drie de evaluaties.