Articles

optimering af taksonomisk klassificering af markør-genamplikonsekvenser med CHIIME 2′ s 2. kvartal-feature-classifier plugin

Vi brugte skattefradrag til at optimere og sammenligne flere markør-gensekvenstaksonomi klassifikatorer. Vi vurderede to almindeligt anvendte klassifikatorer, der er pakket ind i CHIIME 1 (RDP Classifier (version 2.2) , legacy BLAST (version 2.2.22) ), to JUSTERINGSBASEREDE konsensustaksonomiklassifikatorer (standard uclust-klassifikatoren tilgængelig i CHIIME 1 (baseret på version 1.2.22 k) og SortMeRNA (version 2.0 29/11/2014)), to justeringsbaserede konsensustaksonomiklassifikatorer, der nyligt blev frigivet i 2.kvartal-funktionsklassifikator (baseret på BLAST+ (version 2.6.0) og VSEARCH (version 2.0.3)) og en ny multinomial naiv Bayes maskinlæring klassifikator i 2. kvartal-FUNKTIONSKLASSIFIKATOR (se afsnittet “metoder” for at få oplysninger om 2. kvartal-FUNKTIONSKLASSIFICERINGSMETODER og KILDEKODETILGÆNGELIGHED). Vi udførte parameterfejninger for at bestemme optimale parameterkonfigurationer for hver metode.

Mock community evalueringer

Vi benchmarkede først klassificeringsydelse på mock-samfund, som er kunstigt konstruerede blandinger af mikrobielle celler eller DNA kombineret ved kendte forhold . Vi udnyttede 15 bakterielle 16S rRNA gen mock samfund og 4 svampe intern transkriberet spacer (ITS) mock samfund (tabel 1) stammer fra mockrobiota , et offentligt lager for mock community data. Mock-samfund er nyttige til metodebenchmarking, fordi (1) i modsætning til simulerede samfund tillader de kvantitative vurderinger af metodens ydeevne under faktiske driftsforhold, dvs.inkorporering af reelle sekventeringsfejl, der kan være vanskelige at modellere nøjagtigt; og (2) i modsætning til naturlige samfundsprøver er den faktiske sammensætning af et mock-samfund kendt på forhånd, hvilket tillader kvantitative vurderinger af samfundsprofileringsnøjagtighed.

tabel 1 Mock-samfund, der i øjeblikket er integreret i skattekredit

en yderligere prioritet var at teste effekten af at indstille klassevægte på klassificeringsnøjagtighed for den naive Bayes-klassifikator implementeret i 2.kvartal-funktionsklassifikator. I maskinindlæring er klassevægte eller tidligere sandsynligheder vektorer af vægte, der specificerer den frekvens, hvormed hver klasse forventes observeret (og skal skelnes fra brugen af dette udtryk under bayesisk slutning som en sandsynlighedsfordeling af vægtvektorer). Et alternativ til at indstille klassevægte er at antage, at hver forespørgselssekvens lige så sandsynligt hører til nogen af de takser, der er til stede i referencesekvensdatabasen. Denne antagelse, kendt som uniform class priors i sammenhæng med en naiv Bayes klassifikator, er lavet af RDP klassifikator , og dens indvirkning på markør-gen klassificeringsnøjagtighed er endnu ikke valideret. At antage, at klassevægten er ensartet eller kendt til en vis grad, vil påvirke resultaterne og kan ikke undgås. Mock-samfundene har taksonomiske overflader, der langt fra er ensartede over sættet med referencetaksonomier, som ethvert reelt datasæt skal. Vi kan derfor bruge dem til at vurdere virkningen af antagelser om klassevægte. Hvor vi har indstillet klassevægten til den kendte taksonomiske sammensætning af en prøve, har vi mærket resultaterne “skræddersyede”.

vi vurderede klassificeringspræstationsnøjagtighed på mock community-sekvenser klassificeret på taksonomiske niveauer fra klasse til Art. Mock community-sekvenser blev klassificeret under anvendelse af Greengenes 99% OTUs 16S rRNA-genet eller forene 99% OTUs dets referencesekvenser for henholdsvis bakterielle og svampe-mock-samfund. Som forventet faldt klassificeringsnøjagtigheden, da klassificeringsdybden steg, og alle metoder kunne forudsige den taksonomiske tilknytning af mock community-sekvenser ned til slægtsniveau med median F-målinger på over 0,8 på tværs af alle parametersæt (minimum: UCLUST F = 0,81, maksimum: naive Bayes skræddersyet F = 1,00) (Fig. 1a). Imidlertid blev artstilknytning forudsagt med meget lavere og mere variabel nøjagtighed blandt metodekonfigurationer (median f-mål minimum: UCLUST F = 0,42, maksimum: naive Bayes skræddersyet F = 0.95), der fremhæver vigtigheden af parameteroptimering (diskuteret mere detaljeret nedenfor). Figur 1a illustrerer linjediagrammer med gennemsnitlig F-måling på hvert taksonomisk niveau, i gennemsnit på tværs af alle klassificeringskonfigurationer; derfor undervurderes klassificeringsydelsen for nogle klassifikatorer, der er stærkt påvirket af parameterkonfigurationer, eller for hvilke et bredere udvalg af parametre blev testet (f.eks. naive Bayes). Sammenligning af kun optimerede metoder (dvs., opnåede naive Bayes skræddersyede signifikant højere F-mål (parret t-test P < 0.05) (Fig. 1b), recall, takson afsløring Sats, takson nøjagtighed sats (Fig. 1c) og lavere Bray-Curtis ulighed end alle andre metoder (Fig. 1d).

Fig. 1

Klassificeringsydelse på mock community datasæt til 16S rRNA gensekvenser (venstre kolonne) og svampe dens sekvenser (højre kolonne). et gennemsnitligt f-mål for hver taksonomi klassificeringsmetode (gennemsnit på tværs af alle konfigurationer og alle mock community datasæt) fra klasse til artsniveau. Fejl barer = 95% konfidensintervaller. B gennemsnit F-mål for hver optimeret klassifikator (gennemsnit på tværs af alle mock-samfund) på artsniveau. c gennemsnitlig takson nøjagtighed sats for hver optimeret klassifikator (gennemsnit på tværs af alle mock samfund) på artsniveau. d gennemsnitlig Bray-Curtis afstand mellem den forventede mock-samfundssammensætning og dens sammensætning som forudsagt af hver optimeret klassifikator (gennemsnit på tværs af alle mock-samfund) på artsniveau. Violin plot viser median (hvidt punkt), kvartiler (sorte bjælker) og kernetæthedsestimering (violin) for hver scorefordeling. Violiner med forskellige små bogstaver har signifikant forskellige midler (parret t test falsk detektionshastighed-korrigeret P < 0.05)

Mock-samfund er nødvendigvis forenklede og kan ikke vurdere metodens ydeevne på tværs af en bred vifte af takser. Selvom rå sekvenser kan indeholde PCR-og sekventeringsfejl (giver os mulighed for at vurdere metodens ydeevne under biologiske forhold), fjernes sekvenser, der matcher de forventede mock community-sekvenser, ikke fra referencedatabasen før klassificering. Denne tilgang replikerer normale driftsforhold og vurderer gendannelse af forventede sekvenser, men kan implicit bias mod metoder, der finder et nøjagtigt match til forespørgselssekvenserne, og tilnærmer sig ikke nogle naturlige mikrobielle samfund, hvor få eller ingen detekterede sekvenser nøjagtigt matcher referencesekvenserne. Derfor udførte vi simulerede sekvenslæsningsklassifikationer (beskrevet nedenfor) for yderligere at teste klassificeringsydelsen.

Krydsvalideret taksonomiklassificering

simuleret sekvenslæsning, afledt af referencedatabaser, giver os mulighed for at vurdere metodens ydeevne på tværs af en større mangfoldighed af sekvenser end et enkelt mock-samfund generelt omfatter. Vi evaluerede først klassificeringsydelsen ved hjælp af stratificeret k-fold krydsvalidering af taksonomiklassificering til simulerede læsninger. K-fold krydsvalideringsstrategien ændres lidt for at tage højde for den hierarkiske karakter af taksonomiske klassifikationer, som alle klassifikatorerne i denne undersøgelse (med undtagelse af legacy BLAST) håndterer ved at tildele det laveste (dvs.mest specifikke) taksonomiske niveau, hvor klassificeringen overgår en brugerdefineret “tillid” eller “konsensus” tærskel (se materialer og metoder). Ændringen er at afkorte enhver forventet taksonomi i hvert testsæt til det maksimale niveau, hvor en forekomst af denne taksonomi findes i træningssættet.

simulerede læsninger blev genereret fra Greengenes 99% OTUs 16S rRNA gen eller forene 99% OTUs dets referencesekvenser. Greengenes 16S rRNA gen simulerede læser blev genereret fra Fuld længde 16S rRNA gener (primere 27F/1492r) og V4 (primere 515f/806R) og V1–3 underdomæner (primere 27F/534r). De simulerede læsninger, der i øjeblikket er tilgængelige i skattekredit, indeholder ikke kunstige fejl fra PCR eller sekventering af flere grunde. Da vores mock communities-analyser allerede vurderer klassificeringsydelse under ægte støjende eksperimentelle forhold, er målet med analyserne af simulerede sekvenser at vurdere teoretisk klassificeringsydelse (når nøjagtige sekvensmatcher ikke findes i referencedatabasen). Derudover bruger markør-gen amplicon-sekvensanalyserørledninger ofte denoiseringsmetoder til at modellere per-run-fejlprofiler, filtrere støjende sekvenser og løse faktiske sekvensvarianter. Derfor simulerer vi i vores evalueringer et idealiseret (hvis usandsynligt) teoretisk scenario, hvor alle sekventeringsfejl er blevet denoiseret for at adskille klassificeringsydelse fra denoiser-ydeevne. I dette sæt tests og nedenfor for ny taksa havde den “skræddersyede” klassifikator tidligere sandsynligheder, der blev udledt af træningssættet, hver gang det blev trænet.

klassificering af krydsvaliderede aflæsninger udført bedre ved grovere klassificeringsniveauer (Fig. 2a), svarende til den tendens, der er observeret i mock community-resultater. For bakteriesekvenser faldt den gennemsnitlige klassificeringsnøjagtighed for alle metoder fra næsten perfekte score på familieniveau (v4-domæne median F-mål minimum: BLAST+ F = 0,92, maksimum: legacy BLAST F = 0,99), men bevarede stadig nøjagtige score på artsniveau (median minimum: BLAST+ F = 0,76, maksimum: SortMeRNA F = 0,84) i forhold til nogle mock community-datasæt (Fig. 2a). Svampesekvenser udviste lignende ydeevne, med den undtagelse, at den gennemsnitlige BLAST+ og VSEARCH-ydeevne var markant lavere på alle taksonomiske niveauer, hvilket indikerer høj følsomhed over for parameterkonfigurationer, og f-målinger på artsniveau var generelt meget lavere (median minimum: BLAST+ F = 0,17, maksimum: UCLUST F = 0,45) end dem med bakteriesekvensklassifikationer (Fig. 2a).

Fig. 2

Klassificeringsydelse på krydsvaliderede sekvensdatasæt. Klassificeringsnøjagtighed af 16S rRNA-gen V4-underdomæne (første række), V1–3-underdomæne (anden række), 16S rRNA-gen i fuld længde (tredje træk) og svampe dens sekvenser (fjerde række). et gennemsnitligt f-mål for hver taksonomiklassificeringsmetode (gennemsnit på tværs af alle konfigurationer og alle krydsvaliderede sekvensdatasæt) fra klasse til artsniveau. Fejl barer = 95% konfidensintervaller. B gennemsnit F-mål for hver optimeret klassifikator (gennemsnit på tværs af alle krydsvaliderede sekvensdatasæt) på artsniveau. Violiner med forskellige små bogstaver har signifikant forskellige midler (parret t-test falsk detektionshastighed-korrigeret P < 0.05). C-korrelation mellem f-måle ydeevne for hver metode/konfigurationsklassificering af V4–underdomæne (h-akse), V1-3-underdomæne (y-akse) og 16S rRNA-gensekvenser i fuld længde (h-akse). Indsat viser Pearson R2-værdien for hver parvis korrelation; hver korrelation er signifikant (P < 0.001)

klassifikationer på artsniveau af 16S rRNA-gensimulerede sekvenser var bedst med optimerede uclust–og SortMeRNA-konfigurationer for V4-domæne og naive Bayes og RDP for V1-3-domæne og 16S rRNA-gensekvenser i fuld længde (Fig. 2b). UCLUST opnåede det højeste f-mål for dets klassificering (F = 0,51). Imidlertid opnåede alle optimerede klassifikatorer lignende f-måleområder med undtagelse af legacy BLAST for dens sekvenser (Fig. 2b).

Klassificeringsydelse på artsniveau for 16S rRNA-gen simuleret læsning var signifikant korreleret mellem hvert underdomæne og gensekvenserne i fuld længde (Fig. 2c). I vores test udviste sekvenser i fuld længde lidt lavere nøjagtighed end V1–3 og V4 underdomæner. Den relative ydeevne af 16S rRNA-gener i fuld længde versus hypervariable underdomænelæsninger er variabel i litteraturen , og vores resultater tilføjer endnu et datapunkt til den igangværende diskussion af dette emne. Ikke desto mindre gav klassifikationer på artsniveau stærk sammenhæng mellem metodekonfigurationer (Fig. 2c) og optimeret metodeydelse (Fig. 2b), hvilket antyder, at primervalg påvirker klassificeringsnøjagtigheden ensartet på tværs af alle metoder. Derfor, vi fokuserede på V4 underdomæne læser til nedstrøms analyser.

evaluering af ny taksonklassificering

ny taksonklassificering giver et unikt perspektiv på klassificeringsadfærd og vurderer, hvordan klassifikatorer fungerer, når de udfordres med en “ny” klade, der ikke er repræsenteret i referencedatabasen . En ideel klassifikator skal identificere den nærmeste taksonomiske slægt, som denne takson tilhører, men ikke længere. I denne evaluering er en referencedatabase undersamplet k gange for at generere forespørgsel og referencesekvenssæt, som for krydsvalideret klassificering, men der findes to vigtige forskelle: (1) referencedatabasen, der anvendes til klassificering, udelukker enhver sekvens, der matcher den taksonomiske tilknytning af forespørgselssekvenserne på taksonomisk niveau L, den taksonomiske rang, hvor klassificering forsøges; og (2) Dette udføres på hvert taksonomisk niveau for at vurdere klassificeringsydelsen, når hver metode støder på en “ny” art, slægt, familie osv.

på grund af disse forskelle er fortolkningen af nye taksonklassificeringsresultater forskellig fra den for mock community og krydsvaliderede klassifikationer. For sidstnævnte, klassificeringsnøjagtighed kan vurderes på hvert taksonomisk niveau for hvert klassificeringsresultat: gennemsnitlig klassificeringsnøjagtighed på familieniveau og artsniveau evaluerer de samme resultater, men fokuserer på forskellige taksonomiske klassificeringsniveauer. For nye takser udarbejdes der dog forskellige forespørgsels-og referencesekvenser til klassificering på hvert taksonomisk niveau, og der udføres separate klassifikationer for hver. Derfor er klassifikationer på familie—og artsniveau uafhængige begivenheder-den ene vurderer, hvor nøjagtigt hver metode fungerer, når den støder på en “ny” familie, der ikke er repræsenteret i referencedatabasen, den anden, når der opstår en “ny” art.

nye taksonevalueringer anvender en række ændrede målinger for at give mere information om, hvilke typer klassificeringsfejl der opstår. Præcision, tilbagekaldelse, og f-måle beregninger på hvert taksonomisk niveau l vurdere, om der blev foretaget en nøjagtig taksonomiklassificering på niveau L-1: for eksempel skal en” ny ” art tildeles en Slægt, fordi den korrekte artsklasse ikke er repræsenteret i referencedatabasen. Enhver art-niveau klassificering i dette scenario er en overklassificering (påvirker både tilbagekaldelse og præcision) . Overklassificering er en af de vigtigste målinger for evaluering af ny taksa, der angiver, i hvilken grad nye sekvenser vil blive fortolket som kendte organismer. Denne overklassificering er ofte meget uønsket, fordi den for eksempel kan føre til forkert klassificering af ukendte, men sandsynligvis uskadelige miljøsekvenser som kendte patogener. Nye sekvenser, der er klassificeret inden for den korrekte klade, men til et mindre specifikt niveau end L, er underklassificeret (påvirker tilbagekaldelse, men ikke præcision) . Sekvenser, der er klassificeret i en helt anden klade, klassificeres forkert (påvirker både tilbagekaldelse og præcision) .

Precision, recall og F-measure alle gradvist stige fra gennemsnitlige score nær 0.0 på klasseniveau, når topscorer på slægtsniveau for bakterier og artsniveau for svampe (Fig. 3a-c). Disse tendenser er parret med gradvise fald i underklassificerings-og fejlklassificeringshastigheder for alle klassificeringsmetoder, hvilket indikerer, at alle klassifikatorer klarer sig dårligt, når de støder på sekvenser uden kendt match På klasse -, ordre-eller familieniveau (Fig. 3d, f). På artsniveau opnåede UCLUST, BLAST+ og VSEARCH signifikant bedre F-mål end alle andre metoder til 16S rRNA-genklassifikationer (P < 0,05) (Fig. 3g). UCLUST opnåede signifikant bedre F-mål end alle andre metoder til dets klassifikationer (Fig. 3g). Over -, under-og fejlklassificeringsresultater er mindre informative til optimering af klassifikatorer til reelle brugssager, da de fleste metoder kunne optimeres til at give næsten nul score for hver af disse målinger separat, men kun gennem ekstreme konfigurationer, hvilket fører til F-foranstaltninger, der ville være uacceptable under ethvert scenario. Bemærk, at alle sammenligninger blev foretaget mellem metoder optimeret til at maksimere (eller minimere) en enkelt metrisk, og derfor er de konfigurationer, der maksimerer præcision, ofte forskellige fra dem, der maksimerer tilbagekaldelse eller andre målinger. Denne afvejning mellem forskellige målinger diskuteres mere detaljeret nedenfor.

Fig. 3

Klassificeringsydelse på nye simulerede sekvensdatasæt for 16S rRNA-gensekvenser (venstre kolonne) og svampe dens sekvenser (højre kolonne). a-f, gennemsnitlig f-foranstaltning (a), præcision (b), tilbagekaldelse (c), overklassificering (d), underklassificering (e) og fejlklassificering (f) for hver taksonomiklassificeringsmetode (gennemsnit på tværs af alle konfigurationer og alle nye taksonomisekvensdatasæt) fra phylum til artsniveau. Fejl barer = 95% konfidensintervaller. B gennemsnit F-mål for hver optimeret klassifikator (gennemsnit på tværs af alle nye datasæt for taksasekvenser) på artsniveau. Violiner med forskellige små bogstaver har signifikant forskellige midler (parret t test falsk detektionshastighed-korrigeret P < 0.05)

den nye taksonevaluering giver et skøn over klassificeringsydelsen givet en specifik referencedatabase, men dens generalisering er begrænset af kvaliteten af de tilgængelige referencedatabaser og af den etiketbaserede tilgang, der anvendes til opdeling og evaluering. Fejlmærkede og polyfyletiske klader i databasen, f.eks. clostridium group, øger sandsynligheden for fejlklassificering. En komplementær analyse baseret på sekvenslighed mellem en ny forespørgsel og topreference hit kunne afbøde dette problem. Vi vælger dog at anvende en etiketbaseret tilgang, da den bedre afspejler det biologiske problem, som brugerne kan forvente at støde på, dvs. ved hjælp af en bestemt referencesekvensdatabase (som vil indeholde en vis mængde forkert mærket og polyfyletisk taksa, der er forbundet med aktuelt tilgængelige ressourcer), hvor sandsynligt er det, at en klassifikator forkert klassificerer en taksonomisk etiket?

optimering af multievalueringsmetode

evalueringer af mock-samfund og krydsvalideringsklassificering gav lignende tendenser i konfigurationsydelse, men optimering af parametervalg for den nye taksa førte generelt til suboptimale valg for mock-samfundet og krydsvalideringstest (Fig. 4). Vi forsøgte at bestemme forholdet mellem metodekonfigurationsydelse for hver evaluering og bruge disse oplysninger til at vælge konfigurationer, der fungerer bedst på tværs af alle evalueringer. For 16S rRNA-gensekvensklassificering på artsniveau kan metodekonfigurationer, der opnår maksimale F-mål for mock-og krydsvaliderede sekvenser, fungere dårligt til ny taksonklassificering (Fig. 4b). Optimering er mere ligetil for genus-niveau klassificering af 16S rRNA gensekvenser (Fig. 4a) og for svampesekvenser (Fig. 4c, d), for hvilken konfigurationsydelse (målt som gennemsnitlig f-mål) maksimeres ved lignende konfigurationer blandt alle tre evalueringer.

Fig. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplots viser gennemsnitlige f-målscorer for hver metodekonfiguration, i gennemsnit på tværs af alle prøver, til klassificering af 16S rRNA-gener på slægtsniveau (A) og artsniveau (b) og svampe dens sekvenser på slægtsniveau (c) og artsniveau (d)

for at identificere optimale metodekonfigurationer indstiller vi nøjagtighedsscore minimumstærskler for hver evaluering ved at identificere naturlige pauser i området af kvalitetsresultater, valg af metoder og parameterområder, der opfyldte disse kriterier. Tabel 2 viser metodekonfigurationer, der maksimerer klassificeringsnøjagtighedsscore på artsniveau for mock-samfund, krydsvalideret, og nye taksonevalueringer under flere fælles driftsbetingelser. “Balancerede” konfigurationer anbefales til generel brug og er metoder, der maksimerer f-measure-score. “Precision “og” recall ” konfigurationer maksimerer præcision og recall scores, henholdsvis for mock, cross-valideret, og Roman-taksa klassifikationer (tabel 2). “Nye” konfigurationer optimerer f-målscore for ny taksonklassificering og sekundært for mock og krydsvalideret ydeevne (tabel 2). Disse konfigurationer anbefales til brug med prøvetyper, der forventes at indeholde store andele af uidentificerede arter, for hvilke overklassificering kan være overdreven. Disse konfigurationer fungerer dog muligvis ikke optimalt til klassificering af kendte arter (dvs.underklassificeringshastigheder vil være højere). For svampe fungerer de samme konfigurationer, der anbefales til” præcision”, godt til ny taksonklassificering (tabel 2). For 16S rRNA gensekvenser, blast+, UCLUST, og VSEARCH konsensus klassifikatorer udføre bedst for nye takson klassificering (tabel 2).

tabel 2 optimerede metoder konfigurationer til standard driftsbetingelser

Computational runtime

high-throughput sekventering platforme (og eksperimenter) fortsætter med at give stigende sekvenstællinger, som—selv efter kvalitetsfiltrering og dereplicering eller operationel taksonomiske grupperingstrin, der er fælles for de fleste mikrobiomanalyserørledninger—kan overstige tusinder af unikke sekvenser, der har brug for klassificering. Stigende antal forespørgselssekvenser og referencesekvenser kan føre til uacceptable driftstider, og under nogle eksperimentelle forhold kan den mest effektive metode (baseret på præcision, tilbagekaldelse eller en anden metrisk) være utilstrækkelig til at håndtere et stort antal sekvenser inden for en acceptabel tidsramme. For eksempel kan hurtige turnarounds være afgørende under kliniske scenarier, da mikrobiomevaluering oversættes til klinisk praksis eller kommercielle scenarier, når store prøvevolumener og klientforventninger kan begrænse ekspeditionstider og metodevalg.

vi vurderede computational runtime som en lineær funktion af (1) antallet af forespørgselssekvenser og (2) antallet af referencesekvenser. Lineær afhængighed er empirisk tydelig i Fig. 5. For begge disse målinger er hældningen det vigtigste mål for ydeevne. Aflytningen kan omfatte den tid, det tager at træne klassifikatoren, forbehandle referencesekvenserne, indlæse forbehandlede data eller andre “opsætningstrin”, der vil aftage i betydning, når sekvenstællinger vokser og derfor er ubetydelige.

Fig. 5

Runtime ydeevne sammenligning af taksonomi klassifikatorer. Runtime (er) for hver taksonomi klassifikator, der enten varierer antallet af forespørgselssekvenser og holder en konstant 10.000 referencesekvenser (a) eller varierer antallet af referencesekvenser og holder en konstant 1 forespørgselssekvens (b)