Articles

Optimalisering av taksonomisk klassifisering av markør-gene amplicon sekvenser med QIIME 2s q2-feature-classifier plugin

vi brukte skattekreditt for å optimalisere Og sammenligne flere markør-gensekvens taksonomi klassifiseringer. Vi evaluerte to brukte klassifikatorer som er pakket INN I QIIME 1 (RDP Classifier (versjon 2.2), legacy BLAST (versjon 2.2.22) ), to qiime 1 alignment-based consensus taxonomy classifiers (standard uclust classifier tilgjengelig I QIIME 1 (basert på versjon 1.2.22 q) , Og SortMeRNA (versjon 2.0 29/11/2014) ), to alignment-based consensus taxonomy classifiers nylig utgitt i q2-feature-classifier (basert PÅ BLAST+ (versjon 2.6.0) OG VSEARCH (versjon 2.0.3) ), og en ny multinomial naive Bayes machine-learning classifier i q2-FEATURE-CLASSIFIER (se «metoder» for informasjon om q2-FEATURE-classifier metoder og KILDEKODE tilgjengelighet). Vi utførte parameter feier for å bestemme optimale parameter konfigurasjoner for hver metode.

Mock community evaluations

Vi først benchmarked klassifiserings ytelse på mock samfunn, som er kunstig konstruert blandinger av mikrobielle celler eller DNA kombinert med kjente forhold . Vi benyttet 15 bakterielle 16s rrna gene mock communities og 4 fungal intern transcribed spacer (ITS) mock communities (Tabell 1) hentet fra mockrobiota , et offentlig lager for mock community data. Mock samfunn er nyttige for metoden benchmarking fordi (1) i motsetning til for simulerte samfunn, de tillater kvantitative vurderinger av metoden ytelse under faktiske driftsforhold, dvs.innlemme reelle sekvenseringsfeil som kan være vanskelig å modellere nøyaktig; og (2) i motsetning til for naturlige samfunnet prøver, den faktiske sammensetningen av en mock samfunnet er kjent på forhånd, slik at kvantitative vurderinger av samfunnet profilering nøyaktighet.

Tabell 1 Mock samfunn som for tiden er integrert i tax-credit

en ekstra prioritet var å teste effekten av å sette klassevekter på klassifiseringsnøyaktighet for naive Bayes-klassifikatoren implementert i q2-feature-klassifikatoren. I maskinlæring er klassevekter eller tidligere sannsynligheter vektorer av vekter som angir frekvensen der hver klasse forventes å bli observert (og skal skilles fra bruken av Denne termen under Bayesiansk inferens som en sannsynlighetsfordeling av vektvektorer). Et alternativ til å sette klassevekter er å anta at hver spørringssekvens er like sannsynlig å tilhøre noen av taxa som finnes i referansesekvensdatabasen. Denne antagelsen, kjent som uniform class priors i sammenheng med en naiv Bayes klassifikator, er laget AV RDP klassifikatoren, og dens innvirkning på markør-gen klassifisering nøyaktighet har ennå ikke validert. Å gjøre enten antagelse om at klassevektene er ensartede eller kjent i noen grad, vil påvirke resultatene og kan ikke unngås. Mock-samfunnene har taksonomiske overflod som er langt fra ensartet over settet av referansetaksonomier, som et reelt datasett må. Vi kan derfor bruke dem til å vurdere virkningen av å gjøre antagelser om klassevekter. Der vi har satt klassevektene til den kjente taksonomiske sammensetningen av en prøve, har vi merket resultatene «skreddersydd».

vi evaluerte klassifiserings ytelse nøyaktighet på mock samfunnet sekvenser klassifisert på taksonomiske nivåer fra klasse gjennom arter. Mock samfunnet sekvenser ble klassifisert Ved Hjelp Av Greengenes 99% OTUs 16s rRNA genet ELLER FORENE 99% OTUs sin referanse sekvenser for bakterier og sopp mock samfunn, henholdsvis. Som forventet ble klassifiseringsnøyaktigheten redusert etter hvert som klassifiseringsdybden økte, og alle metoder kunne forutsi den taksonomiske tilknytningen av mock community-sekvenser ned til slektsnivå med median F-tiltak som overstiger 0,8 på tvers av alle parametersett (minimum: UCLUST F = 0,81, maksimum: naive Bayes skreddersydd F = 1,00) (Fig. 1a). Imidlertid ble arter tilknytning spådd med mye lavere og mer variabel nøyaktighet blant metodekonfigurasjoner (median f-mål minimum: UCLUST F = 0.42, maksimum: naive Bayes skreddersydd F = 0.95), fremhever betydningen av parameteroptimalisering (diskutert mer detaljert nedenfor). Figur 1a illustrerer linjeplott av gjennomsnittlig F-mål på hvert taksonomisk nivå, gjennomsnittlig over alle klassifikatorkonfigurasjoner; derfor er klassifikatorytelsen undervurdert for noen klassifikatorer som er sterkt påvirket av parameterkonfigurasjoner eller som et bredere spekter av parametere ble testet for (f.eks. naive Bayes). Sammenligning av bare optimaliserte metoder (dvs., oppnådde naive Bayes bespoke betydelig høyere f-mål (parret t-test P < 0,05) (Fig. 1b), tilbakekalling, taxon deteksjonsrate, taxon nøyaktighet rate (Fig. 1c), og lavere bray-Curtis ulikhet enn alle andre metoder (Fig. 1d).

Fig. 1

Klassifiserings ytelse på mock samfunnet datasett FOR 16s rRNA gensekvenser (venstre kolonne) og sopp dens sekvenser (høyre kolonne). Et Gjennomsnittlig F-mål for hver taksonomisk klassifiseringsmetode (gjennomsnittlig på tvers av alle konfigurasjoner og alle mock community datasett) fra klasse til artsnivå. Feilfelt = 95% konfidensintervall. B Gjennomsnittlig F-mål for hver optimalisert klassifikator (gjennomsnitt over alle mock samfunn) på artsnivå. c Gjennomsnittlig takson nøyaktighet rate for hver optimalisert klassifikator (gjennomsnitt over alle mock samfunn) på artsnivå. d Gjennomsnittlig Bray-Curtis avstand mellom forventet mock samfunnssammensetning og dens sammensetning som spådd av hver optimalisert klassifikator (gjennomsnitt over alle mock samfunn) på artsnivå. Fiolin tomter viser median (hvit punkt), kvartiler (svarte streker), og kernel tetthet estimering (fiolin) for hver score distribusjon. Fioliner med forskjellige små bokstaver har betydelig forskjellige midler (paret t test falsk deteksjon rate-korrigert P < 0.05)

Mock samfunn er nødvendigvis forenklede, og kan ikke vurdere metodens ytelse på tvers av et variert utvalg av taxa. Selv om raw-sekvenser kan inneholde PCR – og sekvenseringsfeil (slik at vi kan vurdere metodens ytelse under biologiske forhold), blir sekvenser som samsvarer med de forventede mock community-sekvensene, ikke fjernet fra referansedatabasen før klassifisering. Denne tilnærmingen replikerer normale driftsforhold og vurderer gjenoppretting av forventede sekvenser, men kan implisitt bias mot metoder som finner et eksakt samsvar med spørringssekvensene, og tilnærmer ikke noen naturlige mikrobielle samfunn der få eller ingen oppdagede sekvenser nøyaktig samsvarer med referansesekvensene. Derfor utførte vi simulerte sekvensleseklassifiseringer (beskrevet nedenfor) for ytterligere å teste klassifikatorytelsen.

Kryssvalidert taksonomi klassifisering

Simulerte sekvenslesninger, avledet fra referansedatabaser, tillater oss å vurdere metodens ytelse på tvers av et større mangfold av sekvenser enn et enkelt mock-fellesskap generelt omfatter. Vi først evaluert klassifikator ytelse ved hjelp stratifisert k-fold kryssvalidering av taksonomi klassifisering for simulert leser. K-fold kryssvalideringsstrategien er modifisert litt for å redegjøre for den hierarkiske naturen til taksonomiske klassifikasjoner, som alle klassifikatorene i denne studien (med unntak av legacy BLAST) håndterer ved å tildele det laveste (dvs.mest spesifikke) taksonomiske nivået der klassifiseringen overgår noen brukerdefinert «tillit» eller «konsensus» terskel (se materialer og metoder). Modifikasjonen er å avkorte enhver forventet taksonomi i hver test satt til det maksimale nivået der en forekomst av den taksonomien finnes i treningssettet.Simulerte leser ble generert Fra Greengenes 99% OTUs 16s rRNA gen eller FORENE 99% OTUs sine referansesekvenser. Greengenes 16s rrna gen simulert leser ble generert fra full lengde 16s rrna gener (primere 27f/1492r) Og V4 (primere 515F / 806R) Og V1–3 underdomener (primere 27F/534R). Den simulerte leser tilgjengelig i tax-credit ikke innlemme kunstige feil FRA PCR eller sekvensering av flere grunner. Da våre mock communities analyser allerede vurderer klassifikatorytelse under ekte støyende eksperimentelle forhold, er målet med analysene av simulerte sekvenser å vurdere teoretisk klassifikatorytelse (når eksakte sekvensmatcher ikke eksisterer i referansedatabasen). I tillegg bruker markør-gen amplicon sekvensanalyse rørledninger ofte denoiseringsmetoder for å modellere feilprofiler per runde, filtrere støyende sekvenser og løse faktiske sekvensvarianter. Derfor simulerer vi i våre evalueringer et idealisert (hvis usannsynlig) teoretisk scenario der alle sekvenseringsfeil har blitt denoisert for å skille klassifiserings ytelse fra denoiser ytelse. I dette settet med tester og under for nye taxa hadde «skreddersydd» klassifikatoren tidligere sannsynligheter som ble utledet fra treningssettet hver gang det ble trent.

Klassifisering av kryssvalidert lesing utført bedre på grovere nivåer av klassifisering (Fig. 2a), ligner trenden observert i mock community resultater. For bakteriesekvenser gikk gjennomsnittlig klassifiseringsnøyaktighet for alle metoder ned fra nesten perfekt score på familienivå (V4-domene Median f-mål minimum: BLAST + f = 0,92, maksimum: legacy BLAST f = 0,99), men beholdt fortsatt nøyaktige score på artsnivå (median minimum: BLAST + f = 0,76, maksimum: SortMeRNA F = 0,84), i forhold til noen mock community datasett (Fig . 2a). Soppsekvenser viste lignende ytelse, med unntak av at gjennomsnittlig BLAST+ og VSEARCH-ytelse var markant lavere på alle taksonomiske nivåer, noe som indikerer høy følsomhet for parameterkonfigurasjoner, og artnivå F-tiltak var generelt mye lavere (median minimum: BLAST + f = 0,17, maksimum: UCLUST F = 0,45) enn de av bakterielle sekvensklassifiseringer (Fig. 2a).

Fig. 2

Klassifikatorytelse på kryssvaliderte sekvensdatasett. Klassifisering nøyaktighet AV 16s rRNA gene V4 underdomene (første rad), V1–3 underdomene (andre rad), full-lengde 16S rRNA genet (tredje slep), og sopp dens sekvenser (fjerde rad). Et Gjennomsnittlig F-mål for hver klassifiseringsmetode for taksonomi (gjennomsnitt på tvers av alle konfigurasjoner og alle kryssvaliderte sekvensdatasett) fra klasse til artsnivå. Feilfelt = 95% konfidensintervall. B Gjennomsnittlig F-mål for hver optimalisert klassifikator (gjennomsnitt over alle kryssvaliderte sekvensdatasett) på artsnivå. Fioliner med forskjellige små bokstaver har betydelig forskjellige midler (paret t-test falsk deteksjon rate-korrigert P < 0,05). c korrelasjon Mellom F-mål ytelse for hver metode / konfigurasjon klassifisering Av v4 underdomene (x-aksen), V1 – 3 underdomene (y-aksen), og full-lengde 16s rRNA gensekvenser (z-aksen). Innfelt Viser Pearson R2-verdien for hver parvis korrelasjon; hver korrelasjon er signifikant (P < 0.001)

Arter-nivå klassifikasjoner AV 16S rRNA genet simulerte sekvenser var best med optimalisert uclust og SortMeRNA konfigurasjoner For V4 domene, og naive Bayes og RDP For V1–3 domene og full-lengde 16S rRNA genet sekvenser (Fig. 2b). UCLUST oppnådde det høyeste f-målet for klassifiseringen (F = 0,51). Imidlertid oppnådde alle optimaliserte klassifikatorer lignende F-målområder, med unntak av legacy BLAST FOR sine sekvenser(Fig. 2b).

Art-nivå klassifisering ytelse AV 16s rRNA gen simulert leser var signifikant korrelert mellom hvert underdomene og full lengde gensekvenser (Fig. 2c). I våre tester viste full lengde sekvenser litt lavere nøyaktighet Enn V1 – 3 og v4 underdomener. Den relative ytelsen til full lengde 16s rrna gener versus hypervariable underdomene leser er variabel i litteraturen, og våre resultater legger til et annet datapunkt til den pågående diskusjonen om dette emnet. Likevel ga klassifikasjonene på artsnivå sterk korrelasjon mellom metodekonfigurasjoner (Fig. 2c) og optimalisert metode ytelse (Fig. 2b), noe som tyder på at primervalg påvirker klassifiseringsnøyaktigheten jevnt på tvers av alle metoder. Derfor fokuserte Vi på V4 underdomene leser for nedstrøms analyser.

Novel taxon classification evaluation

Novel taxon classification gir et unikt perspektiv på klassifikatoradferd, og vurderer hvordan klassifikatorer utfører når de utfordres med en «roman» klade som ikke er representert i referansedatabasen . En ideell klassifikator bør identifisere nærmeste taksonomiske avstamning som dette taksonet tilhører, men ikke lenger. I denne evalueringen, en referansedatabase er subsampled k ganger for å generere spørring og referanse sekvenssett, som for kryss-validert klassifisering, men to viktige forskjeller eksisterer: (1) referansedatabasen brukes for klassifisering utelukker enhver sekvens som samsvarer med taksonomisk tilknytning av spørringen sekvenser på taksonomisk nivå L, taksonomisk rang der klassifisering blir forsøkt; og (2) dette er utført på hvert taksonomisk nivå, for å vurdere klassifisering ytelse når hver metode møter en «ny» art, slekt, familie, etc.

på grunn av disse forskjellene er tolkning av nye taksonklassifiseringsresultater forskjellig fra mock community og cross-validert klassifikasjoner. For sistnevnte kan klassifiseringsnøyaktighet vurderes på hvert taksonomisk nivå for hvert klassifiseringsresultat: gjennomsnittlig klassifiseringsnøyaktighet på familienivå og artsnivå vurderer de samme resultatene, men fokuserer på forskjellige taksonomiske klassifiseringsnivåer. For nye taxa, derimot, ulike spørring og referansesekvenser er kompilert for klassifisering på hvert taksonomisk nivå og separate klassifikasjoner utføres for hver. Derfor er klassifikasjoner på familie – og artsnivå uavhengige hendelser—en vurderer hvor nøyaktig hver metode utfører når den møter en «ny» familie som ikke er representert i referansedatabasen, den andre når en «ny» art oppstår.

Novel taxon evalueringer benytter en pakke med modifiserte beregninger for å gi mer informasjon om hvilke typer klassifiseringsfeil som oppstår. Presisjon, tilbakekalling, Og F-måle beregninger på hvert taksonomisk nivå l vurdere om en nøyaktig taksonomi klassifisering ble gjort På nivå L-1: for eksempel bør en» ny » art tilordnes et slekt, fordi den riktige artsklassen ikke er representert i referansedatabasen. Enhver art-nivå klassifisering i dette scenariet er en overklassifisering (påvirker både tilbakekalling og presisjon) . Overklassifisering er en av de viktigste beregningene for ny taxa-evaluering, noe som indikerer i hvilken grad nye sekvenser vil bli feilfortolket som kjente organismer. Denne overklassifiseringen er ofte svært uønsket fordi den for eksempel kan føre til feil klassifisering av ukjente, men mest sannsynlige uskadelige miljøsekvenser som kjente patogener. Nye sekvenser som er klassifisert innenfor riktig klade, men til et mindre spesifikt nivå Enn L, er underklassifisert (påvirker tilbakekalling, men ikke presisjon) . Sekvenser som er klassifisert i en helt annen klade er feilklassifisert (påvirker både tilbakekalling og presisjon) .

Presisjon, tilbakekalling og F-mål alle gradvis øke fra gjennomsnittlig score nær 0.0 på klassenivå, nå topp score på slekten nivå for bakterier og arter nivå for sopp (Fig. 3a-c). Disse trendene er parret med gradvise reduksjoner i underklassifisering og feilklassifisering for alle klassifiseringsmetoder, noe som indikerer at alle klassifiserere utfører dårlig når de møter sekvenser uten kjent kamp på klasse -, rekkefølge-eller familienivå (Fig. 3d, f). På artsnivå oppnådde UCLUST, BLAST+ og VSEARCH betydelig bedre F-tiltak enn alle andre metoder for 16s rRNA-genklassifiseringer (P < 0,05) (Fig. 3g). UCLUST oppnådde betydelig bedre F-tiltak enn alle andre metoder for klassifikasjonene (Fig. 3g). Over-, under-og feilklassifiseringsresultater er mindre informative for å optimalisere klassifikatorer for reelle brukssaker, da de fleste metoder kan optimaliseres for å gi nær null-score for hver av disse beregningene separat, men bare gjennom ekstreme konfigurasjoner, noe som fører til F-tiltak som ville være uakseptable under ethvert scenario. Merk at alle sammenligninger ble gjort mellom metoder optimalisert for å maksimere (eller minimere) en enkelt beregning, og derfor konfigurasjonene som maksimerer presisjon er ofte forskjellig fra de som maksimerer tilbakekalling eller andre beregninger. Denne avveiningen mellom ulike beregninger diskuteres mer detaljert nedenfor.

Fig. 3

Klassifiseringsytelse på nye taxa simulerte sekvensdatasett FOR 16s rRNA gensekvenser (venstre kolonne) og soppsekvenser (høyre kolonne). a-f, Gjennomsnittlig f-mål (a), presisjon (b), tilbakekalling (c), overklassifisering (d), underklassifisering (e) og feilklassifisering (f) for hver taksonomisk klassifiseringsmetode (gjennomsnitt over alle konfigurasjoner og alle nye taxa-sekvensdatasett) fra rekke til artsnivå. Feilfelt = 95% konfidensintervall. B Gjennomsnittlig F-mål for hver optimalisert klassifikator (gjennomsnitt over alle nye taxa-sekvensdatasett) på artsnivå. Fioliner med forskjellige små bokstaver har betydelig forskjellige midler (paret t test falsk deteksjon rate-korrigert P < 0.05)

den nye taxonevalueringen gir et estimat av klassifiseringsytelse gitt en spesifikk referansedatabase, men generaliseringen er begrenset av kvaliteten på referansedatabasene som er tilgjengelige og av den etikettbaserte tilnærmingen som brukes til partisjonering og evaluering. Feilmerkede og polyfyletiske klader i databasen, f.eks. clostridium-gruppen, øker sannsynligheten for feilklassifisering. En komplementær analyse basert på sekvenslikhet mellom en ny spørring og toppreferanseslag kan redusere dette problemet. Vi velger imidlertid å bruke en etikettbasert tilnærming, da den bedre reflekterer det biologiske problemet som brukerne kan forvente å støte på, dvs. ved hjelp av en bestemt referansesekvensdatabase (som vil inneholde en viss mengde mislabeled og polyphyletic taxa iboende til tilgjengelige ressurser), hvor sannsynlig er en klassifikator å feilklassifisere en taksonomisk etikett?

multi-evaluering metode optimalisering

mock samfunnet og kryss validering klassifisering evalueringer ga lignende trender i konfigurasjon ytelse, men optimalisere parametere valg for romanen taxa generelt førte til suboptimale valg for mock samfunnet og kryss validering tester (Fig . 4). Vi ønsket å fastslå forholdet mellom metodekonfigurasjonsytelsen for hver evaluering og bruke denne informasjonen til å velge konfigurasjoner som fungerer best på tvers av alle evalueringer. FOR 16s rrna gensekvens art-nivå klassifisering, kan metodekonfigurasjoner som oppnår maksimale f-tiltak for mock og kryssvaliderte sekvenser, utføre dårlig for ny taxon klassifisering (Fig. 4b). Optimalisering er enklere for genus – nivå klassifisering AV 16s rRNA gensekvenser (Fig. 4a) og for soppsekvenser (Fig. 4c, d), for hvilken konfigurasjonsytelse (målt som gjennomsnittlig F-mål) maksimeres av lignende konfigurasjoner blant alle tre evalueringene.

Fig. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplots viser gjennomsnittlige f-måleskår for hver metodekonfigurasjon, i gjennomsnitt på tvers av alle prøver, for klassifisering AV 16s rRNA-gener på slektsnivå (a) og artsnivå (b), og soppsekvenser PÅ slektsnivå (c) og artsnivå (d)

for å identifisere optimale metodekonfigurasjoner setter vi nøyaktighetspoeng minimumsterskler for hver evaluering ved å identifisere naturlige brudd i utvalget av kvalitetspoeng, Valg av metoder og parameterområder som oppfylte disse kriteriene. Tabell 2 viser metodekonfigurasjoner som maksimerer klassifiseringsnøyaktighetspoengene på artsnivå for mock community, cross-validert og nye taxonevalueringer under flere vanlige driftsforhold. «Balansert» konfigurasjoner anbefales for generell bruk og er metoder som maksimerer f-measure score. «Precision «og» recall » konfigurasjoner maksimere presisjon og recall score, henholdsvis for mock, cross-validert, og romanen-taxa klassifiseringer (Tabell 2). «Novel» konfigurasjoner optimaliserer f-measure score for roman taxon klassifisering, og sekundært for mock og cross-validert ytelse (Tabell 2). Disse konfigurasjonene anbefales for bruk med prøvetyper som forventes å inneholde store mengder uidentifiserte arter, for hvilke overklassifisering kan være overdreven. Imidlertid kan disse konfigurasjonene ikke fungere optimalt for klassifisering av kjente arter (dvs.underklassifiseringsratene vil være høyere). For sopp, de samme konfigurasjonene som anbefales for «presisjon», fungerer bra for ny taksonklassifisering (Tabell 2). FOR 16s rRNA gensekvenser, BLAST+, UCLUST, OG VSEARCH konsensus klassifiserere utfører best for romanen taxon klassifisering (Tabell 2).

Tabell 2 Optimaliserte metoder konfigurasjoner for standard driftsforhold

Computational runtime

sekvenseringsplattformer med høy gjennomstrømming (Og eksperimenter) fortsetter å gi økende sekvensantall, som-selv etter kvalitetsfiltrering og dereplisering eller operativ taksonomiske enhetsklyngetrinn som er felles for de fleste mikrobiomanalyserørledninger—kan overstige tusenvis av unike sekvenser som trenger klassifisering. Økende antall spørringssekvenser og referansesekvenser kan føre til uakseptable kjøretider, og under noen eksperimentelle forhold kan den topppresterende metoden (basert på presisjon, tilbakekalling eller annen metrisk) være utilstrekkelig til å håndtere et stort antall sekvenser innenfor en akseptabel tidsramme. For eksempel kan raske vendinger være avgjørende under kliniske scenarier da mikrobiomevaluering blir oversatt til klinisk praksis, eller kommersielle scenarier, når store utvalgsvolumer og klientforventninger kan begrense behandlingstid og metodevalg.

vi vurderte beregnings runtime som en lineær funksjon av (1) antall spørringssekvenser og (2) antall referansesekvenser. Lineær avhengighet er empirisk tydelig I Fig. 5. For begge disse beregningene er skråningen det viktigste målet for ytelse. Avskjæringen kan omfatte hvor lang tid det tar å trene klassifikatoren, preprosessere referansesekvensene, laste forhåndsbehandlede data eller andre» oppsett » – trinn som vil redusere i betydning etter hvert som sekvensantallene vokser, og dermed er ubetydelig.

Fig. 5

Runtime ytelse sammenligning av taksonomi klassifikatorer. Runtime (s) for hver taksonomi klassifiserer enten varierende antall spørringssekvenser og holde en konstant 10 000 referansesekvenser (a) eller varierende antall referansesekvenser og holde en konstant 1 spørresekvens (b)