optimera taxonomisk klassificering av markör-genamplikonsekvenser med QIIME 2: s Q2-funktionsklassificeringsplugin
vi använde skattekredit för att optimera och jämföra flera markör-gensekvensbeskrivningar taxonomiklassificerare. Vi utvärderade två vanliga klassificerare som är inslagna i QIIME 1 (RDP Classifier (version 2.2) , legacy BLAST (version 2.2.22) ), två QIIME 1 alignment-based consensus taxonomy classifiers (standard uclust-klassificerare tillgänglig i QIIME 1 (baserat på version 1.2.22 q) och SortMeRNA (version 2.0 29/11/2014)), två alignment-based consensus taxonomy classifiers som nyligen släpptes i q2-feature-classifier (baserat på BLAST+ (version 2.6.0) och VSEARCH (version 2.0.3)) och en ny multinomial naiv Bayes maskininlärning klassificerare i Q2-FUNKTIONSKLASSIFICERARE (se avsnittet ”metoder” för information om Q2-funktionsklassificeringsmetoder och KÄLLKODSTILLGÄNGLIGHET). Vi utförde parametersvep för att bestämma optimala parameterkonfigurationer för varje metod.
Mock community utvärderingar
vi först benchmarked klassificerare prestanda på mock samhällen, som är artificiellt konstruerade blandningar av mikrobiella celler eller DNA kombineras vid kända förhållanden . Vi utnyttjade 15 bakteriella 16S rRNA gen mock samhällen och 4 svamp intern transkriberad spacer (ITS) mock samhällen (Tabell 1) kommer från mockrobiota , ett offentligt arkiv för mock community data. Mock samhällen är användbara för metod benchmarking eftersom (1) till skillnad från för simulerade samhällen, de tillåter kvantitativa bedömningar av metod prestanda under faktiska driftsförhållanden, dvs, införliva verkliga sekvenseringsfel som kan vara svårt att modellera korrekt; och (2) till skillnad från för naturliga samhällsprover, den faktiska sammansättningen av en mock gemenskap är känd i förväg, vilket möjliggör kvantitativa bedömningar av gemenskap profilering noggrannhet.
en ytterligare prioritet var att testa effekten av att ställa in klassvikter på klassificeringsnoggrannhet för den naiva Bayes-klassificeraren implementerad i q2-feature-classifier. I maskininlärning är klassvikter eller tidigare sannolikheter vektorer av vikter som anger frekvensen vid vilken varje klass förväntas observeras (och bör särskiljas från användningen av denna term under Bayesian inferens som en sannolikhetsfördelning av viktvektorer). Ett alternativ till att ställa in klassvikter är att anta att varje frågesekvens är lika sannolikt att tillhöra någon av de taxa som finns i referenssekvensdatabasen. Detta antagande, känt som enhetliga klasspriorer i samband med en naiv Bayes-klassificerare, görs av RDP-klassificeraren , och dess inverkan på markörgenklassificeringsnoggrannheten har ännu inte validerats. Att antingen anta att klassvikterna är enhetliga eller kända i viss utsträckning kommer att påverka resultaten och kan inte undvikas. Mock-samhällena har taxonomiska överflöd som är långt ifrån enhetliga över uppsättningen referenstaxonomier, som alla verkliga datamängder måste. Vi kan därför använda dem för att bedöma effekten av att göra antaganden om klassvikter. Där vi har satt klassvikterna till den kända taxonomiska sammansättningen av ett prov, har vi märkt resultaten ”skräddarsydda”.
vi utvärderade klassificeringsprestationsnoggrannhet på mock community-sekvenser klassificerade på taxonomiska nivåer från klass till Art. Mock community-sekvenser klassificerades med hjälp av Greengenes 99% Otus 16S rRNA-gen eller förena 99% Otus dess referenssekvenser för bakterie-och svampmocksamhällenrespektive. Som förväntat minskade klassificeringsnoggrannheten när klassificeringsdjupet ökade, och alla metoder kunde förutsäga den taxonomiska anslutningen av mock community-sekvenser ner till genusnivå med median f-åtgärder som överstiger 0,8 över alla parameteruppsättningar (minimum: UCLUST F = 0,81, maximum: naive Bayes skräddarsydda F = 1,00) (Fig. 1a). Arttillhörighet förutspåddes dock med mycket lägre och mer variabel noggrannhet bland metodkonfigurationer (median f-mått minimum: UCLUST F = 0.42, maximalt: naive Bayes skräddarsydda F = 0.95), belyser vikten av parameteroptimering (diskuteras mer detaljerat nedan). Figur 1A illustrerar linjediagram med medelvärde f-mått på varje taxonomisk nivå, i genomsnitt över alla klassificeringskonfigurationer; därför underskattas klassificeringsprestanda för vissa klassificerare som påverkas starkt av parameterkonfigurationer eller för vilka ett bredare spektrum av parametrar testades (t.ex. naiva Bayes). Jämför endast optimerade metoder (dvs. för varje metod) uppnådde naive Bayes skräddarsydda signifikant högre f-mått (parat t-test P < 0.05) (Fig. 1B), återkallande, taxon detekteringshastighet, taxon noggrannhet hastighet (Fig. 1c), och lägre Bray-Curtis olikhet än alla andra metoder (Fig. 1d).
Mock-samhällen är nödvändigtvis förenklade och kan inte bedöma metodprestanda över ett brett spektrum av taxa. Även om raw-sekvenser kan innehålla PCR-och sekvenseringsfel (tillåter oss att bedöma metodprestanda under biologiska förhållanden), sekvenser som matchar de förväntade mock community-sekvenserna tas inte bort från referensdatabasen före klassificering. Detta tillvägagångssätt replikerar normala driftsförhållanden och bedömer återhämtning av förväntade sekvenser, men kan implicit bias mot metoder som hittar en exakt matchning till frågesekvenserna och approximerar inte några naturliga mikrobiella samhällen där få eller inga detekterade sekvenser exakt matchar referenssekvenserna. Därför utförde vi simulerade sekvensläsningsklassificeringar (beskrivs nedan) för att ytterligare testa klassificeringsprestanda.
Korsvaliderad taxonomiklassificering
simulerad sekvensläsning, härledd från referensdatabaser, tillåter oss att bedöma metodprestanda över en större mångfald av sekvenser än en enda mock-gemenskap omfattar i allmänhet. Vi utvärderade först klassificeringsprestanda med stratifierad k-faldig korsvalidering av taxonomiklassificering för simulerade läsningar. K-faldig korsvalideringsstrategi modifieras något för att ta hänsyn till den hierarkiska karaktären hos taxonomiska klassificeringar, som alla klassificerare i denna studie (med undantag för legacy BLAST) hanterar genom att tilldela den lägsta (dvs. mest specifika) taxonomiska nivån där klassificeringen överträffar vissa användardefinierade ”förtroende” eller ”konsensus” tröskel (se material och metoder). Ändringen är att trunkera varje förväntad taxonomi i varje testuppsättning till den maximala nivå vid vilken en instans av den taxonomin finns i träningsuppsättningen.
simulerade läsningar genererades från Greengenes 99% Otus 16S rRNA-gen eller förenar 99% Otus dess referenssekvenser. Greengenes 16S rRNA-gen simulerade läsningar genererades från fullängds 16S rRNA-gener (primers 27f/1492r) och V4 (primers 515F/806r) och V1–3-underdomäner (primers 27f/534R). De simulerade läsningar som för närvarande finns tillgängliga i skattekredit innehåller inte konstgjorda fel från PCR eller sekvensering av flera skäl. Eftersom våra mock communities-analyser redan bedömer klassificeringsprestanda under verkliga bullriga experimentella förhållanden är målet med analyserna av simulerade sekvenser att bedöma teoretisk klassificeringsprestanda (när exakta sekvensmatchningar inte finns i referensdatabasen). Dessutom använder rörledningar för markörgenamplikon-sekvensanalys vanligtvis denoiserande metoder för att modellera felprofiler per körning, filtrera bullriga sekvenser och lösa faktiska sekvensvarianter. Därför simulerar vi i våra utvärderingar ett idealiserat (om osannolikt) teoretiskt scenario där alla sekvenseringsfel har denoiserats för att separera klassificeringsprestanda från denoiserprestanda. I denna uppsättning tester och nedan för nya taxa hade den ”skräddarsydda” klassificeraren tidigare sannolikheter som härleddes från träningsuppsättningen varje gång den tränades.
klassificering av korsvaliderade avläsningar utförs bättre vid grövre klassificeringsnivåer (Fig. 2a), liknande den trend som observerats i mock community-resultat. För bakteriesekvenser minskade den genomsnittliga klassificeringsnoggrannheten för alla metoder från nästan perfekta poäng på familjenivå (v4-domänmedian f-måttminimum: BLAST + f = 0.92, maximum: legacy BLAST F = 0.99), men behöll fortfarande exakta poäng på artnivå (medianminimum: BLAST+ F = 0.76, maximum: SortMeRNA F = 0.84), i förhållande till vissa mock community-dataset (Fig. 2a). Svampsekvenser uppvisade liknande prestanda, med undantag för att Genomsnittlig BLAST + – och VSEARCH-prestanda var markant lägre på alla taxonomiska nivåer, vilket indikerar hög känslighet för parameterkonfigurationer, och artnivå F-åtgärder var i allmänhet mycket lägre (medianminimum: BLAST+ F = 0,17, maximalt: UCLUST F = 0,45) än de för bakteriella sekvensklassificeringar (Fig. 2a).
Artnivåklassificeringar av 16S rRNA-gen simulerade sekvenser var bäst med optimerade uclust–och SortMeRNA-konfigurationer för v4-domän och naiva Bayes och RDP för v1-3-domän och fullängds 16S rRNA-gensekvenser (Fig. 2b). UCLUST uppnådde det högsta f-måttet för sin klassificering (F = 0,51). Alla optimerade klassificerare uppnådde emellertid liknande f-mätområden, med undantag för legacy BLAST för dess sekvenser (Fig. 2b).
Artnivåklassificeringsprestanda för 16s rRNA-gen simulerade läsningar korrelerades signifikant mellan varje subdomän och gensekvenserna i full längd (Fig. 2c). I våra tester uppvisade sekvenser i full längd något lägre noggrannhet än V1–3 och V4-underdomäner. Den relativa prestandan hos 16S rRNA-gener i full längd kontra hypervariabel underdomän läser är variabel i litteraturen , och våra resultat lägger till en annan datapunkt till den pågående diskussionen om detta ämne. Ändå gav artnivåklassificeringar stark korrelation mellan metodkonfigurationer (Fig. 2c) och optimerad metod prestanda (Fig. 2b), vilket tyder på att primerval påverkar klassificeringsnoggrannheten enhetligt över alla metoder. Därför fokuserade vi på V4-underdomänläsningar för nedströmsanalyser.
Novel taxon classification evaluation
Novel taxon classification erbjuder ett unikt perspektiv på klassificeringsbeteende och bedömer hur klassificerare presterar när de utmanas med en” roman ” – klad som inte är representerad i referensdatabasen . En idealisk klassificerare bör identifiera närmaste taxonomiska härstamning som denna taxon tillhör, men inte längre. I denna utvärdering subsamplas en referensdatabas k gånger för att generera fråga och referenssekvensuppsättningar, som för korsvaliderad klassificering, men två viktiga skillnader finns: (1) referensdatabasen som används för klassificering utesluter alla sekvenser som matchar den taxonomiska anslutningen av frågesekvenserna på taxonomisk nivå L, den taxonomiska rang vid vilken klassificering försöks; och (2) detta utförs på varje taxonomisk nivå för att bedöma klassificeringsprestanda när varje metod möter en ”ny” art, släkt, familj etc.
på grund av dessa skillnader skiljer sig tolkningen av nya taxonklassificeringsresultat från mock community och cross-validerade klassificeringar. För det senare kan klassificeringsnoggrannheten bedömas på varje taxonomisk nivå för varje klassificeringsresultat: Genomsnittlig klassificeringsnoggrannhet på familjenivå och artnivå utvärderar samma resultat men fokuserar på olika taxonomiska klassificeringsnivåer. För nya taxa sammanställs dock olika fråga-och referenssekvenser för klassificering på varje taxonomisk nivå och separata klassificeringar utförs för var och en. Därför är klassificeringar på familje—och artnivå oberoende händelser-man bedömer hur exakt varje metod utför när den möter en ”roman” – familj som inte representeras i referensdatabasen, den andra när en ”Roman” – Art påträffas.
nya taxonutvärderingar använder en uppsättning modifierade mätvärden för att ge mer information om vilka typer av klassificeringsfel som uppstår. Precisions -, återkallnings-och f-mätberäkningar på varje taxonomisk nivå l bedömer om en exakt taxonomiklassificering gjordes på nivå L-1: till exempel bör en” ny ” art tilldelas ett släkt, eftersom rätt artklass inte är representerad i referensdatabasen. Varje artnivåklassificering i detta scenario är en överklockning (påverkar både återkallelse och precision) . Överklockning är en av de viktigaste mätvärdena för ny taxa-utvärdering, vilket indikerar i vilken grad nya sekvenser kommer att tolkas felaktigt som kända organismer. Denna överklockning är ofta mycket oönskad eftersom den till exempel kan leda till felaktig klassificering av okända men troligen oskyldiga miljösekvenser som kända patogener. Nya sekvenser som klassificeras inom rätt klad, men till en mindre specifik nivå än L, är underklassificerade (påverkar återkallande men inte precision) . Sekvenser som klassificeras i en helt annan klad är felklassificerade (påverkar både återkallande och precision) .
Precision, recall och f-measure ökar alla gradvis från genomsnittliga poäng nära 0.0 på klassnivå, når toppresultat på genusnivå för bakterier och artnivå för svampar (Fig. 3a-c). Dessa trender paras ihop med gradvisa minskningar av underklassificerings-och felklassificeringshastigheter för alla klassificeringsmetoder, vilket indikerar att alla klassificerare fungerar dåligt när de stöter på sekvenser utan känd matchning på klass -, ordnings-eller familjenivåer (Fig. 3d, f). På artnivå uppnådde UCLUST, BLAST+ och VSEARCH signifikant bättre f-åtgärder än alla andra metoder för 16s rRNA-genklassificeringar (P < 0.05) (Fig. 3g). UCLUST uppnådde betydligt bättre f-åtgärder än alla andra metoder för dess klassificeringar (Fig. 3g). Över -, under-och felklassificeringsresultat är mindre informativa för att optimera klassificerare för verkliga användningsfall, eftersom de flesta metoder kan optimeras för att ge nästan nollpoäng för var och en av dessa mätvärden separat, men endast genom extrema konfigurationer, vilket leder till F-åtgärder som skulle vara oacceptabla under alla scenarier. Observera att alla jämförelser gjordes mellan metoder optimerade för att maximera (eller minimera) en enda metrisk, och därmed skiljer sig konfigurationerna som maximerar precisionen ofta från de som maximerar återkallande eller andra mätvärden. Denna avvägning mellan olika mätvärden diskuteras mer detaljerat nedan.
den nya taxonutvärderingen ger en uppskattning av klassificeringsprestanda givet en specifik referensdatabas, men dess generalisering begränsas av kvaliteten på de tillgängliga referensdatabaserna och av den etikettbaserade metoden som används för partitionering och utvärdering. Felmärkta och polyfyletiska klader i databasen, t.ex. clostridium group, ökar sannolikheten för felklassificering. En kompletterande analys baserad på sekvenslikhet mellan en ny fråga och toppreferenshit kan mildra problemet. Vi väljer emellertid att tillämpa ett etikettbaserat tillvägagångssätt, eftersom det bättre återspeglar det biologiska problemet som användarna kan förvänta sig att stöta på, Dvs med hjälp av en viss referenssekvensdatabas (som kommer att innehålla en viss mängd mislabeled och polyphyletic taxa som är inneboende för nuvarande tillgängliga resurser), hur sannolikt är en klassificerare att felklassificera en taxonomisk etikett?
Multi-evaluation method optimization
mock community och cross-validation classification utvärderingar gav liknande trender i konfigurationsprestanda, men optimering av parameterval för den nya taxa ledde i allmänhet till suboptimala val för mock community och cross-validation test (Fig. 4). Vi försökte bestämma förhållandet mellan metodkonfigurationsprestanda för varje utvärdering och använda denna information för att välja konfigurationer som fungerar bäst i alla utvärderingar. För 16s rRNA-gensekvens Art-nivå klassificering, metodkonfigurationer som uppnår maximala F-åtgärder för mock och cross-validerade sekvenser kan fungera dåligt för ny taxonklassificering (Fig. 4b). Optimering är enklare för klassificering på gennivå av 16S rRNA – gensekvenser (Fig. 4a) och för svampsekvenser (Fig. 4c, d), för vilken konfigurationsprestanda (mätt som medelvärde f-mått) maximeras av liknande konfigurationer bland alla tre utvärderingarna.
för att identifiera optimala metodkonfigurationer ställer vi in noggrannhetspoäng minimitrösklar för varje utvärdering genom att identifiera naturliga raster i intervallet av kvalitetsresultat, välja metoder och parameterområden som uppfyllde dessa kriterier. Tabell 2 listar metodkonfigurationer som maximerar klassificeringsnoggrannhetspoäng på artnivå för mock community, cross-validerade och nya taxonutvärderingar under flera vanliga driftsförhållanden. ”Balanserade” konfigurationer rekommenderas för allmänt bruk och är metoder som maximerar f-measure-poäng. ”Precision ”och” recall ” konfigurationer maximerar precision och recall poäng, respektive, för mock, cross-validerade, och Roman-taxa klassificeringar (Tabell 2). ”Nya” konfigurationer optimerar F-mätresultat för ny taxonklassificering och sekundärt för mock och korsvaliderad prestanda (Tabell 2). Dessa konfigurationer rekommenderas för användning med Provtyper som förväntas innehålla stora proportioner oidentifierade arter, för vilka överklockning kan vara överdriven. Dessa konfigurationer kan dock inte fungera optimalt för klassificering av kända arter (dvs. underklassificeringsgraden kommer att vara högre). För svampar fungerar samma konfigurationer som rekommenderas för ”precision” bra för ny taxonklassificering (Tabell 2). För 16s rRNA-gensekvenser, BLAST+, UCLUST och VSEARCH konsensusklassificerare fungerar bäst för ny taxonklassificering (Tabell 2).
Computational runtime
hög genomströmning sekvensering plattformar (och experiment) fortsätter att ge ökande sekvensantal, som-även efter kvalitet filtrering och dereplication eller operativa taxonomiska enhetsklusteringssteg som är gemensamma för de flesta mikrobiomanalysledningar—kan överstiga tusentals unika sekvenser som behöver klassificering. Ökande antal frågesekvenser och referenssekvenser kan leda till oacceptabla körtider, och under vissa experimentella förhållanden kan den bästa metoden (baserad på precision, återkallelse eller någon annan metrisk) vara otillräcklig för att hantera ett stort antal sekvenser inom en acceptabel tidsram. Till exempel kan snabba vändningar vara avgörande under kliniska scenarier som mikrobiom utvärdering blir översatt till klinisk praxis, eller kommersiella scenarier, när stora provvolymer och kundförväntningar kan begränsa vändningstider och metodval.
vi bedömde beräkningstid som en linjär funktion av (1) antalet frågesekvenser och (2) antalet referenssekvenser. Linjärt beroende är empiriskt tydligt i Fig. 5. För båda dessa mätvärden är lutningen det viktigaste måttet på prestanda. Avlyssningen kan innefatta den tid det tar att träna klassificeraren, förbehandla referenssekvenserna, ladda förbehandlade data eller andra ”setup” – steg som kommer att minska i betydelse när sekvensantalet växer och är därför försumbar.