Articles

Marker-geeni amplikonisekvenssien taksonomisen luokittelun optimointi qiime 2: n Q2-feature-classifier plugin

käytimme tax-Creditiä optimoidaksemme ja verrataksemme useita marker-geeni-sekvenssien taksonomialuokittajia. Arvioimme kaksi yleisesti käytettyä luokittelijaa , jotka on kääritty QIIME 1: een (RDP Classifier (versio 2.2), legacy BLAST (versio 2.2.22) ), kaksi qiime 1 alignment-based consensus taxonomy Classifier (oletus UCLUST classifier saatavilla qiime 1 (perustuu versioon 1.2.22 q) , ja SortMeRNA (versio 2.0 29/11/2014) ), kaksi alignation-based consensus taxonomy Classifier äskettäin julkaistu q2-ominaisuus-classifier (perustuu BLAST+ (versio 2.6.0) ja VSEARCH (versio 2.0.3) ), ja uusi monikansallinen naiivi Bayes kone-learning luokittelija kohdassa Q2-OMINAISUUSLUOKITTELIJA (KS.kohdassa ”menetelmät” tietoja Q2-OMINAISUUSLUOKITTELIJAN menetelmistä ja lähdekoodin saatavuudesta). Suoritimme parametrien pyyhkäisyjä määrittääksemme optimaaliset parametrikokoonpanot kullekin menetelmälle.

Mock community evaluations

vertailimme luokittelijan suorituskykyä ensin mock-yhteisöihin, jotka ovat keinotekoisesti rakennettuja mikrobisolujen tai DNA: n seoksia, jotka on yhdistetty tunnetuilla suhdeluvuilla . Käytimme 15 bakteeri 16s rRNA geeni mock yhteisöjä ja 4 sieni sisäinen transkriboitu spacer (Its) mock yhteisöjä (Taulukko 1) peräisin mockrobiotasta , Julkinen varasto mock yhteisön tietoja. Valeyhteisöt ovat hyödyllisiä menetelmän vertailussa, koska (1) toisin kuin simuloiduissa yhteisöissä, ne mahdollistavat menetelmän suorituskyvyn kvantitatiivisen arvioinnin todellisissa käyttöolosuhteissa eli sisältävät todellisia sekvensointivirheitä, joita voi olla vaikea mallintaa tarkasti; ja (2) toisin kuin luonnollisissa yhteisönäytteissä, valeyhteisön todellinen koostumus tiedetään etukäteen, mikä mahdollistaa yhteisön profiloinnin tarkkuuden kvantitatiivisen arvioinnin.

Taulukko 1 verohyvitykseen tällä hetkellä integroituneet Pilkkayhteisöt

lisäprioriteetti oli testata luokituspainojen asettamisen vaikutusta Q2-ominaisuusluokituksessa toteutetun naiivin Bayes-luokittelijan luokitustarkkuuteen. Koneoppimisessa luokkapainot tai aiemmat todennäköisyydet ovat painojen vektoreita, jotka määrittelevät taajuuden, jolla kutakin luokkaa on odotettavissa havaittavan (ja erotettava tämän termin käytöstä Bayesilaisessa päättelyssä painovektorien todennäköisyysjakaumana). Vaihtoehtona luokkapainojen asettamiselle on olettaa, että jokainen kyselysarja kuuluu yhtä todennäköisesti mihin tahansa viitesekvenssitietokannassa esiintyvään taksoniin. Tämä oletus, joka tunnetaan uniform class priors-nimisenä naiivin Bayes-luokittelijan yhteydessä, on RDP-luokittelijan tekemä, ja sen vaikutusta markkeri-geeni-luokittelutarkkuuteen ei ole vielä vahvistettu. Jommankumman olettaminen, että luokkapainot ovat yhdenmukaisia tai jossain määrin tunnettuja, vaikuttaa tuloksiin, eikä sitä voida välttää. Pilkkuyhteisöjen taksonomiset pitoisuudet eivät ole läheskään yhdenmukaisia vertailutaksonomioiden suhteen, kuten minkä tahansa todellisen tietojoukon on oltava. Siksi voimme käyttää niitä arvioidaksemme, miten luokkien painoja koskevien oletusten tekeminen vaikuttaa. Jos olemme asettaneet luokan painot näytteen tunnettuun taksonomiseen koostumukseen, olemme merkinneet tulokset ”mittatilaustyönä”.

arvioimme luokittelijan suoritustarkkuutta malliyhteisösekvensseillä, jotka on luokiteltu taksonomisella tasolla luokista lajeihin. Mock community sekvenssit luokiteltiin käyttäen Greengenes 99% OTUs 16s rRNA geeni tai UNITE 99% OTUs sen viittaus sekvenssejä bakteeri-ja sieni mock yhteisöjä, vastaavasti. Kuten odotettiin, luokittelutarkkuus laski luokituksen syvyyden kasvaessa, ja kaikilla menetelmillä voitiin ennustaa pilkkayhteisösekvenssien taksonominen kuuluminen sukutasolle asti mediaanin F-mittojen ylittäessä 0,8 kaikissa parametrijoukoissa (pienin: uclust F = 0,81, suurin: naiivi Bayes mittatilaustyönä F = 1,00) (Kuva. 1 A). Lajikumppanuutta ennustettiin kuitenkin paljon pienemmällä ja vaihtelevammalla tarkkuudella menetelmäkokonfiguraatioiden välillä (mediaani F-mitta minimi: UCLUST F = 0,42, maksimi: naiivi Bayes mittatilaustyönä F = 0.95), korostaen parametrin optimoinnin merkitystä (käsitellään tarkemmin jäljempänä). Kuviossa 1a esitetään kunkin taksonomisen tason F-keskiarvon käyrät, jotka on laskettu kaikkien luokittelijakonfiguraatioiden keskiarvoiksi; näin ollen luokittajan suorituskyky on aliarvioitu joidenkin sellaisten luokittajien osalta, joihin parametrikonfiguraatiot vaikuttavat voimakkaasti tai joiden osalta on testattu laajempaa muuttujien valikoimaa (esim.naiivi Bayes). Vertaamalla vain optimoituja menetelmiä (ts., parhaiten suoriutuneet parametrikonfiguraatiot kullekin menetelmälle) naiiveilla Bayes-testeillä saavutettiin huomattavasti suurempi F-mitta (pariksi t-testi p < 0,05) (Kuva. 1b), takaisinkutsu, taksonin tunnistusaste, taksonin tarkkuusaste (Kuva. 1c), ja alempi Bray-Curtis erilaisuus kuin kaikki muut menetelmät (Kuva. 1d).

Fig. 1

Classifier performance on mock community datasets for 16S rRNA gene sequences (left column) and fungal ITS sequences (right column). kunkin taksonomian luokittelumenetelmän Keskimääräinen F-mitta (keskiarvo kaikissa konfiguraatioissa ja kaikissa yhteisön malliaineistoissa) luokasta lajitasolle. Virhepalkit = 95% luottamusväli. b kunkin optimoidun luokittelijan Keskimääräinen F-mitta (keskiarvo kaikilla valekunnilla) lajitasolla. c kunkin optimoidun luokittelijan Keskimääräinen taksonitarkkuus (keskiarvo kaikissa valeyhteisöissä) lajitasolla. d Keskimääräinen Bray-Curtis-etäisyys odotetun pilkkayhteisön koostumuksen ja sen koostumuksen välillä kunkin optimoidun luokittelijan ennustamana (keskiarvo kaikissa pilkkayhteisöissä) lajitasolla. Viulu tontteja osoittavat mediaani (valkoinen piste), kvartiileja (mustat palkit), ja ytimen tiheyden estimointi (viulu) kunkin pisteet jakauma. Viuluilla, joilla on erilaiset pienaakkoset, on merkittävästi erilaiset keinot (paritettu t-testi false detection rate-korjattu P < 0.05)

Pilkkayhteisöt ovat välttämättä pelkistettyjä, eivätkä pysty arvioimaan menetelmän toimivuutta eri taksoneilla. Vaikka raw-sekvenssit voivat sisältää PCR-ja sekvensointivirheitä (joiden avulla voimme arvioida menetelmän suorituskykyä biologisissa olosuhteissa), sekvenssejä, jotka vastaavat odotettuja mock-yhteisösekvenssejä, ei poisteta viitetietokannasta ennen luokittelua. Tämä lähestymistapa jäljittelee normaaleja toimintaolosuhteita ja arvioi odotettujen sekvenssien palautumista, mutta se voi implisiittisesti vinoutua menetelmiin, jotka löytävät tarkan vastaavuuden kyselysekvensseihin, eikä Lähennä joitakin luonnollisia mikrobiyhteisöjä, joissa vain harvat tai ei lainkaan havaitut sekvenssit vastaavat täsmälleen vertailusekvenssejä. Siksi suoritimme simuloitu sekvenssi lukea luokitukset (kuvattu alla) edelleen testata luokittelijan suorituskykyä.

Ristivalvottu taksonomialuokitus

Vertailutietokannoista johdettujen simuloitujen sekvenssilukujen avulla voidaan arvioida menetelmän suorituskykyä laajemmassa sekvenssien moninaisuudessa kuin yksittäinen mock-yhteisö yleensä käsittää. Arvioimme luokittelijan suorituskykyä ensin ositetulla k-fold-ristivalidoinnilla simuloiduille lukemille. K-fold-ristivalidointistrategiaa on hieman muutettu taksonomisten luokitusten hierarkkisen luonteen huomioon ottamiseksi.Kaikki tämän tutkimuksen luokittajat (poikkeuksena legacy BLAST) käsittelevät luokittelua asettamalla alimman (eli tarkimman) taksonomisen tason, jossa luokitus ylittää jonkin käyttäjän määrittelemän ”luottamuskynnyksen” tai ”konsensuskynnyksen” (KS. materiaalit ja menetelmät). Muutoksella typistetään kunkin testijoukon odotettu taksonomia sille enimmäistasolle, jolla kyseinen taksonomia esiintyy koulutusjoukossa.

simuloidut lukemat syntyivät Greengenes 99% OTUs 16s rRNA-geenistä tai UNITE 99% OTUs sen referenssisekvensseistä. Greengenes 16s rRNA-geenisimuloidut lukemat syntyivät täyspitkistä 16s rRNA–geeneistä (alukkeet 27F/1492R) ja V4-geeneistä (alukkeet 515F/806R) ja v1-3-alikunnista (alukkeet 27F/534R). Simuloidut lukemat, jotka ovat tällä hetkellä saatavilla verohyvityksessä, eivät sisällä keinotekoisia virheitä PCR: stä tai sekvensoinnista useista syistä. Koska mock-yhteisömme analyysit jo arvioivat luokittajan suorituskykyä todellisissa meluisissa koeolosuhteissa, simuloitujen sekvenssien analyysien tavoitteena on arvioida teoreettista luokittajan suorituskykyä (kun tarkkoja sekvenssejä ei ole viitetietokannassa). Lisäksi marker-geeni amplikon sekvenssianalyysiputkistot käyttävät yleisesti denoisointimenetelmiä mallintaakseen per-run virheprofiileja, suodattaakseen meluisia sekvenssejä ja ratkaistakseen todellisia sekvenssivariantteja. Siksi arvioinneissamme simuloimme idealisoitua (jos epätodennäköistä) teoreettista skenaariota, jossa kaikki sekvensointivirheet on denoistettu luokittelijan suorituskyvyn erottamiseksi denoiserin suorituskyvystä. Tässä testisarjassa ja alla novel taksa,” mittatilaustyönä ” luokittaja oli ennen todennäköisyydet, jotka oli päätelty koulutuksen joukko joka kerta se koulutettiin.

ristiin validoitujen lukujen luokitus onnistui paremmin karkeammilla luokitustasoilla (Kuva. 2a), samanlainen suuntaus havaittu mock yhteisön tuloksia. Bakteerisekvenssien osalta kaikkien menetelmien keskimääräinen luokitustarkkuus laski lähes täydellisistä tuloksista perhetasolla (v4-alueen mediaani F-mittauksen minimi: BLAST+ F = 0.92, maksimi: legacy BLAST F = 0.99), mutta säilytti silti tarkat pisteet lajitasolla (mediaani minimi: BLAST+ F = 0.76, maksimi: SortMeRNA F = 0.84), suhteessa joihinkin valeyhteisön tietokokonaisuuksiin (Kuva. 2 a). Sienisekvenssien suorituskyky oli samanlainen, lukuun ottamatta sitä, että BLAST+-ja VSEARCH-tulosten keskiarvo oli selvästi heikompi kaikilla taksonomisilla tasoilla, mikä osoittaa suurta herkkyyttä parametrikokoonpanoille, ja lajitason F-mittarit olivat yleensä paljon alhaisemmat (mediaani minimi: BLAST+ F = 0, 17, maksimi: UCLUST F = 0, 45) kuin bakteerisekvenssiluokituksissa (Kuva. 2 a).

Fig. 2

luokittelijan suorituskyky ristivalidoiduissa sekvenssiaineistoissa. 16S rRNA–geenin v4-aliverkkogeenin (ensimmäinen rivi), v1-3-aliverkkogeenin (toinen rivi), täyspitkän 16s rRNA-geenin (kolmas tow) ja sienijaksojen (neljäs rivi) luokittelutarkkuus. kunkin taksonomian luokitusmenetelmän Keskimääräinen F-mitta (keskiarvo kaikissa konfiguraatioissa ja kaikissa ristiin validoiduissa sekvenssitietokannoissa) luokasta lajitasolle. Virhepalkit = 95% luottamusväli. b kunkin optimoidun luokittelijan Keskimääräinen F-mitta (kaikkien ristiin validoitujen sekvenssitietojen keskiarvo) lajitasolla. Eri pienaakkosilla varustetuilla viuluilla on merkittävästi erilaiset keinot (paritettu t-test false detection rate-corrected P < 0,05). c korrelaatio v4–aliverkkotunnuksen (x-akseli), v1-3-aliverkkotunnuksen (y-akseli) ja täyspitkien 16S rRNA-geenisekvenssien (z-akseli) F-mittaustehon välillä. Pikkukuva listaa Pearsonin R2-arvon jokaiselle pairwise-korrelaatiolle; jokainen korrelaatio on merkitsevä (p < 0.001)

Lajitason luokitukset 16S rRNA-geenisekvensseistä olivat parhaita optimoiduilla UCLUST–ja SortMeRNA-konfiguraatioilla v4-verkkotunnukselle, naiiveilla Bayes-ja RDP-luokituksilla V1-3-verkkotunnukselle ja täyspitkillä 16s rRNA-geenisekvensseillä (Kuva. 2b). UCLUST saavutti luokituksessaan korkeimman F-mittarin (F = 0,51). Kuitenkin kaikki optimoidut luokittelijat saavuttivat samanlaiset F-mitta-alueet, poikkeuksena legacy BLAST sen sekvensseille (Fig. 2b).

Lajitason luokittelusuoritus 16S rRNA-geenin simuloiduissa lukemissa korreloi merkittävästi kunkin aladomaanin ja täyspitkien geenisekvenssien välillä (Kuva. 2c). Testeissämme täyspitkät sekvenssit osoittivat hieman heikompaa tarkkuutta kuin V1-3-ja V4-aliverkkotunnukset. Kokopitkän 16s rRNA-geenien suhteellinen suorituskyky verrattuna hypervariable-aliverkkolukuihin on vaihteleva kirjallisuudessa, ja tuloksemme lisäävät toisen datapisteen tästä aiheesta käytävään keskusteluun. Lajitason luokitukset tuottivat kuitenkin vahvan korrelaation menetelmien konfiguraatioiden välillä (Kuva. 2c)ja optimoitu menetelmän suorituskyky (Kuva. 2b), mikä viittaa siihen, että pohjustusvalinta vaikuttaa luokittelutarkkuuteen tasaisesti kaikissa menetelmissä. Siksi keskityimme v4-aliverkkotunnusten lukemiseen loppupään analyysejä varten.

Novel takson classification evaluation

Novel takson classification tarjoaa ainutlaatuisen perspektiivin luokittelijan käyttäytymiseen, jossa arvioidaan, miten luokittajat suoriutuvat haastettuna ”novel” – kladilla, joka ei ole edustettuna viitetietokannassa . Ihanteellisen luokittelijan tulisi tunnistaa lähin taksonominen sukuhaara, johon tämä taksoni kuuluu, mutta ei sen pidemmälle. Tässä arvioinnissa viitetietokanta alinäytteistetään K kertaa kyselyn ja viitesekvenssin muodostamiseksi, kuten ristivalvotussa luokittelussa, mutta kaksi tärkeää erottelua on olemassa: (1) luokituksessa käytetty viitetietokanta sulkee pois kaikki sekvenssit, jotka vastaavat kyselysekvenssien taksonomista yhteyttä taksonomisella tasolla L, se taksonominen arvo, jolla luokittelua yritetään; ja (2) Tämä suoritetaan kullakin taksonomisella tasolla, jotta voidaan arvioida luokituksen tehokkuutta, kun kukin menetelmä kohtaa ”uuden” lajin, suvun, suvun jne.

näiden erojen vuoksi uusien taksoniluokitustulosten tulkinta on erilainen kuin valeyhteisö-ja ristiinvalidoitujen luokitusten. Viimeksi mainitussa luokitustarkkuus voidaan arvioida kullakin taksonomisella tasolla kunkin luokitustuloksen osalta: keskimääräinen luokitustarkkuus perhe-ja lajitasolla arvioi samat tulokset, mutta keskittyy eri taksonomisiin luokitustasoihin. Uusia taksoneja varten laaditaan kuitenkin eri kysely-ja viitesekvenssit luokitusta varten kullekin taksonomiselle tasolle ja kullekin tehdään erilliset luokitukset. Näin ollen suku-ja lajitasoiset Luokitukset ovat itsenäisiä tapahtumia-toinen arvioi, kuinka tarkasti kukin menetelmä toimii kohdatessaan” uuden ”suvun, jota ei ole esitetty viitetietokannassa, toinen, kun kohdataan ”uuden” lajin.

uusissa taksoniarvioinneissa käytetään sarjaa muokattuja mittareita, jotta saadaan lisätietoa siitä, millaisia luokitteluvirheitä esiintyy. Tarkkuus -, takaisinkutsu-ja F-mittalaskelmat kullakin taksonomisella tasolla L arvioivat, onko tasolla L-1 tehty tarkka taksonomialuokitus: esimerkiksi” romaaniselle ” lajille tulisi määrittää suku, koska oikeaa lajiluokkaa ei ole esitetty viitetietokannassa. Mikä tahansa lajitason luokitus tässä skenaariossa on ylikellotusluokitus (joka vaikuttaa sekä takaisinkutsuun että tarkkuuteen) . Ylikellotusluokitus on yksi keskeisistä mittareista uusien taksonien arvioinnissa, mikä osoittaa, missä määrin uudet sekvenssit tulkitaan väärin tunnetuiksi organismeiksi. Ylikellottaminen on usein erittäin epätoivottavaa, koska se voi johtaa esimerkiksi tuntemattomien, mutta todennäköisesti vaarattomien ympäristösekvenssien virheelliseen luokitteluun tunnetuiksi taudinaiheuttajiksi. Uudet sekvenssit, jotka on luokiteltu oikeaan kladiin, mutta vähemmän spesifiselle tasolle kuin L, ovat aliluokiteltuja (vaikuttavat takaisinkutsuun, mutta eivät tarkkuuteen) . Sekvenssit, jotka luokitellaan täysin eri kladiin, luokitellaan väärin (vaikuttavat sekä takaisinkutsuun että tarkkuuteen) .

tarkkuus, takaisinkutsu ja F-mittaus kaikki kohoavat vähitellen keskiarvotuloksista lähelle nollaa.0 luokkatasolla bakteerien ja sienten lajitason huipputulosten saavuttaminen (Kuva. 3a-c). Nämä suuntaukset yhdistetään asteittaiseen aliluokittelun ja virheluokittelun vähenemiseen kaikilla luokitusmenetelmillä, mikä osoittaa, että kaikki luokittajat suoriutuvat huonosti kohdatessaan sekvenssejä, joiden vastaavuutta ei tiedetä Luokka -, järjestys-tai perhetasolla (Kuva. 3d, f). Lajitasolla UCLUST, BLAST+ ja VSEARCH saavuttivat huomattavasti parempia F-mittareita kuin kaikki muut menetelmät 16S rRNA-geeniluokituksissa (p < 0, 05) (Kuva. 3g). UCLUST saavutti huomattavasti paremmat F-mittarit kuin kaikki muut luokitustavat (Kuva. 3g). Yli-, ali-ja vääränluokituspisteet ovat vähemmän informatiivisia luokittajien optimoimiseksi todellisiin käyttötapauksiin, koska useimmat menetelmät voitaisiin optimoida antamaan lähes nolla pistettä kullekin näistä mittareista erikseen, mutta vain äärimmäisillä kokoonpanoilla, mikä johtaa F-mittauksiin, joita ei voida hyväksyä missään skenaariossa. Huomaa, että kaikki vertailut tehtiin yhden metriikan maksimoimiseksi (tai minimoimiseksi) optimoitujen menetelmien välillä, ja siksi tarkkuuden maksimoivat konfiguraatiot eroavat usein niistä, jotka maksimoivat takaisinkutsun tai muun metriikan. Tätä vaihtokauppaa eri mittareiden välillä käsitellään tarkemmin alla.

Fig. 3

Classifier performance on novel-taxa simulated sequence datasets for 16S rRNA gene sequences (left column) and fungal ITS sequences (right column). A-f, Keskimääräinen F-mitta (A), tarkkuus (b), takaisinkutsu (c), ylikellotus (d), aliluokitus (e) ja väärä luokittelu (F) kunkin taksonomian luokitusmenetelmän osalta (keskiarvo kaikissa konfiguraatioissa ja kaikissa uusissa taksonisekvenssitietokannoissa) pääjaksosta lajitasolle. Virhepalkit = 95% luottamusväli. b kunkin optimoidun luokittelijan Keskimääräinen F-mitta (kaikkien uusien taksonisarjojen keskiarvona) lajitasolla. Viuluilla, joilla on erilaiset pienaakkoset, on merkittävästi erilaiset keinot (paritettu t-testi false detection rate-korjattu P < 0.05)

Uusi taksoniarvio antaa luokittajan suoritusarvion tietyn viitetietokannan perusteella, mutta sen yleistymistä rajoittavat käytettävissä olevien viitetietokantojen laatu sekä osioinnissa ja arvioinnissa käytetty merkintäpohjainen lähestymistapa. Väärin merkityt ja polyfyleettiset kladit tietokannassa, esimerkiksi clostridium-ryhmä, lisäävät väärän luokittelun todennäköisyyttä. Täydentävä analyysi, joka perustuu sekvenssin samankaltaisuuteen uuden kyselyn ja huippuviitteen osuman välillä, voisi lieventää tätä ongelmaa. Valitsemme kuitenkin etikettipohjaisen lähestymistavan, koska se kuvastaa paremmin biologista ongelmaa, jota käyttäjät voivat odottaa kohtaavansa, eli käyttämällä tiettyä viitesekvenssitietokantaa (joka sisältää jonkin verran väärin merkittyjä ja polyfyleettisiä taksoneja, jotka ovat ominaisia nykyisille resursseille), kuinka todennäköistä on, että luokittelija luokittelee taksonomisen merkinnän väärin?

Moniarviointimenetelmän optimointi

mock-yhteisö ja ristivalidointiluokitusarvioinnit tuottivat samanlaisia kehityssuuntia konfiguraatiokyvyssä, mutta parametrivalintojen optimointi uusille taksoneille johti yleensä suboptimaalisiin valintoihin mock-yhteisölle ja ristivalidointitesteihin (Kuva. 4). Pyrimme määrittämään kunkin arvioinnin menetelmän kokoonpanon suorituskyvyn välisen suhteen ja käyttämään näitä tietoja valitaksemme konfiguraatioita, jotka toimivat parhaiten kaikissa arvioinneissa. 16S rRNA: n geenisekvenssin lajitason luokituksessa menetelmäkonfiguraatiot, joilla saavutetaan maksimaaliset F-mittarit mock-ja ristiinvalidoitujen sekvenssien osalta, voivat toimia heikosti uuden taksoniluokituksen osalta (Kuva. 4b). Optimointi on suoraviivaisempaa 16S rRNA-geenisekvenssien sukutason luokittelussa (Kuva. 4a)ja sienisekvensseille (Kuva. 4c, d), jonka konfiguraation suorituskyky (mitattuna keskimääräisenä F-mittana) maksimoidaan samanlaisilla konfiguraatioilla kaikissa kolmessa arvioinnissa.

Fig. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplots näyttää F-mittaustulosten keskiarvon kullekin menetelmäkokoonpanolle, kaikkien näytteiden keskiarvona, 16S rRNA-geenien luokittelemiseksi sukutasolla (A) ja lajitasolla (b), ja sieni sen sekvenssien luokittelemiseksi sukutasolla (c) ja lajitasolla (d)

optimaalisten menetelmäkokonfiguraatioiden tunnistamiseksi asetamme tarkkuuspistemäärän vähimmäisrajat kullekin arvioinnille tunnistamalla luonnolliset katkokset laatupisteiden valikoima, nämä kriteerit täyttävien menetelmien ja parametrialueiden valinta. Taulukossa 2 luetellaan menetelmäkokoonpanot, jotka maksimoivat lajitason luokitustarkkuuspisteet mock community -, cross-validated-ja novel taxon-arvioinneissa useissa yhteisissä toimintaolosuhteissa. ”Tasapainotettuja” kokoonpanoja suositellaan yleiseen käyttöön ja ne ovat menetelmiä, jotka maksimoivat F-mittapisteet. ”Precision”-ja ”recall” -kokoonpanot maksimoivat precision-ja recall-pisteet vastaavasti mock -, ristivalvottu-ja novel-taksa-luokitusten osalta (Taulukko 2). ”Novel” -kokoonpanot optimoivat F-mittapisteet uutta taksoniluokitusta varten ja toissijaisesti mock-ja ristivalvottua suorituskykyä varten (taulukko 2). Näitä konfiguraatioita suositellaan käytettäväksi sellaisten otostyyppien kanssa, joiden odotetaan sisältävän suuria määriä tunnistamattomia lajeja, joiden ylikellottaminen voi olla liiallista. Nämä konfiguraatiot eivät kuitenkaan välttämättä toimi optimaalisesti tunnettujen lajien luokittelussa (eli aliluokitusnopeus on suurempi). Sienten osalta samat ”tarkkuuteen” suositellut konfiguraatiot toimivat hyvin uudenlaisessa taksoniluokituksessa (Taulukko 2). 16S rRNA-geenisekvenssit, BLAST+ -, UCLUST-ja VSEARCH consensus-luokittelijat suoriutuvat parhaiten uusista taksoniluokituksista (Taulukko 2).

Taulukko 2 optimoidut menetelmät kokoonpanot standardikäyttöolosuhteisiin

laskennallinen suoritusaika

suuritehoiset sekvensointialustat (ja kokeet) tuottavat edelleen kasvavia sekvenssimääriä, jotka-myös laadun suodatuksen ja dereplaation tai operatiivisen käytön jälkeen taksonominen yksikkö ryhmittelyvaiheet yhteisiä useimmille mikrobiomian analyysi putkistot—voi ylittää tuhansia ainutlaatuisia sekvenssejä, jotka tarvitsevat luokitusta. Kyselysekvenssien ja viittaussekvenssien kasvava määrä voi johtaa kestämättömiin suoritusaikoihin, ja joissakin kokeellisissa olosuhteissa huipputehokas menetelmä (joka perustuu tarkkuuteen, takaisinkutsuun tai johonkin muuhun metriikkaan) voi olla riittämätön käsittelemään suuria määriä sekvenssejä hyväksyttävässä ajassa. Esimerkiksi nopeat käänteet voivat olla elintärkeitä kliinisissä skenaarioissa, kun mikrobiomin arviointi muuttuu kliiniseksi käytännöksi tai kaupallisiksi skenaarioiksi, kun suuret näytemäärät ja asiakkaiden odotukset voivat rajoittaa läpimenoaikoja ja menetelmien valintaa.

arvioimme laskennallisen ajonajan lineaarisena funktiona (1) kyselysekvenssien lukumäärää ja (2) vertailusekvenssien lukumäärää. Lineaarinen riippuvuus ilmenee empiirisesti Fig: ssä. 5. Molemmille mittareille Rinne on tärkein suorituksen mittari. Intercept voi sisältää ajan, joka kuluu luokittajan kouluttamiseen, referenssisekvenssien esikäsittelyyn, kuorman esikäsiteltyihin tietoihin tai muihin ”setup” – vaiheisiin, joiden merkitys vähenee sekvenssimäärien kasvaessa ja on siten Vähäinen.

Fig. 5

taksonomialuokittajien Suoritusvertailu. Kunkin taksonomian luokittelijan ajonaika (t) joko vaihtelee kyselysekvenssien määrää ja pitää vakio 10 000 viitesekvenssiä (a) tai vaihtelee viitesekvenssien määrää ja pitää Vakio 1 kyselysekvenssiä (b)