Marker-geeni amplikonisekvenssien taksonomisen luokittelun optimointi qiime 2: n Q2-feature-classifier plugin
käytimme tax-Creditiä optimoidaksemme ja verrataksemme useita marker-geeni-sekvenssien taksonomialuokittajia. Arvioimme kaksi yleisesti käytettyä luokittelijaa , jotka on kääritty QIIME 1: een (RDP Classifier (versio 2.2), legacy BLAST (versio 2.2.22) ), kaksi qiime 1 alignment-based consensus taxonomy Classifier (oletus UCLUST classifier saatavilla qiime 1 (perustuu versioon 1.2.22 q) , ja SortMeRNA (versio 2.0 29/11/2014) ), kaksi alignation-based consensus taxonomy Classifier äskettäin julkaistu q2-ominaisuus-classifier (perustuu BLAST+ (versio 2.6.0) ja VSEARCH (versio 2.0.3) ), ja uusi monikansallinen naiivi Bayes kone-learning luokittelija kohdassa Q2-OMINAISUUSLUOKITTELIJA (KS.kohdassa ”menetelmät” tietoja Q2-OMINAISUUSLUOKITTELIJAN menetelmistä ja lähdekoodin saatavuudesta). Suoritimme parametrien pyyhkäisyjä määrittääksemme optimaaliset parametrikokoonpanot kullekin menetelmälle.
Mock community evaluations
vertailimme luokittelijan suorituskykyä ensin mock-yhteisöihin, jotka ovat keinotekoisesti rakennettuja mikrobisolujen tai DNA: n seoksia, jotka on yhdistetty tunnetuilla suhdeluvuilla . Käytimme 15 bakteeri 16s rRNA geeni mock yhteisöjä ja 4 sieni sisäinen transkriboitu spacer (Its) mock yhteisöjä (Taulukko 1) peräisin mockrobiotasta , Julkinen varasto mock yhteisön tietoja. Valeyhteisöt ovat hyödyllisiä menetelmän vertailussa, koska (1) toisin kuin simuloiduissa yhteisöissä, ne mahdollistavat menetelmän suorituskyvyn kvantitatiivisen arvioinnin todellisissa käyttöolosuhteissa eli sisältävät todellisia sekvensointivirheitä, joita voi olla vaikea mallintaa tarkasti; ja (2) toisin kuin luonnollisissa yhteisönäytteissä, valeyhteisön todellinen koostumus tiedetään etukäteen, mikä mahdollistaa yhteisön profiloinnin tarkkuuden kvantitatiivisen arvioinnin.
lisäprioriteetti oli testata luokituspainojen asettamisen vaikutusta Q2-ominaisuusluokituksessa toteutetun naiivin Bayes-luokittelijan luokitustarkkuuteen. Koneoppimisessa luokkapainot tai aiemmat todennäköisyydet ovat painojen vektoreita, jotka määrittelevät taajuuden, jolla kutakin luokkaa on odotettavissa havaittavan (ja erotettava tämän termin käytöstä Bayesilaisessa päättelyssä painovektorien todennäköisyysjakaumana). Vaihtoehtona luokkapainojen asettamiselle on olettaa, että jokainen kyselysarja kuuluu yhtä todennäköisesti mihin tahansa viitesekvenssitietokannassa esiintyvään taksoniin. Tämä oletus, joka tunnetaan uniform class priors-nimisenä naiivin Bayes-luokittelijan yhteydessä, on RDP-luokittelijan tekemä, ja sen vaikutusta markkeri-geeni-luokittelutarkkuuteen ei ole vielä vahvistettu. Jommankumman olettaminen, että luokkapainot ovat yhdenmukaisia tai jossain määrin tunnettuja, vaikuttaa tuloksiin, eikä sitä voida välttää. Pilkkuyhteisöjen taksonomiset pitoisuudet eivät ole läheskään yhdenmukaisia vertailutaksonomioiden suhteen, kuten minkä tahansa todellisen tietojoukon on oltava. Siksi voimme käyttää niitä arvioidaksemme, miten luokkien painoja koskevien oletusten tekeminen vaikuttaa. Jos olemme asettaneet luokan painot näytteen tunnettuun taksonomiseen koostumukseen, olemme merkinneet tulokset ”mittatilaustyönä”.
arvioimme luokittelijan suoritustarkkuutta malliyhteisösekvensseillä, jotka on luokiteltu taksonomisella tasolla luokista lajeihin. Mock community sekvenssit luokiteltiin käyttäen Greengenes 99% OTUs 16s rRNA geeni tai UNITE 99% OTUs sen viittaus sekvenssejä bakteeri-ja sieni mock yhteisöjä, vastaavasti. Kuten odotettiin, luokittelutarkkuus laski luokituksen syvyyden kasvaessa, ja kaikilla menetelmillä voitiin ennustaa pilkkayhteisösekvenssien taksonominen kuuluminen sukutasolle asti mediaanin F-mittojen ylittäessä 0,8 kaikissa parametrijoukoissa (pienin: uclust F = 0,81, suurin: naiivi Bayes mittatilaustyönä F = 1,00) (Kuva. 1 A). Lajikumppanuutta ennustettiin kuitenkin paljon pienemmällä ja vaihtelevammalla tarkkuudella menetelmäkokonfiguraatioiden välillä (mediaani F-mitta minimi: UCLUST F = 0,42, maksimi: naiivi Bayes mittatilaustyönä F = 0.95), korostaen parametrin optimoinnin merkitystä (käsitellään tarkemmin jäljempänä). Kuviossa 1a esitetään kunkin taksonomisen tason F-keskiarvon käyrät, jotka on laskettu kaikkien luokittelijakonfiguraatioiden keskiarvoiksi; näin ollen luokittajan suorituskyky on aliarvioitu joidenkin sellaisten luokittajien osalta, joihin parametrikonfiguraatiot vaikuttavat voimakkaasti tai joiden osalta on testattu laajempaa muuttujien valikoimaa (esim.naiivi Bayes). Vertaamalla vain optimoituja menetelmiä (ts., parhaiten suoriutuneet parametrikonfiguraatiot kullekin menetelmälle) naiiveilla Bayes-testeillä saavutettiin huomattavasti suurempi F-mitta (pariksi t-testi p < 0,05) (Kuva. 1b), takaisinkutsu, taksonin tunnistusaste, taksonin tarkkuusaste (Kuva. 1c), ja alempi Bray-Curtis erilaisuus kuin kaikki muut menetelmät (Kuva. 1d).
Pilkkayhteisöt ovat välttämättä pelkistettyjä, eivätkä pysty arvioimaan menetelmän toimivuutta eri taksoneilla. Vaikka raw-sekvenssit voivat sisältää PCR-ja sekvensointivirheitä (joiden avulla voimme arvioida menetelmän suorituskykyä biologisissa olosuhteissa), sekvenssejä, jotka vastaavat odotettuja mock-yhteisösekvenssejä, ei poisteta viitetietokannasta ennen luokittelua. Tämä lähestymistapa jäljittelee normaaleja toimintaolosuhteita ja arvioi odotettujen sekvenssien palautumista, mutta se voi implisiittisesti vinoutua menetelmiin, jotka löytävät tarkan vastaavuuden kyselysekvensseihin, eikä Lähennä joitakin luonnollisia mikrobiyhteisöjä, joissa vain harvat tai ei lainkaan havaitut sekvenssit vastaavat täsmälleen vertailusekvenssejä. Siksi suoritimme simuloitu sekvenssi lukea luokitukset (kuvattu alla) edelleen testata luokittelijan suorituskykyä.
Ristivalvottu taksonomialuokitus
Vertailutietokannoista johdettujen simuloitujen sekvenssilukujen avulla voidaan arvioida menetelmän suorituskykyä laajemmassa sekvenssien moninaisuudessa kuin yksittäinen mock-yhteisö yleensä käsittää. Arvioimme luokittelijan suorituskykyä ensin ositetulla k-fold-ristivalidoinnilla simuloiduille lukemille. K-fold-ristivalidointistrategiaa on hieman muutettu taksonomisten luokitusten hierarkkisen luonteen huomioon ottamiseksi.Kaikki tämän tutkimuksen luokittajat (poikkeuksena legacy BLAST) käsittelevät luokittelua asettamalla alimman (eli tarkimman) taksonomisen tason, jossa luokitus ylittää jonkin käyttäjän määrittelemän ”luottamuskynnyksen” tai ”konsensuskynnyksen” (KS. materiaalit ja menetelmät). Muutoksella typistetään kunkin testijoukon odotettu taksonomia sille enimmäistasolle, jolla kyseinen taksonomia esiintyy koulutusjoukossa.
simuloidut lukemat syntyivät Greengenes 99% OTUs 16s rRNA-geenistä tai UNITE 99% OTUs sen referenssisekvensseistä. Greengenes 16s rRNA-geenisimuloidut lukemat syntyivät täyspitkistä 16s rRNA–geeneistä (alukkeet 27F/1492R) ja V4-geeneistä (alukkeet 515F/806R) ja v1-3-alikunnista (alukkeet 27F/534R). Simuloidut lukemat, jotka ovat tällä hetkellä saatavilla verohyvityksessä, eivät sisällä keinotekoisia virheitä PCR: stä tai sekvensoinnista useista syistä. Koska mock-yhteisömme analyysit jo arvioivat luokittajan suorituskykyä todellisissa meluisissa koeolosuhteissa, simuloitujen sekvenssien analyysien tavoitteena on arvioida teoreettista luokittajan suorituskykyä (kun tarkkoja sekvenssejä ei ole viitetietokannassa). Lisäksi marker-geeni amplikon sekvenssianalyysiputkistot käyttävät yleisesti denoisointimenetelmiä mallintaakseen per-run virheprofiileja, suodattaakseen meluisia sekvenssejä ja ratkaistakseen todellisia sekvenssivariantteja. Siksi arvioinneissamme simuloimme idealisoitua (jos epätodennäköistä) teoreettista skenaariota, jossa kaikki sekvensointivirheet on denoistettu luokittelijan suorituskyvyn erottamiseksi denoiserin suorituskyvystä. Tässä testisarjassa ja alla novel taksa,” mittatilaustyönä ” luokittaja oli ennen todennäköisyydet, jotka oli päätelty koulutuksen joukko joka kerta se koulutettiin.
ristiin validoitujen lukujen luokitus onnistui paremmin karkeammilla luokitustasoilla (Kuva. 2a), samanlainen suuntaus havaittu mock yhteisön tuloksia. Bakteerisekvenssien osalta kaikkien menetelmien keskimääräinen luokitustarkkuus laski lähes täydellisistä tuloksista perhetasolla (v4-alueen mediaani F-mittauksen minimi: BLAST+ F = 0.92, maksimi: legacy BLAST F = 0.99), mutta säilytti silti tarkat pisteet lajitasolla (mediaani minimi: BLAST+ F = 0.76, maksimi: SortMeRNA F = 0.84), suhteessa joihinkin valeyhteisön tietokokonaisuuksiin (Kuva. 2 a). Sienisekvenssien suorituskyky oli samanlainen, lukuun ottamatta sitä, että BLAST+-ja VSEARCH-tulosten keskiarvo oli selvästi heikompi kaikilla taksonomisilla tasoilla, mikä osoittaa suurta herkkyyttä parametrikokoonpanoille, ja lajitason F-mittarit olivat yleensä paljon alhaisemmat (mediaani minimi: BLAST+ F = 0, 17, maksimi: UCLUST F = 0, 45) kuin bakteerisekvenssiluokituksissa (Kuva. 2 a).
Lajitason luokitukset 16S rRNA-geenisekvensseistä olivat parhaita optimoiduilla UCLUST–ja SortMeRNA-konfiguraatioilla v4-verkkotunnukselle, naiiveilla Bayes-ja RDP-luokituksilla V1-3-verkkotunnukselle ja täyspitkillä 16s rRNA-geenisekvensseillä (Kuva. 2b). UCLUST saavutti luokituksessaan korkeimman F-mittarin (F = 0,51). Kuitenkin kaikki optimoidut luokittelijat saavuttivat samanlaiset F-mitta-alueet, poikkeuksena legacy BLAST sen sekvensseille (Fig. 2b).
Lajitason luokittelusuoritus 16S rRNA-geenin simuloiduissa lukemissa korreloi merkittävästi kunkin aladomaanin ja täyspitkien geenisekvenssien välillä (Kuva. 2c). Testeissämme täyspitkät sekvenssit osoittivat hieman heikompaa tarkkuutta kuin V1-3-ja V4-aliverkkotunnukset. Kokopitkän 16s rRNA-geenien suhteellinen suorituskyky verrattuna hypervariable-aliverkkolukuihin on vaihteleva kirjallisuudessa, ja tuloksemme lisäävät toisen datapisteen tästä aiheesta käytävään keskusteluun. Lajitason luokitukset tuottivat kuitenkin vahvan korrelaation menetelmien konfiguraatioiden välillä (Kuva. 2c)ja optimoitu menetelmän suorituskyky (Kuva. 2b), mikä viittaa siihen, että pohjustusvalinta vaikuttaa luokittelutarkkuuteen tasaisesti kaikissa menetelmissä. Siksi keskityimme v4-aliverkkotunnusten lukemiseen loppupään analyysejä varten.
Novel takson classification evaluation
Novel takson classification tarjoaa ainutlaatuisen perspektiivin luokittelijan käyttäytymiseen, jossa arvioidaan, miten luokittajat suoriutuvat haastettuna ”novel” – kladilla, joka ei ole edustettuna viitetietokannassa . Ihanteellisen luokittelijan tulisi tunnistaa lähin taksonominen sukuhaara, johon tämä taksoni kuuluu, mutta ei sen pidemmälle. Tässä arvioinnissa viitetietokanta alinäytteistetään K kertaa kyselyn ja viitesekvenssin muodostamiseksi, kuten ristivalvotussa luokittelussa, mutta kaksi tärkeää erottelua on olemassa: (1) luokituksessa käytetty viitetietokanta sulkee pois kaikki sekvenssit, jotka vastaavat kyselysekvenssien taksonomista yhteyttä taksonomisella tasolla L, se taksonominen arvo, jolla luokittelua yritetään; ja (2) Tämä suoritetaan kullakin taksonomisella tasolla, jotta voidaan arvioida luokituksen tehokkuutta, kun kukin menetelmä kohtaa ”uuden” lajin, suvun, suvun jne.
näiden erojen vuoksi uusien taksoniluokitustulosten tulkinta on erilainen kuin valeyhteisö-ja ristiinvalidoitujen luokitusten. Viimeksi mainitussa luokitustarkkuus voidaan arvioida kullakin taksonomisella tasolla kunkin luokitustuloksen osalta: keskimääräinen luokitustarkkuus perhe-ja lajitasolla arvioi samat tulokset, mutta keskittyy eri taksonomisiin luokitustasoihin. Uusia taksoneja varten laaditaan kuitenkin eri kysely-ja viitesekvenssit luokitusta varten kullekin taksonomiselle tasolle ja kullekin tehdään erilliset luokitukset. Näin ollen suku-ja lajitasoiset Luokitukset ovat itsenäisiä tapahtumia-toinen arvioi, kuinka tarkasti kukin menetelmä toimii kohdatessaan” uuden ”suvun, jota ei ole esitetty viitetietokannassa, toinen, kun kohdataan ”uuden” lajin.
uusissa taksoniarvioinneissa käytetään sarjaa muokattuja mittareita, jotta saadaan lisätietoa siitä, millaisia luokitteluvirheitä esiintyy. Tarkkuus -, takaisinkutsu-ja F-mittalaskelmat kullakin taksonomisella tasolla L arvioivat, onko tasolla L-1 tehty tarkka taksonomialuokitus: esimerkiksi” romaaniselle ” lajille tulisi määrittää suku, koska oikeaa lajiluokkaa ei ole esitetty viitetietokannassa. Mikä tahansa lajitason luokitus tässä skenaariossa on ylikellotusluokitus (joka vaikuttaa sekä takaisinkutsuun että tarkkuuteen) . Ylikellotusluokitus on yksi keskeisistä mittareista uusien taksonien arvioinnissa, mikä osoittaa, missä määrin uudet sekvenssit tulkitaan väärin tunnetuiksi organismeiksi. Ylikellottaminen on usein erittäin epätoivottavaa, koska se voi johtaa esimerkiksi tuntemattomien, mutta todennäköisesti vaarattomien ympäristösekvenssien virheelliseen luokitteluun tunnetuiksi taudinaiheuttajiksi. Uudet sekvenssit, jotka on luokiteltu oikeaan kladiin, mutta vähemmän spesifiselle tasolle kuin L, ovat aliluokiteltuja (vaikuttavat takaisinkutsuun, mutta eivät tarkkuuteen) . Sekvenssit, jotka luokitellaan täysin eri kladiin, luokitellaan väärin (vaikuttavat sekä takaisinkutsuun että tarkkuuteen) .
tarkkuus, takaisinkutsu ja F-mittaus kaikki kohoavat vähitellen keskiarvotuloksista lähelle nollaa.0 luokkatasolla bakteerien ja sienten lajitason huipputulosten saavuttaminen (Kuva. 3a-c). Nämä suuntaukset yhdistetään asteittaiseen aliluokittelun ja virheluokittelun vähenemiseen kaikilla luokitusmenetelmillä, mikä osoittaa, että kaikki luokittajat suoriutuvat huonosti kohdatessaan sekvenssejä, joiden vastaavuutta ei tiedetä Luokka -, järjestys-tai perhetasolla (Kuva. 3d, f). Lajitasolla UCLUST, BLAST+ ja VSEARCH saavuttivat huomattavasti parempia F-mittareita kuin kaikki muut menetelmät 16S rRNA-geeniluokituksissa (p < 0, 05) (Kuva. 3g). UCLUST saavutti huomattavasti paremmat F-mittarit kuin kaikki muut luokitustavat (Kuva. 3g). Yli-, ali-ja vääränluokituspisteet ovat vähemmän informatiivisia luokittajien optimoimiseksi todellisiin käyttötapauksiin, koska useimmat menetelmät voitaisiin optimoida antamaan lähes nolla pistettä kullekin näistä mittareista erikseen, mutta vain äärimmäisillä kokoonpanoilla, mikä johtaa F-mittauksiin, joita ei voida hyväksyä missään skenaariossa. Huomaa, että kaikki vertailut tehtiin yhden metriikan maksimoimiseksi (tai minimoimiseksi) optimoitujen menetelmien välillä, ja siksi tarkkuuden maksimoivat konfiguraatiot eroavat usein niistä, jotka maksimoivat takaisinkutsun tai muun metriikan. Tätä vaihtokauppaa eri mittareiden välillä käsitellään tarkemmin alla.
Uusi taksoniarvio antaa luokittajan suoritusarvion tietyn viitetietokannan perusteella, mutta sen yleistymistä rajoittavat käytettävissä olevien viitetietokantojen laatu sekä osioinnissa ja arvioinnissa käytetty merkintäpohjainen lähestymistapa. Väärin merkityt ja polyfyleettiset kladit tietokannassa, esimerkiksi clostridium-ryhmä, lisäävät väärän luokittelun todennäköisyyttä. Täydentävä analyysi, joka perustuu sekvenssin samankaltaisuuteen uuden kyselyn ja huippuviitteen osuman välillä, voisi lieventää tätä ongelmaa. Valitsemme kuitenkin etikettipohjaisen lähestymistavan, koska se kuvastaa paremmin biologista ongelmaa, jota käyttäjät voivat odottaa kohtaavansa, eli käyttämällä tiettyä viitesekvenssitietokantaa (joka sisältää jonkin verran väärin merkittyjä ja polyfyleettisiä taksoneja, jotka ovat ominaisia nykyisille resursseille), kuinka todennäköistä on, että luokittelija luokittelee taksonomisen merkinnän väärin?
Moniarviointimenetelmän optimointi
mock-yhteisö ja ristivalidointiluokitusarvioinnit tuottivat samanlaisia kehityssuuntia konfiguraatiokyvyssä, mutta parametrivalintojen optimointi uusille taksoneille johti yleensä suboptimaalisiin valintoihin mock-yhteisölle ja ristivalidointitesteihin (Kuva. 4). Pyrimme määrittämään kunkin arvioinnin menetelmän kokoonpanon suorituskyvyn välisen suhteen ja käyttämään näitä tietoja valitaksemme konfiguraatioita, jotka toimivat parhaiten kaikissa arvioinneissa. 16S rRNA: n geenisekvenssin lajitason luokituksessa menetelmäkonfiguraatiot, joilla saavutetaan maksimaaliset F-mittarit mock-ja ristiinvalidoitujen sekvenssien osalta, voivat toimia heikosti uuden taksoniluokituksen osalta (Kuva. 4b). Optimointi on suoraviivaisempaa 16S rRNA-geenisekvenssien sukutason luokittelussa (Kuva. 4a)ja sienisekvensseille (Kuva. 4c, d), jonka konfiguraation suorituskyky (mitattuna keskimääräisenä F-mittana) maksimoidaan samanlaisilla konfiguraatioilla kaikissa kolmessa arvioinnissa.