Articles

a marker-gén amplikon szekvenciák taxonómiai osztályozásának optimalizálása A QIIME 2 q2-feature-classifier plugin

az adójóváírást használtuk a több marker-gén szekvencia taxonómiai osztályozó optimalizálására és összehasonlítására. Értékeltünk két általánosan használt osztályozók, amelyek csomagolva QIIME 1 (RDP osztályozó (2.2 verzió) , legacy BLAST (2.2 verzió.22) ), két QIIME 1 igazítás-alapú konszenzus taxonómia osztályozók (az alapértelmezett uclust osztályozó elérhető QIIME 1 (verzió alapján 1.2.22 q) , és SortMeRNA (Verzió 2.0 29/11/2014) ), két igazítás-alapú konszenzus taxonómia osztályozók újonnan megjelent q2-feature-osztályozó (alapján BLAST+ (verzió 2.6.0) és VSEARCH (verzió 2.0.3) ), és egy új multinomiális naiv Bayes gépi tanulás osztályozó a Q2-feature-classifier-ben (lásd a “módszerek” részt a Q2-feature-classifier módszerekről és a forráskód elérhetőségéről). Paraméter söpréseket hajtottunk végre az egyes módszerek optimális paraméterkonfigurációinak meghatározásához.

Mock közösségi értékelések

először összehasonlítottuk az osztályozó teljesítményét a mock közösségeken, amelyek mesterségesen felépített mikrobiális sejtek vagy DNS keverékei ismert arányokkal kombinálva . Mi hasznosított 15 bakteriális 16S rRNS gén Mock közösségek és 4 gombás belső átírt spacer (ITS) mock közösségek (táblázat 1) származó mockrobiota , nyilvános adattár a mock közösségi adatok. Az álközösségek azért hasznosak a módszer benchmarkingjában, mert (1) a szimulált közösségektől eltérően lehetővé teszik a módszer teljesítményének kvantitatív értékelését a tényleges működési körülmények között, azaz valós szekvenálási hibákat tartalmaznak, amelyeket nehéz lehet pontosan modellezni; és (2) a természetes közösségi mintákkal ellentétben a álközösség tényleges összetétele előre ismert, lehetővé téve a közösségi profilozás pontosságának kvantitatív értékelését.

1.táblázat az adójóváírásba jelenleg integrált Mock közösségek

további prioritás volt az osztálysúlyok beállításának az osztályozás pontosságára gyakorolt hatásának tesztelése a Q2-feature-classifier-ben megvalósított naiv Bayes osztályozó számára. A gépi tanulásban az osztálysúlyok vagy az előzetes valószínűségek olyan súlyvektorok, amelyek meghatározzák az egyes osztályok várható megfigyelésének gyakoriságát (és meg kell különböztetni ezt a kifejezést a bayesi következtetés alatt, mint a súlyvektorok valószínűségi eloszlása). Az osztálysúlyok beállításának alternatívája az a feltételezés, hogy minden lekérdezési szekvencia ugyanolyan valószínűséggel tartozik bármelyik taxonhoz, amely jelen van a referencia szekvencia adatbázisban. Ezt a feltételezést, amelyet egy naiv Bayes osztályozó összefüggésében egységes osztályelőzménynek neveznek , az RDP osztályozó teszi, és annak hatása a marker-gén osztályozás pontosságára még nem validált. Ha feltételezzük, hogy az osztálysúlyok egységesek vagy bizonyos mértékig ismertek, az hatással lesz az eredményekre, és nem kerülhető el. Az álközösségek taxonómiai bőséggel rendelkeznek, amelyek messze nem egységesek a referencia-taxonómiák halmazával szemben, mint bármely valós adatkészletnek. Ezért felhasználhatjuk őket az osztálysúlyokra vonatkozó feltételezések hatásának felmérésére. Ahol az osztálysúlyokat a minta ismert taxonómiai összetételére állítottuk be, az eredményeket “testre szabott”címkével láttuk el.

kiértékeltük az osztályozó teljesítményének pontosságát a rendszertani szinten Osztályozott álközösségi szekvenciákon az osztálytól a fajokig. A Mock community szekvenciákat a Greengenes 99% OTUs 16S rRNS gén felhasználásával osztályozták, vagy egyesítették 99% OTUs referencia szekvenciáit a bakteriális, illetve a gombás mock közösségek számára. Ahogy az várható volt, az osztályozási pontosság csökkent az osztályozási mélység növekedésével, és minden módszer meg tudta jósolni az álközösségi szekvenciák taxonómiai hovatartozását a nemzetség szintjéig, a medián F-mérték meghaladja a 0,8-at az összes paraméterkészletben (minimum: UCLUST F = 0,81, maximum: naiv Bayes testre szabott F = 1,00) (ábra. 1a). A fajok hovatartozását azonban jóval alacsonyabb és változóbb pontossággal jósolták meg a módszerkonfigurációk között (medián F-mérték minimum: UCLUST F = 0,42, maximum: naiv Bayes testre szabott F = 0.95), kiemelve a paraméteroptimalizálás fontosságát (az alábbiakban részletesebben tárgyaljuk). Az 1a. ábra az F-mérték átlagát mutatja be minden rendszertani szinten, átlagolva az összes osztályozó konfigurációban; ezért az osztályozó teljesítményét alábecsülik egyes osztályozók esetében, amelyeket erősen befolyásolnak a paraméterkonfigurációk, vagy amelyekre a paraméterek szélesebb körét tesztelték (pl. naiv Bayes). Csak optimalizált módszerek összehasonlítása (pl., a legjobban teljesítő paraméterkonfigurációk az egyes módszerekhez), a naiv Bayes testre szabott szignifikánsan magasabb F-mérést ért el (párosított t teszt P < 0,05) (ábra. 1b), visszahívás, taxon detektálási Arány, taxon pontossági Arány (ábra. 1c), valamint az alsó Bray-Curtis különbség, mint az összes többi módszer (ábra. 1d).

ábra. 1

osztályozó teljesítmény a 16S rRNS génszekvenciák (bal oszlop) és a gombás its szekvenciák (jobb oszlop) modell közösségi adatkészletein. egy átlagos F-mérték minden taxonómiai osztályozási módszerhez (átlagolva az összes konfigurációban és az összes ál közösségi adatkészletben) osztálytól fajig. Hibasávok = 95% – os konfidencia intervallumok. b átlagos F-intézkedés minden optimalizált osztályozóhoz (átlagolva az összes álközösségben) fajok szintjén. c átlagos taxon pontossági arány minden optimalizált osztályozóhoz (átlagolva az összes álközösségben) fajok szintjén. d átlagos Bray-Curtis távolság a várható álközösség-összetétel és annak összetétele között, az egyes optimalizált osztályozók által előre jelzett (az összes álközösségre átlagolva) fajok szintjén. A hegedűdiagramok medián (fehér pont), kvartilis (fekete sávok) és kernel sűrűségbecslés (hegedű) minden pontszámeloszláshoz. A különböző kisbetűkkel rendelkező hegedűk jelentősen eltérő eszközökkel rendelkeznek (párosított T teszt hamis észlelési arány-korrigált P < 0.05)

az Álközösségek szükségszerűen egyszerűsítettek, és nem tudják értékelni a módszer teljesítményét a taxonok sokféle tartományában. Bár a nyers szekvenciák tartalmazhatnak PCR-t és szekvenálási hibákat (lehetővé téve számunkra a módszer teljesítményének biológiai körülmények közötti értékelését), a várt álközösségi szekvenciáknak megfelelő szekvenciákat a besorolás előtt nem távolítják el a referencia-adatbázisból. Ez a megközelítés megismétli a normál működési feltételeket, és értékeli a várt szekvenciák helyreállítását, de implicit módon torzíthatja azokat a módszereket, amelyek pontosan megfelelnek a lekérdezési szekvenciáknak, és nem közelíti meg azokat a természetes mikrobiális közösségeket, amelyekben kevés vagy egyáltalán nem észlelt szekvenciák pontosan megfelelnek a referencia szekvenciáknak. Ezért szimulált szekvenciaolvasási osztályozásokat hajtottunk végre (az alábbiakban ismertetjük) az osztályozó teljesítményének további teszteléséhez.

kereszt-validált taxonómiai osztályozás

a referencia adatbázisokból származó szimulált szekvenciaolvasások lehetővé teszik számunkra, hogy a módszer teljesítményét a szekvenciák nagyobb sokféleségében értékeljük, mint egyetlen álközösség általában magában foglalja. Először az osztályozó teljesítményét értékeltük a szimulált olvasások taxonómiai osztályozásának rétegzett k-szeres keresztellenőrzésével. A k-szeres keresztellenőrzési stratégiát kissé módosítják, hogy figyelembe vegyék a taxonómiai osztályozások hierarchikus jellegét, amelyet a tanulmány összes osztályozója (a legacy BLAST kivételével) a legalacsonyabb (azaz a legspecifikusabb) taxonómiai szint hozzárendelésével kezel, ahol az osztályozás meghaladja a felhasználó által meghatározott “bizalom” vagy “konszenzus” küszöböt (lásd anyagok és módszerek). A módosítás célja, hogy az egyes tesztkészletek bármely várható taxonómiáját lerövidítse arra a maximális szintre, amelyen az adott taxonómia egy példánya létezik a képzési készletben.

szimulált olvasmányokat generáltunk Greengenes 99% OTUs 16S rRNS gén vagy egyesíteni 99% OTUs a referencia szekvenciák. A Greengenes 16S rRNS gén szimulált leolvasásait teljes hosszúságú 16S rRNS génekből (primerek 27F/1492r) és V4 (primerek 515F/806R) és V1-3 aldomainekből (primerek 27F/534r) állították elő. Az adójóváírásban jelenleg elérhető szimulált olvasmányok több okból sem tartalmaznak mesterséges hibákat a PCR-ből vagy a szekvenálásból. Mivel álközösségeink elemzései már valós zajos kísérleti körülmények között is értékelik az osztályozó teljesítményét, a szimulált szekvenciák elemzésének célja az elméleti osztályozó teljesítményének felmérése (amikor a referencia adatbázisban nincs pontos szekvenciaegyezés). Ezenkívül a marker-gén amplikon szekvenciaelemzési csővezetékek általában denoising módszereket alkalmaznak a futásonkénti hibaprofilok modellezésére, a zajos szekvenciák szűrésére és a tényleges szekvenciaváltozatok megoldására. Ezért értékeléseinkben egy idealizált (ha valószínűtlen) elméleti forgatókönyvet szimulálunk, amelyben az összes szekvenálási hibát megsemmisítették annak érdekében, hogy elkülönítsék az osztályozó teljesítményét a denoiser teljesítményétől. Ebben a tesztkészletben, valamint az új taxonok alatt, a “testre szabott” osztályozónak előzetes valószínűségei voltak, amelyeket a képzési készletből minden alkalommal kikövetkeztettek.

a kereszt-validált olvasások osztályozása jobban teljesített a durvább osztályozási szinteken (ábra. 2a), hasonlóan az álközösség eredményeiben megfigyelt trendhez. A baktériumszekvenciák esetében az összes módszer átlagos osztályozási pontossága csökkent a majdnem tökéletes pontszámokhoz képest családi szinten (V4 domain medián F-mérési minimum: robbanás+ F = 0,92, maximum: legacy BLAST F = 0,99), de a fajok szintjén továbbra is megtartotta a pontos pontszámokat (medián minimum: robbanás+ F = 0,76, maximum: SortMeRNA F = 0,84), néhány ál közösségi adatkészlethez viszonyítva (ábra. 2a). A gomba szekvenciák hasonló teljesítményt mutattak, azzal a kivétellel, hogy az átlagos BLAST+ és VSEARCH teljesítmény minden rendszertani szinten jelentősen alacsonyabb volt, ami a paraméterkonfigurációkra való nagy érzékenységet jelzi, és a fajszintű F-mérések általában sokkal alacsonyabbak voltak (medián minimum: BLAST+ F = 0,17, maximum: UCLUST F = 0,45), mint a baktériumszekvencia-osztályozásoké (ábra. 2a).

ábra. 2

osztályozó teljesítmény kereszthitelesített szekvencia adatkészleteken. Osztályozási pontossága 16S rRNS gén V4 aldomain (első sor), V1–3 aldomain (második sor), teljes hosszúságú 16S rRNS gén (harmadik tow), és gombás szekvenciái (negyedik sor). egy átlagos F-mérték minden taxonómiai osztályozási módszer esetében (átlagolva az összes konfigurációban és az összes keresztvalidált szekvenciaadatkészletben) osztálytól fajig. Hibasávok = 95% – os konfidencia intervallumok. b átlagos F-mérték minden optimalizált osztályozóra (átlagolva az összes keresztvalidált szekvenciaadatkészletre) fajok szintjén. A különböző kisbetűkkel rendelkező hegedűk jelentősen eltérő eszközökkel rendelkeznek (párosított T-teszt hamis észlelési arány-korrigált P < 0,05). c korreláció a V4 aldomain (x tengely), a V1–3 aldomain (y tengely) és a teljes hosszúságú 16S rRNS génszekvenciák (z tengely) egyes módszereinek/konfigurációs osztályozásának F-mérése között. Az Inset felsorolja a Pearson R2 értéket minden páros korrelációhoz; minden korreláció jelentős (P < 0.001)

a 16S rRNS génszekvenciák Fajszintű osztályozása a V4 doménhez optimalizált UCLUST és SortMeRNA konfigurációkkal, a v1-3 doménhez és a teljes hosszúságú 16S rRNS génszekvenciákhoz pedig naiv Bayes és RDP volt a legjobb (ábra. 2b). Az UCLUST osztályozása során elérte a legmagasabb F-mértéket (F = 0,51). Az összes optimalizált osztályozó azonban hasonló F-mérési tartományokat ért el, kivéve a legacy BLAST szekvenciáit (ábra. 2b).

a 16S rRNS gén szimulált olvasásainak Fajszintű osztályozási teljesítménye szignifikánsan korrelált az egyes aldomainek és a teljes hosszúságú génszekvenciák között (ábra. 2c). Tesztjeinkben a teljes hosszúságú szekvenciák valamivel kisebb pontosságot mutattak, mint a V1–3 és a V4 aldomainek. A teljes hosszúságú 16S rRNS gének relatív teljesítménye a hipervariálható aldomain olvasásokhoz képest változó az irodalomban, eredményeink pedig újabb adatpontot adnak a téma folyamatban lévő vitájához. Ennek ellenére a fajszintű osztályozások szoros összefüggést mutattak a módszerkonfigurációk között (ábra. 2c) és optimalizált módszer teljesítményét (ábra. 2b), ami azt sugallja, hogy az alapozó választása egyenletesen befolyásolja az osztályozás pontosságát az összes módszerben. Ezért a V4 aldomain reads-re összpontosítottunk a downstream elemzésekhez.

új taxon osztályozás értékelése

az új taxon osztályozás egyedülálló perspektívát kínál az osztályozó viselkedésében, felmérve, hogy az osztályozók hogyan teljesítenek, ha egy “új” kláddal támadják meg, amely nem szerepel a referencia adatbázisban . Az ideális osztályozónak meg kell határoznia a legközelebbi taxonómiai származást, amelyhez ez a taxon tartozik, de nem tovább. Ebben az értékelésben egy referencia-adatbázist k-szor részmintával állítanak elő lekérdezési és Referencia-szekvenciakészletek előállításához, mint a kereszt-validált osztályozásnál, de két fontos különbség létezik: (1) az osztályozáshoz használt referencia-adatbázis kizár minden olyan szekvenciát, amely megfelel a lekérdezési szekvenciák taxonómiai hovatartozásának az L rendszertani szinten, a rendszertani rangban, amelyen az osztályozást megkísérlik; és (2) Ezt minden rendszertani szinten elvégzik annak érdekében, hogy felmérjék az osztályozási teljesítményt, amikor minden módszer “új” fajjal, nemzetséggel, családdal stb.találkozik.

ezeknek a különbségeknek köszönhetően az új taxonosztályozási eredmények értelmezése eltér a mock community és a cross-valided osztályozásokétól. Ez utóbbi esetében az osztályozás pontossága minden rendszertani szinten értékelhető minden osztályozási eredmény esetében: az átlagos osztályozási pontosság a család szintjén és a fajok szintjén ugyanazokat az eredményeket értékeli, de a besorolás különböző rendszertani szintjeire összpontosít. Az új taxonok esetében azonban különböző lekérdezési és referenciaszekvenciákat állítanak össze az osztályozáshoz minden rendszertani szinten, és mindegyikre külön osztályozást hajtanak végre. Ezért a család-és fajszintű osztályozások független események—az egyik azt értékeli, hogy az egyes módszerek mennyire pontosan teljesítenek, amikor egy “új” családdal találkoznak, amely nem szerepel a referencia-adatbázisban, a másik pedig egy “új” faj találkozásakor.

az új taxonértékelések módosított metrikák sorozatát alkalmazzák, hogy több információt nyújtsanak arról, hogy milyen típusú osztályozási hibák fordulnak elő. Pontosság, visszahívás és F-mérés számítások minden rendszertani szinten l értékelje, hogy pontos rendszertani osztályozást végeztek-e az L-1 szinten: például egy” új ” fajhoz nemzetséget kell rendelni, mert a megfelelő fajosztály nem szerepel a referencia adatbázisban. Bármely fajszintű osztályozás ebben a forgatókönyvben túlosztályozás (mind a visszahívást, mind a pontosságot befolyásolja) . A túlosztályozás az új taxonok értékelésének egyik legfontosabb mutatója, jelezve, hogy az új szekvenciákat milyen mértékben fogják félreértelmezni ismert organizmusokként. Ez a túlosztályozás gyakran nagyon nemkívánatos, mert például az ismeretlen, de valószínűleg ártalmatlan környezeti szekvenciák helytelen osztályozásához vezethet ismert kórokozókként. Az új szekvenciák, amelyek a helyes kládba vannak besorolva, de kevésbé specifikus szintre, mint L, alul vannak osztályozva (befolyásolja a visszahívást, de nem a pontosságot) . A teljesen más kládba sorolt szekvenciákat tévesen osztályozzák (mind a visszahívást, mind a pontosságot befolyásolják) .

a pontosság, a visszahívás és az F-mérés mind fokozatosan növekszik a 0-hoz közeli átlagos pontszámokhoz képest.0 osztály szinten, a csúcspontszámok elérése nemzetségi szinten a baktériumok és fajok szintjén a gombák esetében (ábra. 3a-c). Ezek a tendenciák az összes osztályozási módszer esetében az alulbesorolás és a téves osztályozás arányának fokozatos csökkenésével párosulnak, ami azt jelzi, hogy minden osztályozó rosszul teljesít, ha olyan szekvenciákkal találkozik, amelyeknek nincs ismert egyezésük az osztály, a sorrend vagy a család szintjén (ábra. 3d, f). Fajok szintjén az UCLUST, a BLAST+ és a VSEARCH szignifikánsan jobb F-méréseket ért el, mint az összes többi módszer a 16S rRNS génosztályozáshoz (P < 0,05) (ábra. 3g). Az UCLUST szignifikánsan jobb F-intézkedéseket ért el, mint az összes többi osztályozási módszer (ábra. 3g). A túl-, alul-és a téves osztályozási pontszámok kevésbé informatívak az osztályozók valós felhasználási esetekre történő optimalizálásához, mivel a legtöbb módszert úgy lehetne optimalizálni, hogy ezen mutatók mindegyikéhez közel nulla pontszámot érjen el külön-külön, de csak extrém konfigurációkon keresztül, ami F-intézkedésekhez vezet, amelyek bármely forgatókönyv szerint elfogadhatatlanok lennének. Vegye figyelembe, hogy minden összehasonlítást egyetlen mutató maximalizálására (vagy minimalizálására) optimalizált módszerek között végeztek, ezért a pontosságot maximalizáló konfigurációk gyakran eltérnek a visszahívás maximalizálásától vagy más mutatóktól. A különböző mutatók közötti kompromisszumot az alábbiakban részletesebben tárgyaljuk.

ábra. 3

osztályozó teljesítménye új taxonok szimulált szekvencia adatkészletek 16S rRNS génszekvenciák (bal oszlop) és gombás szekvenciák (jobb oszlop). a-f, átlagos F-intézkedés (a), pontosság (b), visszahívás (c), túlbesorolás (d), alulbesorolás (e) és téves osztályozás (f) minden egyes rendszertani osztályozási módszer esetében (átlagolva az összes konfigurációban és az összes új rendszertani szekvencia-adatkészletben) a törzstől a fajok szintjéig. Hibasávok = 95% – os konfidencia intervallumok. b átlagos F-mérték minden optimalizált osztályozóra (átlagolva az összes új taxon szekvencia adatkészletre) fajok szintjén. A különböző kisbetűkkel rendelkező hegedűk jelentősen eltérő eszközökkel rendelkeznek (párosított T teszt hamis észlelési arány-korrigált P < 0.05)

az új taxon értékelés becslést ad az osztályozó teljesítményéről egy adott referencia-adatbázis alapján, de általánosítását korlátozza a rendelkezésre álló referencia-adatbázisok minősége és a particionáláshoz és értékeléshez használt címke-alapú megközelítés. Az adatbázisban szereplő polifiletikus kládok, például a clostridium csoport, növelik a téves osztályozás valószínűségét. Egy új lekérdezés és a legfontosabb referencia találat szekvenciahasonlóságán alapuló kiegészítő elemzés enyhítheti ezt a problémát. Azonban úgy döntünk, hogy címkén alapuló megközelítést alkalmazunk, mivel ez jobban tükrözi azt a biológiai problémát, amellyel a felhasználók számíthatnak, azaz egy adott referencia-szekvencia-adatbázis használatával (amely bizonyos mennyiségű rosszul címkézett és polifiletikus taxont tartalmaz a jelenleg rendelkezésre álló erőforrásokban), mennyire valószínű, hogy egy osztályozó tévesen osztályozza a taxonómiai címkét?

Multi-evaluation method optimization

a mock community és a cross-validation classification értékelések hasonló tendenciákat eredményeztek a konfigurációs teljesítményben, de az új taxonok paraméterválasztásainak optimalizálása általában nem optimális választásokhoz vezetett a mock community és a cross-validation tesztek számára (ábra. 4). Arra törekedtünk, hogy meghatározzuk az egyes értékelések módszerkonfigurációs teljesítménye közötti kapcsolatot, és ezeket az információkat arra használjuk, hogy kiválasszuk azokat a konfigurációkat, amelyek az összes értékelés során a legjobban teljesítenek. A 16S rRNS génszekvencia fajszintű osztályozásánál az olyan módszerkonfigurációk, amelyek maximális F-mértéket érnek el a mock és a cross-validált szekvenciák esetében, rosszul teljesíthetnek az új taxon osztályozásnál (ábra. 4b). Az optimalizálás egyszerűbb a 16S rRNS génszekvenciák nemzetségi szintű osztályozásához (ábra. 4A), valamint a gombaszekvenciák (ábra. 4c, d), amelynél a konfigurációs teljesítményt (átlagos F-mérésként mérve) hasonló konfigurációk maximalizálják mindhárom értékelés között.

ábra. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. A Scatterplots az egyes módszerkonfigurációk átlagos F-mérési pontszámait mutatja, az összes mintára átlagolva, a 16S rRNS gének osztályozásához a nemzetség szintjén (a) és a faj szintjén (B), valamint a gombák szekvenciáit a nemzetség szintjén (c) és a faj szintjén (d)

az optimális módszerkonfigurációk azonosításához a pontossági pontszám minimális küszöbértékeit állítjuk be minden értékeléshez a tartomány természetes töréseinek azonosításával a minőségi pontszámok kiválasztása módszerek és paramétertartományok, amelyek megfelelnek ezeknek a kritériumoknak. A 2. táblázat felsorolja azokat a módszerkonfigurációkat, amelyek maximalizálják a fajszintű osztályozási pontossági pontszámokat a mock community, a cross-valided és az új taxonértékelések során számos közös működési feltétel mellett. A” kiegyensúlyozott ” konfigurációk általános használatra ajánlottak, és olyan módszerek, amelyek maximalizálják az F-measure pontszámokat. A” Precision “és a” recall ” konfigurációk maximalizálják a pontosságot és a visszahívási pontszámokat a modell, a kereszt-validált és az új taxonok osztályozásánál (2.táblázat). Az” új ” konfigurációk optimalizálják az F-mérési pontszámokat az új taxonok osztályozásához, másodlagosan pedig a mock és a cross-validált teljesítményhez (2.táblázat). Ezeket a konfigurációkat olyan mintatípusokhoz ajánljuk, amelyek várhatóan nagy arányban tartalmaznak azonosítatlan fajokat, amelyek esetében a túlosztályozás túlzott lehet. Előfordulhat azonban, hogy ezek a konfigurációk nem teljesítenek optimálisan az ismert fajok osztályozásához (azaz az alulbesorolási arány magasabb lesz). A gombák esetében a “precizitáshoz” ajánlott konfigurációk jól teljesítenek az új taxonok osztályozásában (2.táblázat). A 16S rRNS génszekvenciák esetében a BLAST+, az UCLUST és a VSEARCH konszenzus osztályozók teljesítenek a legjobban az új taxon osztályozáshoz (2.táblázat).

2.táblázat optimalizált módszerek konfigurációk normál üzemi körülmények között

számítási futásidejű

a nagy áteresztőképességű szekvenálási platformok (és kísérletek) továbbra is egyre növekvő szekvenciaszámot eredményeznek, ami-még a minőségi szűrés és dereplikáció vagy a legtöbb mikrobiom—elemző csővezetékben közös operatív taxonómiai egységcsoportosítási lépések—meghaladhatják az osztályozást igénylő egyedi szekvenciák ezreit. A lekérdezési szekvenciák és referenciaszekvenciák növekvő száma elfogadhatatlan futási időkhöz vezethet, és bizonyos kísérleti körülmények között a legjobban teljesítő módszer (pontosságon, visszahíváson vagy más mutatón alapul) elégtelen lehet nagyszámú szekvencia kezelésére elfogadható időkereten belül. Például a gyors fordulatok létfontosságúak lehetnek a klinikai forgatókönyvekben, mivel a mikrobiom értékelése a klinikai gyakorlatba vagy a kereskedelmi forgatókönyvekbe fordul, amikor a nagy mintamennyiség és az ügyfél elvárásai korlátozhatják az átfutási időket és a módszer kiválasztását.

a számítási futási időt (1) A lekérdezési szekvenciák számának és (2) a referencia szekvenciák számának lineáris függvényeként értékeltük. A lineáris függőség empirikusan nyilvánvaló az ábrán. 5. Mindkét mutató esetében a lejtő a teljesítmény legfontosabb mércéje. A lehallgatás magában foglalhatja az osztályozó kiképzéséhez, a referenciaszekvenciák előfeldolgozásához, az előre feldolgozott adatok betöltéséhez vagy más “beállítási” lépésekhez szükséges időt, amelyek jelentősége csökken a szekvenciaszámok növekedésével, ezért elhanyagolható.

ábra. 5

rendszertani osztályozók futásidejű teljesítményének összehasonlítása. Futásidejű (ek) Az egyes taxonómiai osztályozókhoz vagy változtatják a lekérdezési szekvenciák számát és állandó 10 000 referenciaszekvenciát tartanak (a), vagy változtatják a referenciaszekvenciák számát és állandó 1 lekérdezési szekvenciát tartanak (b)