Articles

Optimalizace taxonomické klasifikace marker-gen sekvence amplikonu s QIIME 2 q2-funkce-třídění plugin

Jsme použili daně-úvěrové optimalizovat a porovnat více marker-gen sekvence taxonomie klasifikátory. Hodnotili jsme dva běžně používané klasifikátory, které jsou zabaleny do QIIME 1 (RDP Classifier (verze 2.2), legacy BLAST (verze 2.2.22) ), dva QIIME 1 zarovnání založené na konsensu taxonomie třídění (výchozí UCLUST klasifikátor k dispozici v QIIME 1 (na základě verze 1.2.22 q) , a SortMeRNA (verze 2.0 29/11/2014) ), dva zarovnání založené na konsensu taxonomie třídění, nově vydané v q2-funkce-klasifikátor (na základě BLAST+ (verze 2.6.0) a VYHLEDÁVACÍ (verze 2.0.3) ), a nový multinomial naive Bayes stroj-learning classifier v q2-funkce-třídění (viz „Metody“ sekce pro informace o q2-funkce-třídění metod a dostupnosti zdrojového kódu). Provedli jsme zametání parametrů, abychom určili optimální konfigurace parametrů pro každou metodu.

Ke společenství hodnocení

Jsme první vzorovým klasifikátor výkon na mock komunit, které jsou uměle vytvořené směsí z mikrobiálních buněk nebo DNA v kombinaci na známé poměry . Využili jsme 15 bakteriální 16S rRNA genu mock komunit a 4 plísňové vnitřní přepisována spacer (ITS) mock společenství (Tabulka 1) pocházel z mockrobiota , veřejné úložiště pro mock údajů společenství. Mock společenství jsou užitečné pro metodu benchmarking, protože (1) na rozdíl od simulované společenství, umožňují kvantitativní posouzení účinnosti metody v reálných provozních podmínkách, tj., zahrnující skutečné řazení chyby, které může být obtížné, aby model přesně; a (2) na rozdíl od přírodních společenství vzorků, skutečné složení předstíranou společenství je předem známo, který umožňuje kvantitativní posouzení společenství profilování přesnost.

Tabulka 1 Mock společenství v současné době integrovány do daně-úvěrové

další prioritou bylo otestovat vliv nastavení třídy závaží na přesnost klasifikace pro naive Bayes klasifikátor realizován v q2-funkce-třídění. V strojového učení, třída závaží nebo předchozí pravděpodobnosti jsou vektory vah, které určují frekvenci, na které každá třída se očekává, že bude pozorován (a měly by být odlišeny od použití tohoto termínu v rámci Bayesovské inference jako pravděpodobnostní rozložení váhy vektorů). Alternativou k nastavení třídy závaží je předpokládat, že každá sekvence dotazu je stejně pravděpodobné, že patří do některého z taxonů, které jsou přítomny v referenční databázi sekvencí. Tento předpoklad, známý jako jednotná třída záznamy v souvislosti naivní Bayesův klasifikátor, je vyroben PRV třídění , a jeho dopadu na značku-gen klasifikační přesnost má zatím být ověřeny. Předpoklad, že váhy třídy jsou jednotné nebo do určité míry známé, ovlivní výsledky a nelze se jim vyhnout. Falešná Společenství mají taxonomické hojnosti, které nejsou zdaleka jednotné oproti souboru referenčních taxonomií, jako každý skutečný soubor dat. Můžeme je proto použít k posouzení dopadu tvorby předpokladů týkajících se třídních vah. Tam, kde jsme nastavili třídní váhy na známé taxonomické složení vzorku, výsledky jsme označili „na míru“.

hodnotili jsme přesnost výkonu klasifikátoru na falešných komunitních sekvencích klasifikovaných na taxonomické úrovni od třídy přes druhy. Mock společenství sekvence byly klasifikovány pomocí Greengenes 99% OTUs 16S rRNA genu nebo SJEDNOTIT 99% OTUs JEJÍ referenční sekvence pro bakteriální a plísňové mock společenství, resp. Jak se dalo očekávat, klasifikace přesnosti snížil jako klasifikace hloubky větší, a všechny metody by mohly předpovědět, taxonomické příslušnosti mock společenství sekvence dolů do rodu úrovni s medián F-opatření ≤ 0,8 v rámci všech sad parametrů (minimální: UCLUST F = 0.81, maximální: naivní Bayes na míru F = 1.00) (Obr. 1a). Nicméně, druhová příslušnost byla předpovězena s mnohem nižší a variabilnější přesností mezi konfiguracemi metod (medián F-measure minimum: UCLUST F = 0.42, maximum: naive Bayes bespoke F = 0.95), zdůrazňující význam optimalizace parametrů (podrobněji popsáno níže). Obrázek 1a ilustruje line pozemky na mysli F-měření na každé taxonomické úrovni, v průměru napříč všemi klasifikátor konfigurace; proto, klasifikátor výkon je podceňována pro některé klasifikátory, které jsou silně ovlivněny parametr konfigurace nebo pro které širší škálu parametrů byly testovány (např. naive Bayes). Porovnání pouze optimalizovaných metod (tj., horní-provedení konfigurace parametrů pro každou metodu), naivní Bayes na míru dosaženo výrazně vyšší F-measure (párový t test, P < 0.05) (Obr. 1b), recall, míra detekce taxonů ,míra přesnosti taxonů (obr. 1c) a nižší odlišnost Bray-Curtis než všechny ostatní metody (obr. 1d).

br. 1

Klasifikátor výkon na falešný společenství datových souborů pro 16S rRNA genové sekvence (levý sloupec) a plísňové JEHO sekvence (pravý sloupec). Průměrná F-míra pro každou metodu klasifikace taxonomie (v průměru napříč všemi konfiguracemi a všemi falešnými datovými soubory Společenství) od třídy k úrovni druhů. Chybové pruhy = 95% intervaly spolehlivosti. b Průměrná F-míra pro každý optimalizovaný klasifikátor (v průměru napříč všemi falešnými společenstvími) na úrovni druhů. c průměrná míra přesnosti taxonů pro každý optimalizovaný klasifikátor (v průměru napříč všemi falešnými společenstvími) na úrovni druhů. d Průměr Bray-Curtis distance mezi očekávané mock společenství, složení a jeho složení jak předpovídal každý optimalizované třídění (v průměru přes všechny mock společenství) na úrovni druhu. Houslové grafy ukazují medián (bílý bod), kvartily (černé pruhy) a odhad hustoty jádra (housle) pro každé rozdělení skóre. Housle s různými malými písmeny mají výrazně odlišné prostředky (párový t test falešné detekce-opravena P < 0.05)

falešné komunity jsou nutně zjednodušující a nemohou posoudit výkon metody v různých taxonech. I když raw sekvence může obsahovat PCR a sekvenování chyby (což nám umožňuje posoudit účinnost metody podle biologických podmínek), sekvence, které odpovídají očekávané mock společenství sekvence nejsou odstraněny z referenční databáze před klasifikace. Tento přístup kopíruje normální provozní podmínky a posuzuje oživení očekává, že sekvence, ale může implicitně zaujatosti vůči metodám, které najít přesnou shodu dotazu sekvence, a není přibližné některé přírodní mikrobiální společenstva, v nichž jen málo nebo žádné zjištěné sekvence přesně shodovat s referenční sekvencí. Proto jsme provedli simulované klasifikace čtení sekvencí (popsané níže), abychom dále testovali výkon klasifikátoru.

Cross-validace taxonomie klasifikace

Simulované sekvence čte, odvozené od referenční databáze, nám umožňují posoudit účinnost metody přes větší rozmanitost sekvencí než jeden mock společenství obecně zahrnuje. Nejprve jsme vyhodnotili výkon klasifikátoru pomocí stratifikované k-fold křížové validace klasifikace taxonomie pro simulované čtení. Strategie křížové validace k-fold je mírně upravena tak, aby zohledňovala hierarchickou povahu taxonomických klasifikací, které všechny klasifikátory v této studii (s výjimkou legacy BLAST) zpracovávají přiřazením nejnižší (tj. Změnou je zkrátit očekávanou taxonomii v každé zkušební sadě na maximální úroveň, na které existuje instance této taxonomie ve výcvikové sadě.

simulované čtení byly generovány z Greengenů 99% Otus 16S rRNA genu nebo sjednotit 99% OTUs své referenční sekvence. Greengenes 16S rRNA genu simulované čte byly generovány z full-délka 16S rRNA genů (primery 27F/1492R) a V4 (primery 515F/806R) a V1–3 subdomény (primery 27F/534R). Simulované čte v současné době k dispozici v daňových úvěrů nezahrnují umělé chyby z PCR nebo sekvenování z několika důvodů. Jako náš mock společenství analýzy již posoudit klasifikátor výkon pod pravou hlučné experimentální podmínky, cílem analýzy simulované sekvence je posoudit teoretický klasifikátor výkon (když přesný sled zápasů neexistují v referenční databáze). Navíc, marker-gen sekvence amplikonu analýzy potrubí běžně využívají šumu metod na model per-spustit chyby profily, filtr hlučný sekvence, a řešit skutečné pořadí variant. Proto v našem hodnocení, budeme simulovat idealizované (v případě nepravděpodobné) teoretický scénář, ve kterém všechny sekvenování chyby byly denoised s cílem oddělit třídící výkon z denoiser výkon. V této sadě testů a níže pro nové taxony, klasifikátor „na míru“ měl předchozí pravděpodobnosti, které byly odvozeny z tréninkové sady pokaždé, když byl vyškolen.

klasifikace křížově validovaných čtení byla provedena lépe na hrubších úrovních klasifikace (obr. 2a), podobný trendu pozorovanému u falešných výsledků Společenství. Pro bakteriální sekvence, průměrná přesnost klasifikace pro všechny metody se snížil z téměř perfektní skóre na úrovni rodiny (V4 domény, medián F-opatření minimální: BLAST+ F = 0.92, maximální: legacy BLAST F = 0.99), ale ještě udržel přesné skóre na úrovni druhu (medián minimum: BLAST+ F = 0.76, maximální: SortMeRNA F = 0.84), relativní k nějaké ukázky společenství datové sady (Obr. 2a). Houbových sekvencí vykazovaly podobný výkon, s tou výjimkou, že tím BLAST+ a VYHLEDÁVACÍ výkon byl výrazně nižší na všech taxonomických úrovních, což naznačuje vysokou citlivost na parametr konfigurace, a druhů-úroveň F-opatření byla obecně mnohem nižší (medián minimum: BLAST+ F = 0.17, maximální: UCLUST F = 0.45), než ty, bakteriální sekvence klasifikace (Obr. 2a).

br. 2

Klasifikátor výkon na cross-validace sekvence datových souborů. Přesnost klasifikace 16S rRNA genu v4 subdomény (první řada), V1–3 subdomény (druhá řada), full-length 16S rRNA genu (třetí tow), a plísňové jeho sekvence (čtvrtý řádek). Průměrná F-míra pro každou metodu klasifikace taxonomie (zprůměrovaná napříč všemi konfiguracemi a všemi křížově ověřenými datovými soubory sekvencí) od třídy k úrovni druhů. Chybové pruhy = 95% intervaly spolehlivosti. b Průměrná F-míra pro každý optimalizovaný klasifikátor (zprůměrovaná napříč všemi křížově validovanými sadami sekvencí) na úrovni druhů. Housle s různými malými písmeny mají výrazně odlišné prostředky (párový t-test falešné detekce-opravena P < 0.05). C korelace mezi výkonem F-measure pro každou metodu / konfigurační klasifikaci subdomény v4 (osa x), subdomény V1-3 (osa y) a sekvencí genů rRNA 16S v plné délce (osa Z). Vložka uvádí hodnotu Pearson R2 pro každou párovou korelaci; každá korelace je významná (P < 0. 001)

Druhy-úroveň klasifikace 16S rRNA genu simulované sekvence byly nejlepší s optimalizovaným UCLUST a SortMeRNA konfigurace pro V4 domény, a naivní Bayes a PRV pro V1–3 domény, a full-délka 16S rRNA genové sekvence (Obr. 2b). UCLUST dosáhl nejvyšší F-míry pro svou klasifikaci (F = 0,51). Všechny optimalizované klasifikátory však dosáhly podobných rozsahů měření F, s výjimkou staršího výbuchu pro jeho sekvence (obr. 2b).

Druhy-klasifikace úroveň výkonu 16S rRNA genu simulované čte významně koreloval mezi každou subdoménu a full-délka genových sekvencí (Obr. 2c). V našich testech vykazovaly sekvence plné délky mírně nižší přesnost než subdomény V1-3 a V4. Relativní výkon full-délka 16S rRNA geny versus hypervariabilní subdoménu čte, je proměnná v literatuře , a naše výsledky, přidat další data poukazují na pokračující diskuse na toto téma. Klasifikace na úrovni druhů však přinesly silnou korelaci mezi konfiguracemi metod (obr. 2c) a optimalizovaný výkon metody (obr. 2b), což naznačuje, že volba primeru ovlivňuje přesnost klasifikace rovnoměrně napříč všemi metodami. Proto jsme se zaměřili na čtení subdomény V4 pro následné analýzy.

Román taxonu vyhodnocení klasifikace

Román taxonu klasifikace nabízí jedinečný pohled na třídění chování, posuzování, jak klasifikátory provést, když napadal s „román“ clade, že není zastoupena v referenční databázi . Ideální klasifikátor by měl identifikovat nejbližší taxonomickou linii, do které tento taxon patří, ale ne dále. V tomto hodnocení, odkaz databáze je subsampled k krát pro generování dotazu a referenční sekvence nastaví, jak pro cross-validace klasifikace, ale dva důležité rozdíly: (1) referenční databázi, která se používá pro klasifikaci vylučuje jakoukoli sekvenci, která odpovídá taxonomické příslušnosti dotazu sekvence na taxonomické úrovni L, taxonomické pozice, na níž klasifikace je vyžadována; a (2) se provádí na každé taxonomické úrovni, za účelem posouzení klasifikace výkonem, když každá metoda narazí na „nové“ druhy, rod, rodina, atd.

vzhledem k těmto rozdílům se interpretace nových výsledků klasifikace taxonů liší od interpretace falešných komunitních a křížově ověřených klasifikací. Za druhé, klasifikace přesnost může být hodnocena na každé taxonomické úrovni pro každou klasifikaci výsledek: průměrná přesnost klasifikace na úrovni rodiny a na úrovni druhu vyhodnotit stejné výsledky, ale zaměřit se na různé taxonomické úrovně klasifikace. Pro nové taxony, nicméně, pro klasifikaci na každé taxonomické úrovni se sestavují různé posloupnosti dotazů a referencí a pro každou se provádějí samostatné klasifikace. Proto, klasifikace na rodinu a na úrovni druhu jsou nezávislé jevy—jeden hodnotí, jak přesně každá metoda provede, když narazí na „nové“ rodině, která není zastoupena v referenční databázi, jiné, když „nových“ druhů se setkáváme.

nová hodnocení taxonů používají sadu upravených metrik, které poskytují více informací o tom, jaké typy klasifikačních chyb se vyskytují. Přesnost, odvolání, a výpočty F-opatření na každé taxonomické úrovni L posoudit, zda byla provedena přesná klasifikace taxonomie na úrovni L-1: například „novému“ druhu by měl být přiřazen Rod, protože správná třída druhů není v referenční databázi zastoupena. Jakákoli klasifikace na úrovni druhů v tomto scénáři je overclassification (ovlivňující jak odvolání, tak přesnost). Overclassification je jednou z klíčových metrik pro hodnocení nových taxonů, což naznačuje, do jaké míry budou nové sekvence nesprávně interpretovány jako známé organismy. Tato nadměrná klasifikace je často vysoce nežádoucí, protože může vést například k nesprávné klasifikaci neznámých, ale nejpravděpodobněji neškodných environmentálních sekvencí jako známých patogenů. Nové sekvence, které jsou klasifikovány ve správném kladu, ale na méně specifickou úroveň než L, jsou nedostatečně klasifikovány (ovlivňují odvolání, ale ne přesnost). Sekvence, které jsou zařazeny do zcela odlišného kladu, jsou nesprávně klasifikovány (ovlivňují jak odvolání, tak přesnost).

přesnost, vyvolání a F-měření se postupně zvyšují z průměrných skóre poblíž 0.0 na úrovni třídy, dosažení maximálního skóre na úrovni rodu u bakterií a úrovně druhů u hub (obr. 3a–c). Tyto trendy jsou spárovány s postupným poklesem underclassification a chybnou klasifikaci sazby pro všechny klasifikační metody, což znamená, že všechny klasifikátory provádět špatně, když se setkají sekvence s žádné známé zápas na třídu, pořadí, nebo rodinné úrovni (Obr. 3d, f). Na úrovni druhu, UCLUST, BLAST+ a VYHLEDÁVACÍ dosaženo výrazně lepší F-opatření než všechny ostatní metody pro 16S rRNA genu klasifikací (P < 0.05) (Obr. 3g). UCLUST dosáhl výrazně lepších F-opatření než všechny ostatní metody pro své klasifikace (obr. 3g). Nad-, pod-, a chybnou klasifikaci skóre jsou méně informativní pro optimalizaci klasifikátory pro reálné případy použití, jako většina metod by mohla být optimalizovány tak, aby výnos téměř nulové skóre pro každý z těchto poměrů samostatně, ale pouze prostřednictvím extrémních konfiguracích, což vede k F-opatření, která by nepřijatelné, podle jakéhokoli scénáře. Všimněte si, že všechna srovnání byla provedena mezi metody optimalizovány k maximalizaci (nebo minimalizaci) jednu metriku, a tedy konfigurace, které maximalizují přesnost jsou často odlišné od těch, které maximalizují odvolání nebo jiné metriky. Tento kompromis mezi různými metrikami je podrobněji popsán níže.

br. 3

Klasifikátor výkon na román-taxony simulované sekvence datových souborů pro 16S rRNA genové sekvence (levý sloupec) a plísňové JEHO sekvence (pravý sloupec). a–f, Průměr F-measure (), precision (b), recall (c), overclassification (d), underclassification (e) a chybnou klasifikaci (f) pro každé taxonomie klasifikace metodou (v průměru přes všechny konfigurace a všech nových taxonů sekvence datových souborů) z kmene na úrovni druhu. Chybové pruhy = 95% intervaly spolehlivosti. b Průměrná F-míra pro každý optimalizovaný klasifikátor (zprůměrováno na všechny nové datové sady taxonů) na úrovni druhů. Housle s různými malými písmeny mají výrazně odlišné prostředky (párový t test falešné detekce-opravena P < 0.05)

román taxonu hodnocení poskytuje odhad klasifikátor výkon dané konkrétní referenční databáze, ale jeho zobecnění je omezená kvalitou referenční databáze k dispozici, a podle štítku-na základě přístupu, který se používá pro rozdělení a hodnocení. Mislabeled a polyfyletic clades v databázi, například clostridium group, zvyšují pravděpodobnost nesprávné klasifikace. Komplementární analýza založená na sekvenční podobnosti mezi novým dotazem a nejlepším referenčním hitem by mohla tento problém zmírnit. Nicméně, jsme se rozhodli použít štítek-přístup na základě, protože to lépe odráží biologický problém, že uživatelé mohou očekávat, že setkat, tj. pomocí určité referenční sekvence databáze (která bude obsahovat nějaké množství mislabeled a polyphyletic taxony, které vlastní v současné době k dispozici zdroje), jak pravděpodobné je klasifikátor k misclassify taxonomické označení?

Multi-hodnocení metoda optimalizace

mock společenství a cross-validace klasifikace hodnocení přineslo podobné trendy v konfiguraci výkonu, ale optimalizaci parametrů volby pro román taxonů obecně vedlo k rozhodnutí, suboptimální pro mock společenství a cross-validační testy (Obr. 4). Snažili jsme se určit vztah mezi výkonem konfigurace metody pro každé vyhodnocení a pomocí těchto informací vybrat konfigurace, které fungují nejlépe ve všech hodnoceních. U 16S klasifikace genové sekvence rRNA na úrovni druhů mohou konfigurace metod, které dosahují maximálních F-opatření pro falešné a křížově validované sekvence, fungovat špatně pro novou klasifikaci taxonů (obr. 4b). Optimalizace je jednodušší pro klasifikaci genových sekvencí 16S rRNA na úrovni rodu (obr. 4a) a pro houbové sekvence (obr. 4c, d), pro které je výkon konfigurace (měřeno jako střední F-opatření) maximalizován podobnými konfiguracemi mezi všemi třemi hodnoceními.

br. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplots ukázat na mysli F-měření skóre pro každou metodu konfigurace, v průměru všech vzorků, klasifikace 16S rRNA genů na úrovni rodu (a) a úrovni druhu (b), a plísňové JEHO sekvence na úrovni rodu (c) a úrovni druhu (d)

identifikovat optimální způsob konfigurace, jsme nastavit přesnost skóre minimální prahové hodnoty pro každé hodnocení určením přirozené přestávky v rozmezí skóre kvality, výběru metody a rozsahy parametrů, která tato kritéria splňuje. Tabulka 2 uvádí způsob konfigurace, které maximalizují druhů-úroveň klasifikace přesnost skóre pro mock společenství, cross-validace, a román taxonu hodnocení v rámci několika společných provozních podmínek. „Vyvážené“ konfigurace se doporučují pro všeobecné použití a jsou metodami, které maximalizují skóre F-measure. Konfigurace“ Precision „a“ recall “ maximalizují skóre přesnosti a vyvolání pro falešné, křížově ověřené a nové taxony (Tabulka 2). „Nové“ konfigurace optimalizují skóre F-measure pro novou klasifikaci taxonů a sekundárně pro falešný a křížově ověřený výkon (Tabulka 2). Tyto konfigurace se doporučují pro použití s typy vzorků, u nichž se očekává, že budou obsahovat velké podíly neidentifikovaných druhů, u nichž může být nadměrná klasifikace nadměrná. Tyto konfigurace však nemusí fungovat optimálně pro klasifikaci známých druhů (tj. U hub fungují stejné konfigurace doporučené pro „přesnost“ dobře pro novou klasifikaci taxonů (Tabulka 2). Pro 16S rRNA genové sekvence, Blast+, UCLUST a vsearch konsensuální klasifikátory nejlépe fungují pro novou klasifikaci taxonů (Tabulka 2).

Tabulka 2 Optimalizované metody konfigurace pro standardní provozní podmínky

Výpočetní runtime

High-throughput sekvenování platformy (a experimenty) i nadále přinést rostoucí posloupnosti se počítá, které—i po filtrování kvality a dereplication nebo operační taxonomické jednotky clustering kroky společné pro většinu mikrobiomu analýzy potrubí—může být vyšší než tisíce unikátních sekvencí, které potřebují klasifikace. Zvyšující se počet dotazů sekvence a odkazy sekvencí může vést k nepřijatelné runtime, a za určitých experimentálních podmínek, top-provádějící metoda (založená na přesnosti, připomeňme, nebo nějaký jiný metrický) mohou být nedostatečné pro zpracování velkého počtu sekvencí v přijatelné lhůtě. Například, rychlý program může být zásadní v rámci klinických scénářů, jak mikrobiomu hodnocení se stává přeloženy do klinické praxe, nebo obchodní scénáře, kdy velké objemy vzorku a očekávání klienta může omezit obrátek a metody výběru.

hodnotili jsme výpočetní runtime jako lineární funkci (1) počtu sekvencí dotazů a (2) počtu referenčních sekvencí. Lineární závislost je empiricky patrná na obr. 5. Pro obě tyto metriky je sklon nejdůležitějším měřítkem výkonu. Intercept může zahrnovat množství čas potřebný k trénovat klasifikátor, předběžně zpracovat referenční sekvence, zatížení předzpracovaná data, nebo jiné „nastavení“ kroky, které sníží význam jako sekvence počty rostou, a proto je zanedbatelný.

br. 5

Runtime porovnání výkonu taxonomie klasifikátory. Runtime (y) pro každé taxonomie třídění buď různý počet dotaz sekvencí a udržování konstantní 10,000 referenční sekvence (a), nebo různý počet referenčních sekvencí a udržování konstantní 1 sekvence dotazu (b)