Optymalizacja klasyfikacji taksonomicznej sekwencji amplikonu markera genu za pomocą wtyczki qiime 2 Q2-feature-classifier
użyliśmy tax-credit do optymalizacji i porównania wielu klasyfikatorów taksonomicznych sekwencji markera genu. Oceniliśmy dwa powszechnie używane klasyfikatory, które są owinięte w QIIME 1 (klasyfikator RDP (Wersja 2.2), legacy BLAST (Wersja 2.2.22) ), dwa klasyfikatory taksonomiczne oparte na osiowaniu qiime 1 (domyślny klasyfikator UCLUST dostępny w QIIME 1 (oparty na wersji 1.2.22 q) i SortMeRNA (Wersja 2.0 29/11/2014)), dwa klasyfikatory taksonomiczne oparte na osiowaniu, nowo wydane w Q2-feature classifier (oparte na BLAST+ (Wersja 2.6.0) i VSEARCH (Wersja 2.0.3)) oraz nowa wielomianowa maszyna naiwnego Bayesa-uczenie się klasyfikatora w Q2-feature-classifier (zobacz sekcję „metody”, aby uzyskać informacje o metodach Q2-feature-classifier i dostępności kodu źródłowego). Przeprowadziliśmy pomiary parametrów, aby określić optymalne konfiguracje parametrów dla każdej metody.
Mock Community evaluations
najpierw porównaliśmy wydajność klasyfikatora na mock communities, które są sztucznie skonstruowanymi mieszaninami komórek mikrobiologicznych lub DNA połączonymi w znanych proporcjach . Wykorzystaliśmy 15 bakterii 16S rRNA genu mock społeczności i 4 grzybicze wewnętrzne transkrybowane spacer (ITS) Mock społeczności (Tabela 1) pochodzących z mockrobiota, publicznego repozytorium danych mock społeczności. Mock społeczności są przydatne do analizy porównawczej metod, ponieważ (1) w przeciwieństwie do symulowanych społeczności, pozwalają one ilościowe oceny wydajności metody w rzeczywistych warunkach operacyjnych, to znaczy, zawierające rzeczywiste błędy sekwencjonowania, które mogą być trudne do modelowania dokładnie; i (2) w przeciwieństwie do próbek naturalnych społeczności, rzeczywisty skład mock Społeczności jest znany z góry, umożliwiając ilościowe oceny dokładności profilowania społeczności.
dodatkowym priorytetem było przetestowanie wpływu ustawienia wag klas na dokładność klasyfikacji dla naiwnego klasyfikatora Bayesa zaimplementowanego w Q2-feature-classifier. W uczeniu maszynowym wagi klas lub wcześniejsze prawdopodobieństwa są wektorami wag, które określają częstotliwość, z jaką każda klasa ma być obserwowana (i powinny być odróżniane od użycia tego terminu w wnioskowaniu Bayesowskim jako rozkładu prawdopodobieństwa wag wektorów). Alternatywą dla ustawiania wag klas jest założenie, że każda sekwencja zapytań jest równie prawdopodobna, że należy do któregokolwiek z taksonów obecnych w bazie danych sekwencji odniesienia. To założenie, znane jako uniform class priors w kontekście naiwnego klasyfikatora Bayesa, jest dokonywane przez klasyfikator RDP, a jego wpływ na dokładność klasyfikacji markerów-genów nie został jeszcze potwierdzony. Założenie, że wagi klasowe są jednorodne lub do pewnego stopnia znane, wpłynie na wyniki i nie można tego uniknąć. Zbiorowiska makiety mają obficie taksonomiczne, które są dalekie od jednolitości w stosunku do zbioru taksonomii odniesienia, jak każdy rzeczywisty zbiór danych musi. Możemy je zatem wykorzystać do oceny wpływu podejmowania założeń dotyczących wag klasowych. Gdzie ustawiliśmy wagi klasowe do znanego składu taksonomicznego próbki, oznaczamy wyniki „na zamówienie”.
oceniliśmy dokładność działania klasyfikatora na próbnych sekwencjach społeczności klasyfikowanych na poziomach taksonomicznych od klasy do gatunku. Sekwencje Mock community zostały sklasyfikowane przy użyciu genu rRNA Greengenes 99% OTUs 16s lub UNITE 99% OTUs jego sekwencje referencyjne dla bakterii i grzybów mock communities, odpowiednio. Zgodnie z oczekiwaniami, dokładność klasyfikacji zmniejszyła się wraz ze wzrostem głębokości klasyfikacji, a wszystkie metody mogły przewidzieć przynależność taksonomiczną makiety sekwencji społeczności do poziomu rodzaju z medianą f-miar przekraczającą 0,8 we wszystkich zestawach parametrów (minimum: UCLUST f = 0,81, maksimum: naiwny Bayes bespoke F = 1,00) (Fig. 1a). Natomiast przynależność gatunkową przewidywano ze znacznie mniejszą i bardziej zmienną dokładnością w konfiguracjach metody (mediana f-miary minimum: UCLUST F = 0,42, maksimum: naiwny Bayes F = 0.95), podkreślając znaczenie optymalizacji parametrów (omówione bardziej szczegółowo poniżej). Rysunek 1A ilustruje wykresy liniowe średniej miary F na każdym poziomie taksonomicznym, uśrednione we wszystkich konfiguracjach klasyfikatorów; stąd wydajność klasyfikatora jest zaniżona dla niektórych klasyfikatorów, na które silnie wpływają konfiguracje parametrów lub dla których testowano szerszy zakres parametrów (np. naiwnych Bayesa). Porównywanie tylko zoptymalizowanych metod (tj., najwydajniejsze konfiguracje parametrów dla każdej metody), naiwny Bayes na zamówienie osiągnął znacznie wyższą miarę F (sparowany test t p < 0,05) (rys. 1B), przypomnienie, wskaźnik wykrywalności taksonów, wskaźnik dokładności taksonów (rys. 1c) i niższą odmienność Bray-Curtisa niż wszystkie inne metody (rys. 1d).
Mock społeczności są koniecznie uproszczone i nie mogą ocenić wydajności metody w różnych taksonach. Chociaż surowe sekwencje mogą zawierać błędy PCR i sekwencjonowania (co pozwala nam ocenić wydajność metody w Warunkach biologicznych), sekwencje, które odpowiadają oczekiwanym sekwencjom mock community, nie są usuwane z referencyjnej bazy danych przed klasyfikacją. Takie podejście replikuje normalne warunki pracy i ocenia odzyskiwanie oczekiwanych sekwencji, ale może pośrednio skłaniać się ku metodom, które znajdują dokładne dopasowanie do sekwencji zapytań, i nie przybliża niektórych naturalnych społeczności mikrobiologicznych, w których niewiele lub brak wykrytych sekwencji dokładnie pasuje do sekwencji referencyjnych. Dlatego przeprowadziliśmy symulowane klasyfikacje odczytu sekwencji (opisane poniżej) w celu dalszego testowania wydajności klasyfikatora.
Cross-validated taxonomy classification
Symulowane odczyty sekwencji, pochodzące z referencyjnych baz danych, pozwalają nam ocenić wydajność metody w większej różnorodności sekwencji, niż ogólnie obejmuje pojedyncza makieta społeczności. Najpierw oceniliśmy wydajność klasyfikatora za pomocą stratyfikacji K-krotnie krzyżowej walidacji klasyfikacji taksonomii dla symulowanych odczytów. Strategia K-fold cross-validation została nieznacznie zmodyfikowana, aby uwzględnić hierarchiczny charakter klasyfikacji taksonomicznych, które wszystkie klasyfikatory w tym badaniu (z wyjątkiem starszego BLAST) obsługują poprzez przypisanie najniższego (tj. najbardziej specyficznego) poziomu taksonomicznego, gdzie klasyfikacja przekracza określony przez użytkownika próg „zaufania” lub „konsensusu” (patrz materiały i metody). Modyfikacja polega na obcięciu każdej oczekiwanej taksonomii w każdym zestawie testowym do maksymalnego poziomu, na którym instancja tej taksonomii istnieje w zestawie treningowym.
Symulowane odczyty zostały wygenerowane z 99% genu OTUs 16S rRNA lub 99% sekwencji referencyjnych OTUs. Symulowane odczyty genu Greengenes 16S rRNA zostały wygenerowane z pełnowymiarowych genów 16S rRNA (startery 27F/1492R) i V4 (startery 515F/806R) oraz subdomen V1–3 (startery 27F / 534R). Symulowane odczyty dostępne obecnie w Tax-credit nie zawierają sztucznych błędów z PCR lub sekwencjonowania z kilku powodów. Ponieważ nasze analizy mock communities już oceniają wydajność klasyfikatora w rzeczywistych hałaśliwych warunkach eksperymentalnych, celem analiz symulowanych sekwencji jest ocena teoretycznej wydajności klasyfikatora (gdy dokładne dopasowania sekwencji nie istnieją w referencyjnej bazie danych). Dodatkowo, rurociągi analizy sekwencji amplikonu markera genu powszechnie wykorzystują metody denoisingu do modelowania profili błędów per-run, filtrowania hałaśliwych sekwencji i rozwiązywania rzeczywistych wariantów sekwencji. Dlatego w naszych ocenach symulujemy wyidealizowany (jeśli mało prawdopodobne) scenariusz teoretyczny, w którym wszystkie błędy sekwencjonowania zostały odenoizowane w celu oddzielenia wydajności klasyfikatora od wydajności odenoizera. W tym zestawie testów i poniżej dla nowych taksonów klasyfikator „na zamówienie” miał wcześniejsze prawdopodobieństwa, które zostały wywnioskowane z zestawu treningowego za każdym razem, gdy był szkolony.
Klasyfikacja cross-walidowanych odczytów była lepsza na grubszych poziomach klasyfikacji (rys. 2a), podobny do trendu obserwowanego w mock community results. W przypadku sekwencji bakteryjnych średnia dokładność klasyfikacji dla wszystkich metod spadła z niemal doskonałych wyników na poziomie rodziny (mediana domeny V4 f-measure minimum: BLAST+ f = 0,92, maksimum: legacy BLAST F = 0,99), ale nadal zachowała dokładne wyniki na poziomie gatunku (mediana minimum: BLAST+ f = 0,76, maksimum: SortMeRNA f = 0,84), w stosunku do niektórych makiety zestawów danych społeczności (rys. 2A). Sekwencje grzybów wykazywały podobną wydajność, z wyjątkiem tego, że średnia wydajność BLAST+ i VSEARCH była znacznie niższa na wszystkich poziomach taksonomicznych, co wskazuje na wysoką wrażliwość na konfiguracje parametrów, a miary F na poziomie gatunkowym były na ogół znacznie niższe (mediana minimum: BLAST+ f = 0,17, maksimum: UCLUST f = 0,45) niż klasyfikacje sekwencji bakterii (Fig. 2A).
klasyfikacje na poziomie gatunkowym sekwencji symulowanych genu 16S rRNA były najlepsze z zoptymalizowanymi konfiguracjami UCLUST i SortMeRNA dla domeny V4 oraz naiwnymi Bayesami i RDP dla domeny V1-3 i pełnowymiarowymi sekwencjami genu 16S rRNA (Fig. 2b). UCLUST uzyskał najwyższą ocenę F w swojej klasyfikacji (F = 0,51). Jednak wszystkie zoptymalizowane klasyfikatory osiągnęły podobne zakresy F-miary, z wyjątkiem starszego BLASTU dla jego sekwencji (rys. 2b).
wyniki klasyfikacji na poziomie gatunku symulowanych odczytów genu rRNA 16S były znacząco skorelowane między każdą subdomeną a sekwencjami genów o Pełnej długości (Fig. 2c). W naszych testach sekwencje pełnowymiarowe wykazywały nieco mniejszą dokładność niż subdomeny V1–3 i V4. Względna wydajność pełnowymiarowych genów rRNA 16S w porównaniu z hiperwariowalnymi odczytami subdomen jest zmienna w literaturze, a nasze wyniki dodają kolejny punkt danych do trwającej dyskusji na ten temat. Niemniej jednak klasyfikacje na poziomie gatunku dały silną korelację między konfiguracjami metod (rys. 2c) i zoptymalizowana wydajność metody (rys. 2B), co sugeruje, że wybór podkładu wpływa równomiernie na dokładność klasyfikacji we wszystkich metodach. Dlatego skupiliśmy się na odczytach subdomen V4 dla dalszych analiz.
ocena klasyfikacji nowego taksonu
Klasyfikacja nowego taksonu oferuje unikalną perspektywę zachowania klasyfikatorów, oceniając, jak klasyfikatorzy działają w przypadku zakwestionowania „nowego” kladu, który nie jest reprezentowany w referencyjnej bazie danych . Idealny klasyfikator powinien określić najbliższą linię taksonomiczną, do której należy ten takson, ale nie dalej. W tej ocenie referencyjna baza danych jest podpróbkowana K razy w celu wygenerowania zestawów sekwencji zapytań i referencji, tak jak w przypadku klasyfikacji krzyżowo zwalidowanej, ale istnieją dwa ważne rozróżnienia: (1) referencyjna baza danych używana do klasyfikacji wyklucza jakąkolwiek sekwencję, która pasuje do przynależności taksonomicznej sekwencji zapytań na poziomie taksonomicznym L, rangi taksonomicznej, w której próbuje się klasyfikację; oraz (2) jest to wykonywane na każdym poziomie taksonomicznym, w celu oceny skuteczności klasyfikacji, gdy każda metoda napotyka „nowy” gatunek, rodzaj, rodzinę itp.
z powodu tych różnic interpretacja wyników klasyfikacji nowych taksonów różni się od wyników klasyfikacji zbiorczej i krzyżowej. W przypadku tego ostatniego dokładność klasyfikacji może być oceniana na każdym poziomie taksonomicznym dla każdego wyniku klasyfikacji: średnia dokładność klasyfikacji na poziomie rodziny i gatunku ocenia te same wyniki, ale koncentruje się na różnych poziomach klasyfikacji taksonomicznej. Dla nowych taksonów, jednak, różne kwerendy i sekwencje odniesienia są zestawiane do klasyfikacji na każdym poziomie taksonomicznym i oddzielne klasyfikacje są wykonywane dla każdego. Dlatego klasyfikacje na poziomie rodziny i gatunku są niezależnymi zdarzeniami-jeden ocenia, jak dokładnie każda metoda sprawdza się, gdy napotyka „nową” rodzinę, która nie jest reprezentowana w referencyjnej bazie danych, drugi, gdy napotkany jest „nowy” gatunek.
oceny nowych taksonów wykorzystują zestaw zmodyfikowanych metryk, aby dostarczyć więcej informacji na temat tego, jakie rodzaje błędów klasyfikacyjnych występują. Precyzja, przypomnienie i obliczenia f-miary na każdym poziomie taksonomicznym l oceniają, czy dokładna klasyfikacja taksonomiczna została dokonana na poziomie L-1: na przykład „nowemu” gatunkowi należy przypisać rodzaj, ponieważ właściwa Klasa gatunków nie jest reprezentowana w bazie danych odniesienia. Każda klasyfikacja na poziomie gatunku w tym scenariuszu jest przeklasyfikowaniem (wpływającym zarówno na przypomnienie, jak i precyzję) . Overclassification jest jednym z kluczowych wskaźników oceny nowych taksonów, wskazując stopień, w jakim nowe sekwencje będą błędnie interpretowane jako znane organizmy. Ta przeklasyfikowanie jest często wysoce niepożądane, ponieważ może prowadzić na przykład do nieprawidłowej klasyfikacji nieznanych, ale najprawdopodobniej nieszkodliwych sekwencji środowiskowych jako znanych patogenów. Nowe sekwencje, które są klasyfikowane w ramach właściwego kladu, ale do mniej określonego poziomu niż L, są niedoklasyfikowalne (wpływające na przypomnienie, ale nie na precyzję) . Sekwencje, które są klasyfikowane do zupełnie innego kladu są błędnie klasyfikowane (wpływając zarówno na przypomnienie, jak i precyzję).
precyzja, przypomnienie i F-measure stopniowo zwiększają się od średniej oceny bliskiej 0.0 na poziomie klasy, osiągając szczytowe wyniki na poziomie rodzaju dla bakterii i gatunku dla grzybów (rys. 3a-c). Tendencje te są połączone ze stopniowym spadkiem wskaźników niedoszacowania i błędnej klasyfikacji dla wszystkich metod klasyfikacji, co wskazuje, że wszystkie klasyfikatory działają słabo, gdy napotykają sekwencje bez znanego dopasowania na poziomie klasy, rzędu lub rodziny (rys. 3d, f). Na poziomie gatunku UCLUST, BLAST+ i VSEARCH osiągnęły znacznie lepsze f-miary niż wszystkie inne metody klasyfikacji genów 16S rRNA (p < 0,05) (Fig. 3g). UCLUST osiągnął znacznie lepsze F-miary niż wszystkie inne metody jego klasyfikacji (rys. 3g). Wyniki Powyżej, Poniżej i misclassification są mniej pouczające dla optymalizacji klasyfikatorów dla rzeczywistych przypadków użycia, ponieważ większość metod może być zoptymalizowana, aby uzyskać niemal zerowy wynik dla każdego z tych wskaźników osobno, ale tylko poprzez ekstremalne konfiguracje, prowadzące do miar F, które byłyby niedopuszczalne w każdym scenariuszu. Należy zauważyć, że wszystkie porównania zostały dokonane między metodami zoptymalizowanymi w celu zmaksymalizowania (lub zminimalizowania) pojedynczej metryki, a zatem konfiguracje, które maksymalizują precyzję, często różnią się od tych, które maksymalizują przywoływanie lub inne metryki. Ten kompromis między różnymi metrykami omówiono bardziej szczegółowo poniżej.
ocena nowego taksonu zapewnia oszacowanie wydajności klasyfikatora w konkretnej referencyjnej bazie danych, ale jej uogólnienie jest ograniczone przez jakość dostępnych referencyjnych baz danych oraz podejście oparte na etykietach stosowane do podziału i oceny. Błędnie oznaczone i polifiletyczne klady w bazie danych, np. Grupa clostridium, zwiększają prawdopodobieństwo błędnej klasyfikacji. Uzupełniająca analiza oparta na podobieństwie sekwencji między nowym zapytaniem A górnym trafieniem odniesienia mogłaby złagodzić ten problem. Decydujemy się jednak na zastosowanie podejścia opartego na etykietach, ponieważ lepiej odzwierciedla problem biologiczny, z którym użytkownicy mogą się spodziewać, tj. przy użyciu określonej bazy danych sekwencji odniesienia (która będzie zawierała pewną ilość błędnie oznakowanych i polifiletycznych taksonów nieodłącznie związanych z obecnie dostępnymi zasobami), jakie jest prawdopodobieństwo, że klasyfikator błędnie zaklasyfikowałby Etykietę taksonomiczną?
multi-evaluation method optimization
mock community I cross-validation classification evaluations dały podobne trendy w wydajności konfiguracji, ale optymalizacja wyboru parametrów dla nowych taksonów na ogół doprowadziła do nieoptymalnych wyborów dla mock community i testów cross-validation (rys. 4). Staraliśmy się określić zależność między wydajnością konfiguracji metody dla każdej oceny i wykorzystać te informacje do wyboru konfiguracji, które działają najlepiej we wszystkich ocenach. W przypadku klasyfikacji gatunkowej sekwencji genu rRNA 16S konfiguracje metod, które osiągają maksymalne miary F dla sekwencji mock i Cross-validated, mogą działać słabo dla nowej klasyfikacji taksonów (Fig. 4B). Optymalizacja jest prostsza dla klasyfikacji sekwencji genów 16S rRNA na poziomie rodzaju (Fig. 4a) oraz dla sekwencji grzybiczych (rys. 4c, d), dla których wydajność konfiguracji (mierzona jako średnia miara F) jest zmaksymalizowana przez podobne konfiguracje wśród wszystkich trzech ocen.
aby zidentyfikować optymalne konfiguracje metod, ustalamy minimalne progi dokładności dla każdej oceny, identyfikując naturalne przerwy w zakresie oceny jakości, wyboru metod i zakresów parametrów, które spełniały te kryteria. W tabeli 2 wymieniono konfiguracje metod, które maksymalizują wyniki dokładności klasyfikacji na poziomie gatunku dla ocen pozornej społeczności, zweryfikowanych krzyżowo i nowych taksonów w kilku wspólnych warunkach operacyjnych. „Zbalansowane” konfiguracje są zalecane do ogólnego zastosowania i są metodami, które maksymalizują wyniki F-measure. Konfiguracje” Precision „i” recall ” maksymalizują precyzję i przywoływanie wyników, odpowiednio, dla klasyfikacji mock, cross-validated i novel-taxa (Tabela 2). „Novel” konfiguracje optymalizują wyniki f-measure dla nowej klasyfikacji taksonów, a po drugie dla mock i cross-validated performance (Tabela 2). Konfiguracje te są zalecane do stosowania z typami próbek, które mają zawierać duże proporcje niezidentyfikowanych gatunków, dla których przeklasyfikowanie może być nadmierne. Jednak te konfiguracje mogą nie działać optymalnie dla klasyfikacji znanych gatunków (tj. wskaźniki niedoszacowania będą wyższe). W przypadku grzybów te same konfiguracje zalecane dla „precyzji” dobrze sprawdzają się w nowej klasyfikacji taksonów (Tabela 2). Dla sekwencji genów rRNA 16S, klasyfikatory konsensusu BLAST+, UCLUST i VSEARCH najlepiej sprawdzają się w klasyfikacji nowego taksonu (Tabela 2).
czas wykonywania obliczeń
platformy sekwencjonowania o wysokiej przepustowości (i eksperymenty) nadal zwiększają liczbę sekwencji, co-nawet po filtrowaniu i dereplikacji jakości lub działaniu etapy grupowania jednostek taksonomicznych wspólne dla większości rurociągów analizy mikrobiomu—mogą przekraczać tysiące unikalnych sekwencji wymagających klasyfikacji. Rosnąca liczba sekwencji zapytań i sekwencji odniesień może prowadzić do niedopuszczalnych czasów wykonywania, a w niektórych warunkach eksperymentalnych najbardziej wydajna metoda (oparta na precyzji, przywołaniu lub innej metryce) może być niewystarczająca do obsługi dużej liczby sekwencji w akceptowalnym przedziale czasowym. Na przykład szybkie obroty mogą być niezbędne w scenariuszach klinicznych, ponieważ ocena mikrobiomu przekłada się na praktykę kliniczną lub scenariusze komercyjne, gdy duże ilości próbek i oczekiwania klientów mogą ograniczać czas realizacji i wybór metody.
oceniliśmy Runtime obliczeniowe jako funkcję liniową (1) Liczby sekwencji zapytań i (2) liczby sekwencji referencyjnych. Zależność liniowa jest empirycznie widoczna na Fig. 5. Dla obu tych wskaźników nachylenie jest najważniejszą miarą wydajności. Przechwytywanie może obejmować czas potrzebny do wytrenowania klasyfikatora, wstępnego przetworzenia sekwencji referencyjnych, załadowania wstępnie przetworzonych danych lub innych kroków „konfiguracji”, które zmniejszą znaczenie w miarę wzrostu liczby sekwencji, a zatem są nieistotne.