Articles

Ottimizzazione della classificazione tassonomica delle sequenze amplicone marker-gene con QIIME 2’s q2-feature-classifier plugin

Abbiamo usato tax-credit per ottimizzare e confrontare più classificatori tassonomia sequenza marker-gene. Abbiamo valutato due classificatori comunemente usati che sono avvolti in QIIME 1 (Classificatore RDP (versione 2.2), legacy BLAST (versione 2.2.22) ), due QIIME 1 allineamento consenso tassonomia classificatori (impostazione predefinita UCLUST di classificazione disponibili in QIIME 1 (in base alla versione 1.2.22 q) , e SortMeRNA (versione 2.0 29/11/2014) ), due allineamento consenso tassonomia classificatori appena uscito nel q2-funzione-classificazione (basato su BLAST+ (versione 2.6.0) e VSEARCH (versione 2.0.3) ), e un nuovo multinomiale naive Bayes apprendimento automatico di classificazione in q2-funzione-classificazione (vedere “Metodi” sezione per informazioni su q2-funzione-classificazione dei metodi e disponibilità del codice sorgente). Abbiamo eseguito spazza parametri per determinare le configurazioni ottimali dei parametri per ciascun metodo.

Valutazioni di comunità simulate

Per prima cosa abbiamo confrontato le prestazioni dei classificatori su comunità simulate, che sono miscele artificialmente costruite di cellule microbiche o DNA combinate a rapporti noti . Abbiamo utilizzato 15 comunità finte di geni batterici 16S rRNA e 4 comunità finte di spaziatori trascritti interni fungini (ITS) (Tabella 1) provenienti da mockrobiota , un repository pubblico per i dati della comunità simulata. Le comunità simulate sono utili per il benchmarking del metodo perché (1) a differenza delle comunità simulate, consentono valutazioni quantitative delle prestazioni del metodo in condizioni operative effettive, ovvero incorporando errori di sequenziamento reali che possono essere difficili da modellare con precisione; e (2) a differenza dei campioni di comunità naturali, la composizione effettiva di una comunità simulata è nota in anticipo, consentendo

Tabella 1 Finto di comunità integrata fiscali-credito

Un ulteriore priorità era quello di testare l’effetto dell’impostazione di classe pesi accuratezza di classificazione per il naive Bayes classifier implementato in q2-funzione-classificazione. Nell’apprendimento automatico, i pesi di classe o le probabilità precedenti sono vettori di pesi che specificano la frequenza con cui ogni classe dovrebbe essere osservata (e dovrebbe essere distinta dall’uso di questo termine sotto inferenza bayesiana come distribuzione di probabilità dei vettori di pesi). Un’alternativa all’impostazione dei pesi di classe consiste nell’assumere che ogni sequenza di query sia ugualmente probabile che appartenga a uno qualsiasi dei taxa presenti nel database delle sequenze di riferimento. Questa ipotesi, nota come priori di classe uniformi nel contesto di un classificatore ingenuo di Bayes, è fatta dal classificatore RDP e il suo impatto sull’accuratezza della classificazione dei geni marcatori deve ancora essere convalidato. Assumere che i pesi della classe siano uniformi o noti in una certa misura influenzerà i risultati e non può essere evitato. Le comunità fittizie hanno abbondanze tassonomiche che sono tutt’altro che uniformi sull’insieme delle tassonomie di riferimento, come ogni set di dati reale deve. Possiamo quindi utilizzarli per valutare l’impatto delle ipotesi relative ai pesi di classe. Dove abbiamo impostato i pesi di classe alla composizione tassonomica nota di un campione, abbiamo etichettato i risultati “su misura”.

Abbiamo valutato l’accuratezza delle prestazioni dei classificatori su sequenze di comunità simulate classificate a livelli tassonomici dalla classe alla specie. Le sequenze di comunità simulate sono state classificate utilizzando il gene Greenengenes 99% OTUs 16S rRNA o UNITE 99% OTUs LE sue sequenze di riferimento per le comunità simulate batteriche e fungine, rispettivamente. Come previsto, l’accuratezza della classificazione diminuiva all’aumentare della profondità di classificazione e tutti i metodi potevano prevedere l’affiliazione tassonomica delle sequenze di comunità simulate fino al livello del genere con misure F mediane superiori a 0,8 in tutti i set di parametri (minimo: UCLUST F = 0,81, massimo: naive Bayes bespoke F = 1,00) (Fig. 1 bis). Tuttavia, l’affiliazione delle specie è stata prevista con una precisione molto più bassa e più variabile tra le configurazioni del metodo (minimo F-measure mediano: UCLUST F = 0.42, massimo: naive Bayes bespoke F = 0.95), evidenziando l’importanza dell’ottimizzazione dei parametri (discussa più dettagliatamente di seguito). La figura 1a illustra i diagrammi di linea della misura F media a ciascun livello tassonomico, media tra tutte le configurazioni dei classificatori; quindi, le prestazioni dei classificatori sono sottostimate per alcuni classificatori che sono fortemente influenzati dalle configurazioni dei parametri o per i quali è stata testata una gamma più ampia di parametri (ad esempio, naive Bayes). Confrontando solo metodi ottimizzati (es., le configurazioni dei parametri più performanti per ciascun metodo), naive Bayes bespoke ha raggiunto una misura F significativamente più elevata (test t accoppiato P < 0.05) (Fig. 1b), richiamo, tasso di rilevamento taxon, tasso di precisione taxon (Fig. 1c), e minore dissomiglianza Bray-Curtis rispetto a tutti gli altri metodi (Fig. 1d).

Fig. 1

Prestazioni classificatore su set di dati comunità finto per 16S sequenze geniche rRNA (colonna di sinistra) e fungina SUE sequenze (colonna di destra). una media F-measure per ogni metodo di classificazione tassonomia (media in tutte le configurazioni e tutti i set di dati comunità finto) da classe a livello di specie. Barre di errore = 95% intervalli di confidenza. b Media F-misura per ogni classificatore ottimizzato (media tra tutte le comunità fittizie) a livello di specie. c Tasso medio di precisione del taxon per ogni classificatore ottimizzato (in media tra tutte le comunità simulate) a livello di specie. d Distanza media di Bray-Curtis tra la composizione della comunità simulata prevista e la sua composizione come previsto da ciascun classificatore ottimizzato (media tra tutte le comunità simulate) a livello di specie. Le trame di violino mostrano la mediana (punto bianco), i quartili (barre nere) e la stima della densità del kernel (violino) per ogni distribuzione del punteggio. I violini con lettere minuscole diverse hanno mezzi significativamente diversi (test t accoppiato con tasso di rilevamento falso-corretto P < 0.05)

Le comunità fittizie sono necessariamente semplicistiche e non possono valutare le prestazioni del metodo in una vasta gamma di taxa. Sebbene le sequenze grezze possano contenere errori di PCR e sequenziamento (che ci consentono di valutare le prestazioni del metodo in condizioni biologiche), le sequenze che corrispondono alle sequenze di comunità simulate previste non vengono rimosse dal database di riferimento prima della classificazione. Questo approccio replica le normali condizioni operative e valuta il recupero delle sequenze attese, ma può implicitamente influenzare i metodi che trovano una corrispondenza esatta con le sequenze di query e non approssimare alcune comunità microbiche naturali in cui poche o nessuna sequenza rilevata corrisponde esattamente alle sequenze di riferimento. Quindi, abbiamo eseguito le classificazioni di lettura della sequenza simulata (descritte di seguito) per testare ulteriormente le prestazioni del classificatore.

Classificazione tassonomica cross-validata

Le letture di sequenze simulate, derivate da database di riferimento, ci consentono di valutare le prestazioni del metodo attraverso una maggiore diversità di sequenze rispetto a una singola comunità di simulazione generalmente comprende. Per prima cosa abbiamo valutato le prestazioni del classificatore utilizzando la convalida incrociata stratificata di k-fold della classificazione della tassonomia per le letture simulate. Il k-fold cross-validation strategia è leggermente modificato per tenere conto della natura gerarchica delle classificazioni tassonomiche, che tutti i classificatori in questo studio (con l’eccezione di legacy BLAST) maniglia assegnando il più basso (cioè, più specifico) livello tassonomico, qualora la classificazione supera alcuni definito dall’utente “fiducia” o “consenso” soglia (vedi materiali e metodi). La modifica consiste nel troncare qualsiasi tassonomia prevista in ciascun set di test al livello massimo al quale esiste un’istanza di tale tassonomia nel set di addestramento.

Letture simulate sono stati generati da Greengenes 99% OTUS 16S gene rRNA o UNIRE 99% OTUs SUE sequenze di riferimento. Greengenes 16S rRNA gene simulato letture sono stati generati da full-length 16S rRNA geni (primer 27F/1492R) e V4 (primer 515F/806R) e V1–3 sottodomini (primer 27F/534R). Le letture simulate attualmente disponibili nel credito d’imposta non incorporano errori artificiali da PCR o sequenziamento per diversi motivi. Poiché le nostre analisi delle comunità simulate valutano già le prestazioni del classificatore in vere condizioni sperimentali rumorose, l’obiettivo delle analisi delle sequenze simulate è valutare le prestazioni teoriche del classificatore (quando le corrispondenze esatte della sequenza non esistono nel database di riferimento). Inoltre, le pipeline di analisi della sequenza di amplicon di marker-gene utilizzano comunemente metodi di denoising per modellare i profili di errore per-run, filtrare le sequenze rumorose e risolvere le varianti di sequenza effettive. Quindi, nelle nostre valutazioni, simuliamo uno scenario teorico idealizzato (se improbabile) in cui tutti gli errori di sequenziamento sono stati denoizzati al fine di separare le prestazioni del classificatore dalle prestazioni del denoiser. In questa serie di test e sotto per i nuovi taxa, il classificatore “su misura” aveva probabilità precedenti che venivano dedotte dal set di allenamento ogni volta che veniva addestrato.

Classificazione delle letture cross-validate eseguite meglio a livelli di classificazione più grossolani (Fig. 2a), simile alla tendenza osservata nei risultati comunitari simulati. Per le sequenze batteriche, l’accuratezza media della classificazione per tutti i metodi è diminuita dai punteggi quasi perfetti a livello familiare (V4 domain median F-measure minimum: BLAST + F = 0.92, maximum: legacy BLAST F = 0.99), ma ha comunque mantenuto punteggi accurati a livello di specie (median minimum: BLAST + F = 0.76, maximum: SortMeRNA F = 0.84), rispetto ad alcuni set di dati 2 bis). Le sequenze fungine mostravano prestazioni simili, con l’eccezione che le prestazioni medie di BLAST+ e VSEARCH erano marcatamente inferiori a tutti i livelli tassonomici, indicando un’elevata sensibilità alle configurazioni dei parametri e le misure F a livello di specie erano in generale molto più basse (minimo mediano: BLAST+ F = 0.17, massimo: UCLUST F = 0.45) rispetto a quelle delle classificazioni delle sequenze batteriche (Fig. 2 bis).

Fig. 2

Prestazioni del classificatore su set di dati di sequenza convalidati. Precisione di classificazione di 16S rRNA gene V4 sottodominio (prima fila), V1–3 sottodominio (seconda fila), full-length 16S rRNA gene (terzo traino), e fungine sue sequenze (quarta fila). una media F-misura per ogni metodo di classificazione tassonomia (media tra tutte le configurazioni e tutti i set di dati di sequenza cross-validati) dal livello di classe a specie. Barre di errore = 95% intervalli di confidenza. b Media F-misura per ogni classificatore ottimizzato (media tra tutti i set di dati di sequenza cross-validated) a livello di specie. Violini con diverse lettere minuscole hanno significativamente diversi mezzi (accoppiato t-test falso tasso di rilevamento-corretto P < 0.05). c correlazione tra le prestazioni F-measure per ogni metodo/configurazione classificazione di sottodominio V4 (asse x), sottodominio V1–3 (asse y), e sequenze geniche rRNA 16S full-length (asse z). Inset elenca il valore Pearson R2 per ogni correlazione a coppie; ogni correlazione è significativa (P < 0.001)

Le classificazioni a livello di specie delle sequenze simulate del gene rRNA 16S sono state le migliori con le configurazioni ottimizzate UCLUST e SortMeRNA per il dominio V4 e naive Bayes e RDP per il dominio V1-3 e le sequenze geniche rRNA 16S a lunghezza intera (Fig. 2 ter). UCLUST ha ottenuto la misura F più alta per la SUA classificazione (F = 0,51). Tuttavia, tutti i classificatori ottimizzati hanno raggiunto intervalli di misura F simili, ad eccezione di legacy BLAST per le SUE sequenze (Fig. 2 ter).

Le prestazioni di classificazione a livello di specie delle letture simulate del gene rRNA 16S sono state significativamente correlate tra ciascun sottodominio e le sequenze geniche a lunghezza intera (Fig. 2 quater). Nei nostri test, le sequenze a lunghezza intera hanno mostrato una precisione leggermente inferiore rispetto ai sottodomini V1–3 e V4. Le prestazioni relative dei geni rRNA 16S a lunghezza intera rispetto alle letture di sottodomini ipervariabili sono variabili in letteratura e i nostri risultati aggiungono un altro punto di dati alla discussione in corso su questo argomento. Tuttavia, le classificazioni a livello di specie hanno prodotto una forte correlazione tra le configurazioni del metodo (Fig. 2c) e prestazioni del metodo ottimizzate (Fig. 2b), suggerendo che la scelta del primer influisce uniformemente sull’accuratezza della classificazione in tutti i metodi. Quindi, ci siamo concentrati sulle letture del sottodominio V4 per le analisi a valle.

Valutazione della classificazione dei nuovi taxon

La classificazione dei nuovi taxon offre una prospettiva unica sul comportamento dei classificatori, valutando come i classificatori si comportano quando vengono sfidati con un clade “nuovo” che non è rappresentato nel database di riferimento . Un classificatore ideale dovrebbe identificare il lignaggio tassonomico più vicino a cui appartiene questo taxon, ma non oltre. In questa valutazione, un database di riferimento è subsampled k volte a generare la query e la sequenza di riferimento imposta, come per la convalida incrociata di classificazione, ma con due importanti differenze esistono: (1) la banca dati di riferimento utilizzati per la classificazione esclude qualsiasi sequenza che corrisponde tassonomico di appartenenza del query sequenze a livello tassonomico L, tassonomica livello di classificazione è in corso il tentativo; e (2) questo viene eseguito a ogni livello tassonomico, al fine di valutare le prestazioni di classificazione quando ogni metodo incontra un “romanzo” specie, genere, famiglia, ecc.

A causa di queste differenze, l’interpretazione dei nuovi risultati della classificazione dei taxon è diversa da quella delle comunità simulate e delle classificazioni cross-validate. Per quest’ultimo, l’accuratezza della classificazione può essere valutata a ciascun livello tassonomico per ogni risultato di classificazione: l’accuratezza media della classificazione a livello di famiglia e di specie valuta gli stessi risultati ma si concentra su diversi livelli tassonomici di classificazione. Per i nuovi taxa, tuttavia, vengono compilate diverse sequenze di query e di riferimento per la classificazione a ciascun livello tassonomico e vengono eseguite classificazioni separate per ciascuno. Quindi, le classificazioni a livello di famiglia e specie sono eventi indipendenti: uno valuta la precisione con cui ogni metodo si comporta quando incontra una famiglia “nuova” che non è rappresentata nel database di riferimento, l’altro quando si incontra una specie “nuova”.

Le nuove valutazioni del taxon impiegano una serie di metriche modificate per fornire maggiori informazioni sui tipi di errori di classificazione. Precisione, richiamo, e F-misura calcoli ad ogni livello tassonomico L valutare se una classificazione tassonomia accurata è stata fatta a livello L-1: ad esempio, a una specie” nuova ” dovrebbe essere assegnato un genere, perché la classe di specie corretta non è rappresentata all’interno del database di riferimento. Qualsiasi classificazione a livello di specie in questo scenario è una overclassificazione (che influisce sia sul richiamo che sulla precisione) . L’overclassificazione è una delle metriche chiave per la valutazione dei nuovi taxa, che indica il grado in cui le nuove sequenze saranno interpretate erroneamente come organismi noti. Questa overclassificazione è spesso altamente indesiderabile perché può portare, ad esempio, alla classificazione errata di sequenze ambientali sconosciute ma molto probabilmente innocue come patogeni noti. Le nuove sequenze classificate all’interno del clade corretto, ma a un livello meno specifico di L, sono sottoclassificate (che influiscono sul richiamo ma non sulla precisione) . Le sequenze classificate in un clade completamente diverso sono classificate erroneamente (influenzando sia il richiamo che la precisione) .

Precision, recall e F-measure aumentano gradualmente dai punteggi medi vicini a 0.0 a livello di classe, raggiungendo punteggi di picco a livello di genere per i batteri e a livello di specie per i funghi (Fig. 3 bis-c). Queste tendenze sono associate a diminuzioni graduali dei tassi di sottoclassificazione e di errata classificazione per tutti i metodi di classificazione, indicando che tutti i classificatori eseguono male quando incontrano sequenze senza corrispondenze note a livello di classe, ordine o famiglia (Fig. 3d, f). A livello di specie, UCLUST, BLAST + e VSEARCH hanno ottenuto misure F significativamente migliori di tutti gli altri metodi per le classificazioni dei geni 16S rRNA (P < 0.05) (Fig. 3g). UCLUST ha ottenuto misure F significativamente migliori di tutti gli altri metodi per le SUE classificazioni (Fig. 3g). I punteggi di over -, under-e misclassification sono meno informativi per ottimizzare i classificatori per casi d’uso reali, poiché la maggior parte dei metodi potrebbe essere ottimizzata per ottenere punteggi vicini allo zero per ciascuna di queste metriche separatamente, ma solo attraverso configurazioni estreme, portando a misure F che sarebbero inaccettabili in qualsiasi scenario. Si noti che tutti i confronti sono stati effettuati tra metodi ottimizzati per massimizzare (o minimizzare) una singola metrica, e quindi le configurazioni che massimizzano la precisione sono spesso diverse da quelle che massimizzano il richiamo o altre metriche. Questo trade-off tra diverse metriche è discusso in modo più dettagliato di seguito.

Fig. 3

Classificatore prestazioni su novel-taxa sequenza simulata set di dati per 16 S sequenze di geni rRNA (colonna di sinistra) e fungine SUE sequenze (colonna di destra). a-f, Media F-measure (a), precision (b), recall (c), overclassification (d), underclassification (e), e misclassification (f) per ogni metodo di classificazione tassonomia (media tra tutte le configurazioni e tutti i nuovi set di dati di sequenza taxa) dal phylum al livello di specie. Barre di errore = 95% intervalli di confidenza. b Media F-misura per ogni classificatore ottimizzato (media in tutti i nuovi set di dati di sequenza taxa) a livello di specie. I violini con lettere minuscole diverse hanno mezzi significativamente diversi (test t accoppiato con tasso di rilevamento falso-corretto P < 0.05)

Il romanzo taxon di valutazione fornisce una stima della classificazione prestazioni di un database di riferimento, ma la sua generalizzazione è limitata dalla qualità dei dati disponibili e dalla etichetta approccio utilizzato per il partizionamento e la valutazione. I cladi Mislabeled e polifiletici nel database, ad esempio il gruppo clostridium, aumentano la probabilità di errata classificazione. Un’analisi complementare basata sulla somiglianza di sequenza tra una nuova query e un hit di riferimento superiore potrebbe mitigare questo problema. Tuttavia, scegliamo di applicare un approccio basato sull’etichetta, in quanto riflette meglio il problema biologico che gli utenti possono aspettarsi di incontrare, cioè utilizzando un particolare database di sequenze di riferimento (che conterrà una certa quantità di taxa errati e polifiletici inerenti alle risorse attualmente disponibili), quanto è probabile che un classificatore classifichi erroneamente un’etichetta tassonomica?

Ottimizzazione del metodo multi-valutazione

Le valutazioni della mock community e della classificazione cross-validation hanno prodotto tendenze simili nelle prestazioni della configurazione, ma l’ottimizzazione delle scelte dei parametri per i nuovi taxa ha generalmente portato a scelte non ottimali per la mock community e i test cross-validation (Fig. 4). Abbiamo cercato di determinare la relazione tra le prestazioni della configurazione del metodo per ogni valutazione e utilizzare queste informazioni per selezionare le configurazioni che funzionano meglio in tutte le valutazioni. Per la classificazione a livello di specie della sequenza genica 16S rRNA, le configurazioni del metodo che raggiungono le massime misure F per sequenze simulate e convalidate incrociate possono funzionare male per la nuova classificazione del taxon (Fig. 4 ter). L’ottimizzazione è più semplice per la classificazione a livello di genere delle sequenze geniche rRNA 16S (Fig. 4a) e per le sequenze fungine (Fig. 4c, d), per il quale le prestazioni della configurazione (misurate come misura F media) sono massimizzate da configurazioni simili tra tutte e tre le valutazioni.

Fig. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplot mostra media F-misura punteggi per ogni metodo di configurazione, in media tra tutti i campioni, per la classificazione dei geni rRNA 16S in genere di livello (a) e livello di specie (b), e fungine delle SUE sequenze in genere di livello (c) e il livello di specie (d)

identificare metodo ottimale configurazioni, abbiamo impostato la precisione punteggio di soglie minime per ogni valutazione, individuando le interruzioni naturali nel range di punteggi di qualità, la selezione di metodi e parametro varia in grado di soddisfare questi criteri. La tabella 2 elenca le configurazioni del metodo che massimizzano i punteggi di precisione della classificazione a livello di specie per valutazioni di comunità simulate, convalidate incrociate e nuove taxon in diverse condizioni operative comuni. Le configurazioni “bilanciate” sono consigliate per l’uso generale e sono metodi che massimizzano i punteggi F-measure. Le configurazioni” Precision “e” recall” massimizzano i punteggi di precisione e recall, rispettivamente, per le classificazioni mock, cross-validated e novel-taxa (Tabella 2). Le configurazioni “Novel” ottimizzano i punteggi F-measure per la nuova classificazione dei taxon e secondariamente per le prestazioni simulate e cross-validate (Tabella 2). Queste configurazioni sono raccomandate per l’uso con tipi di campioni che dovrebbero contenere grandi proporzioni di specie non identificate, per le quali l’overclassificazione può essere eccessiva. Tuttavia, queste configurazioni potrebbero non funzionare in modo ottimale per la classificazione delle specie conosciute (cioè, i tassi di sottoclassificazione saranno più alti). Per i funghi, le stesse configurazioni raccomandate per la “precisione” funzionano bene per la nuova classificazione dei taxon (Tabella 2). Per le sequenze geniche rRNA 16S, i classificatori di consenso BLAST+, UCLUST e VSEARCH si comportano meglio per la nuova classificazione del taxon (Tabella 2).

Tabella 2 metodi Ottimizzati configurazioni per condizioni operative standard

Computazionale runtime

High-throughput sequencing piattaforme (e gli esperimenti) continua a rendimento crescente sequenza conta, che—anche dopo filtrare la qualità e dereplication o tassonomiche operative unità di clustering passaggi comuni a più microbioma analisi condotte—può superare migliaia di sequenze uniche che hanno bisogno di classificazione. Un numero crescente di sequenze di query e sequenze di riferimenti può portare a runtime inaccettabili e, in alcune condizioni sperimentali, il metodo più performante (basato su precisione, richiamo o qualche altra metrica) potrebbe essere insufficiente per gestire un gran numero di sequenze in un intervallo di tempo accettabile. Ad esempio, i turnaround rapidi possono essere vitali in scenari clinici in quanto la valutazione del microbioma viene tradotta in pratica clinica o in scenari commerciali, quando grandi volumi di campioni e le aspettative dei clienti possono limitare i tempi di consegna e la selezione del metodo.

Abbiamo valutato il runtime computazionale come una funzione lineare di (1) il numero di sequenze di query e (2) il numero di sequenze di riferimento. La dipendenza lineare è empiricamente evidente in Fig. 5. Per entrambe queste metriche, la pendenza è la misura più importante delle prestazioni. L’intercetta può includere la quantità di tempo impiegato per addestrare il classificatore, pre-elaborare le sequenze di riferimento, caricare i dati pre-elaborati o altri passaggi di “configurazione” che diminuiranno di significato man mano che i conteggi delle sequenze crescono, e quindi è trascurabile.

Fig. 5

Confronto delle prestazioni di runtime dei classificatori di tassonomia. Runtime (s) per ogni classificatore tassonomia variando il numero di sequenze di query e mantenendo una costante 10.000 sequenze di riferimento (a) o variando il numero di sequenze di riferimento e mantenendo una costante 1 sequenza di query (b)