Otimização de classificação taxonômica do marcador gene amplificado de sequências com QIIME 2 q2-recurso-classificador plugin
Nós fiscal-crédito para otimizar e comparar vários marcador-sequência de gene taxonomia classificadores. Nós avaliamos dois classificadores comumente usados que são embrulhados em QIIME 1 ( Classificador RDP (versão 2.2), Legacy BLAST (versão 2.2.22) ), dois QIIME 1 alinhamento baseado no consenso taxonomia classificadores (o padrão UCLUST classificador disponível em QIIME 1 (baseado na versão 1.2.22 q) , e SortMeRNA (versão 2.0 29/11/2014) ), dois alinhamento baseado no consenso taxonomia classificadores recém-lançado no q2-recurso-classificador (com base na EXPLOSÃO+ (versão 2.6.0) e VSEARCH (versão 2.0.3) ), e um novo multinomial naive Bayes de aprendizado de máquina de classificação em q2-recurso-classificador (consulte a seção “Métodos” seção para obter informações sobre q2-recurso-classificador de métodos e disponibilidade do código-fonte). Realizamos varreduras de parâmetros para determinar configurações de parâmetros ideais para cada método.
Simulação de comunidade avaliações
primeiro, contado classificador de desempenho na simulação de comunidades, que são artificialmente construídos, de misturas de células microbianas ou de DNA combinados em proporções . Utilizámos 15 comunidades 16S rRNA gene mock bacterianas e 4 comunidades Spacer (ITS) mock transcritas internas de fungos (Tabela 1) provenientes de mockrobiota , um repositório público para mock dados comunitários. Simulação de comunidades são úteis para o método de benchmarking, porque (1) ao contrário simulado comunidades, que permite avaliações quantitativas de desempenho do método em condições reais de exploração, isto é, incorporando real, sequenciamento de erros que podem ser difíceis de modelar com precisão; e (2) ao contrário natural de uma comunidade de amostras, a composição real de uma simulação de uma comunidade é conhecida antecipadamente, permitindo avaliações quantitativas da comunidade, criação de perfis de precisão.
Um adicional de prioridade foi testar o efeito da definição de classe de pesos na classificação da precisão do classificador naive Bayes implementado em q2-recurso-classificador. Na aprendizagem de máquinas, pesos de classe ou probabilidades prévias são vetores de pesos que especificam a frequência a que cada classe deve ser observada (e devem ser distinguidos do uso deste Termo sob Inferência Bayesiana como uma distribuição de probabilidade de vetores de pesos). Uma alternativa para definir pesos de classe é assumir que cada sequência de consulta é igualmente provável pertencer a qualquer um dos taxa que estão presentes na base de dados de sequência de referência. Esta suposição, conhecida como priores de classe uniformes no contexto de um classificador de Bayes ingênuo, é feita pelo classificador RDP , e seu impacto na precisão de classificação de genes marcadores ainda não foi validado. Partindo do princípio de que os pesos das classes são uniformes ou conhecidos, em certa medida, afetará os resultados e não pode ser evitado. As comunidades mock têm abundâncias taxonômicas que estão longe de ser uniformes sobre o conjunto de taxonomias de referência, como qualquer conjunto de dados real deve. Podemos, portanto, usá-los para avaliar o impacto de fazer suposições sobre pesos de classe. Onde definimos os pesos de classe para a composição taxonômica conhecida de uma amostra, temos rotulado os resultados “sob medida”.avaliámos a precisão do desempenho do Classificador em sequências mock comunitárias classificadas em níveis taxonómicos de classe A espécie. Mock community sequences were classified using the Greengenes 99% OTUs 16S rRNA gene or UNITE 99% OTUs ITS reference sequences for bacterial and fungal mock communities, respectively. Como esperado, a precisão de classificação diminuiu à medida que a profundidade de classificação aumentava, e todos os métodos podiam prever a afiliação taxonômica de sequências mock community até o nível do gênero com mediana de f-medidas excedendo 0,8 em todos os conjuntos de parâmetros (mínimo: UCLUST F = 0,81, máximo: ingênua Bayes bespoke F = 1,00) (Fig. 1a). No entanto, a afiliação de Espécies foi prevista com precisão muito menor e mais variável entre as configurações do método (mediana F-measure mínima: UCLUST F = 0.42, máximo: ingênua Bayes sob medida F = 0.95), destacando a importância da otimização de parâmetros (discutido em mais detalhes abaixo). A figura 1a ilustra os gráficos de linha da média F-measure a cada nível taxonómico, calculada em média em todas as configurações dos Classificadores; assim, o desempenho dos Classificadores é subestimado para alguns classificadores que são fortemente afectados pelas configurações dos parâmetros ou para os quais foi testada uma gama mais ampla de parâmetros (por exemplo, Bayes ingénuos). Comparar apenas métodos optimizados (i.e., as configurações dos parâmetros com melhor desempenho para cada método), o Bayes ingênuo sob medida conseguiu uma medida f significativamente mais elevada (emparelhado teste t p < 0, 05) (Fig. 1b), recall, taxon detection rate, taxon accuracy rate (Fig. 1c), e menor Bray-Curtis dissimilaridade do que todos os outros métodos (Fig. 1d).
classifier performance on mock community datasets for 16S rRNA gene sequences (left column) and fungal ITS sequences (right column). uma média de F-measure para cada método de classificação taxonómica (média em todas as configurações e todos os conjuntos de dados mock da comunidade) de classe a nível das espécies. Barras de erro = intervalos de confiança de 95%. b média F-medida para cada classificador optimizado (média em todas as comunidades mock) a nível da espécie. c taxa média de precisão do táxon para cada classificador optimizado (média em todas as comunidades mock) a nível de espécie. d distância média Bray-Curtis entre a composição da comunidade falsa esperada e sua composição como previsto por cada classificador otimizado (média em todas as comunidades mock) a nível de espécies. As parcelas de violino mostram mediana (ponto branco), quartis (barras pretas) e estimativa da densidade do núcleo (violino) para cada distribuição de pontuação. Os violinos com letras minúsculas diferentes têm meios significativamente diferentes (teste emparelhado t falso taxa de detecção corrigida P < 0.05)
Mock communities are necessarily simplistic, and cannot assess method performance across a diverse range of taxa. Embora as sequências raw possam conter erros de PCR e sequenciação (permitindo-nos avaliar o desempenho do método em condições biológicas), as sequências que correspondem às sequências mock comunitárias esperadas não são removidas da base de dados de referência antes da classificação. Esta abordagem Replica as condições normais de operação e avalia a recuperação de sequências esperadas, mas pode implicitamente viés em direção a métodos que encontram uma correspondência exata com as sequências de consulta, e não aproxima algumas comunidades microbianas naturais em que poucas ou nenhuma seqüências detectadas coincidem exatamente com as seqüências de referência. Assim, realizamos classificações simuladas de leitura de sequência (descritas abaixo) para um maior desempenho classificador de teste.
classificação taxonómica cruzada validada
leitura de sequência simulada, derivada de bases de dados de referência, permite-nos avaliar o desempenho do método numa maior diversidade de sequências do que uma única comunidade mock geralmente abrange. Nós avaliamos pela primeira vez o desempenho classificador usando k-fold estratificado de validação cruzada da classificação taxonômica para leituras simuladas. A estratégia de validação cruzada de K-fold é ligeiramente modificada para ter em conta a natureza hierárquica das classificações taxonómicas, que todos os classificadores deste estudo (com excepção do legado BLAST) lidam atribuindo o nível taxonómico mais baixo (ou seja, mais específico), onde a classificação ultrapassa algum limiar de “confiança” ou “consenso” definido pelo utilizador (ver materiais e métodos). A modificação consiste em truncar qualquer taxonomia esperada em cada teste definido ao nível máximo em que uma instância dessa taxonomia existe no conjunto de treinamento.leituras simuladas foram geradas a partir de Greengenes 99% do gene OTUs 16S rRNA ou unir 99% do OTUs suas sequências de referência. As leituras simuladas do gene Greengenes 16S rRNA foram geradas a partir de genes rRNA de comprimento total 16S (primers 27F / 1492R) E v4 (primers 515F/806R) e subdomínios V1–3 (primers 27F/534R). As leituras simuladas atualmente disponíveis no tax-credit não incorporam erros artificiais da PCR ou sequenciação por várias razões. Como as nossas comunidades simuladas já avaliam o desempenho do Classificador em verdadeiras condições experimentais ruidosas, o objetivo das análises de sequências simuladas é avaliar o desempenho teórico do Classificador (quando a sequência exata não existe na base de dados de referência). Além disso, pipelines de análise de sequências de amplicões de genes marcadores geralmente utilizam métodos de desnoising para modelar perfis de erro por execução, filtrar sequências ruidosas e resolver variantes de sequências reais. Assim, em nossas avaliações, simulamos um cenário teórico idealizado (se improvável) no qual todos os erros de sequenciação foram desnoizados, a fim de separar o desempenho classificador do desempenho denoiser. Neste conjunto de testes e abaixo para novos taxa, O classificador “sob medida” tinha probabilidades anteriores que foram inferidas a partir do conjunto de treinamento cada vez que foi treinado.
a classificação das leituras validadas cruzadas teve um melhor desempenho nos níveis de classificação mais baixos (Fig. 2-A), semelhante à tendência observada nos modelos de resultados comunitários. Para sequências bacterianas, a precisão média de classificação para todos os métodos diminuiu a partir de pontuações quase perfeitas ao nível da família (domínio v4 median F-measure minimum: BLAST+ F = 0.92, maximum: legacy BLAST F = 0.99), mas ainda manteve pontuações precisas ao nível da espécie (mediana mínima: BLAST+ F = 0.76, maximum: SortMeRNA F = 0.84), em relação a alguns conjuntos de dados mock da comunidade (Fig. 2a). As sequências de fungos exibiram um desempenho semelhante, com a exceção de que o desempenho médio de BLAST+ e VSEARCH foi marcadamente menor em todos os níveis taxonômicos, indicando alta sensibilidade às configurações de parâmetros, e as medidas de nível de espécie f foram, em geral, muito mais baixas (mediana mínima: BLAST+ F = 0.17, máxima: UCLUST F = 0.45) do que as de classificação de sequência bacteriana (Fig. 2a).
Classifier performance on cross-validated sequence datasets. Precisão de classificação de subdomain do gene v4 do 16S rRNA (primeira fila), subdomain V1–3 (segunda fila), gene rRNA do 16S de comprimento total (terceiro cabo) e sequências de ITS fúngicas (quarta fila). uma medida F média para cada método de classificação da taxonomia (média em todas as configurações e todos os conjuntos de dados de sequência validados transversalmente), desde o nível da classe até ao nível da espécie. Barras de erro = intervalos de confiança de 95%. b média de F-medida para cada classificador optimizado (média de todos os conjuntos de dados de sequência validados transversalmente) a nível da espécie. Os violinos com letras minúsculas diferentes têm meios significativamente diferentes (emparelhado t-test falsa taxa de detecção corrigida P < 0, 05). c correlação entre o desempenho da medida F para cada classificação de método/configuração de subdomain V4 (eixo x), subdomain V1-3 (eixo y) e sequências genéticas rRNA de 16S de comprimento total (eixo z). Inset lista o valor de Pearson R2 para cada correlação emparelhada; cada correlação é significativa (P < 0.001)
classificação por espécies de 16S sequências simuladas do gene rRNA foram melhores com configurações optimizadas da UCLUST e do SortMeRNA para o domínio V4, e Bayes ingénuos e RDP para o domínio V1-3 e sequências de genes rRNA de 16S de comprimento total (Fig. 2b). UCLUST alcançou a maior medida de F para sua classificação (F = 0,51). No entanto, todos os classificadores otimizados alcançaram gamas de medida f similares, com exceção da explosão legacy para suas sequências(Fig. 2b).
O desempenho de classificação de nível de espécies de leituras simuladas do gene 16S rRNA foi significativamente correlacionado entre cada subdomínio e as sequências de genes de comprimento total(Fig. 2c). Nos nossos testes, sequências de comprimento total exibiram uma precisão ligeiramente menor do que sub–domínios V1-3 e V4. O desempenho relativo de genes rRNA de comprimento total 16S versus leitura subdomaineável hipervariável é variável na literatura , e nossos resultados adicionam outro ponto de dados para a discussão em curso deste tópico. No entanto, as classificações ao nível das espécies originaram uma forte correlação entre as configurações do método (Fig. 2c) e desempenho otimizado do método (Fig. 2b), sugerindo que a escolha de iniciador tem um impacto uniforme na precisão da classificação em todos os métodos. Por isso, concentrámo-nos na leitura de subdomínios V4 para análises a jusante.
avaliação de classificação de novos táxons
classificação de novos táxons oferece uma perspectiva única sobre o comportamento de classificadores, avaliando como os classificadores se apresentam quando desafiados com um clado “novo” que não é representado na base de dados de referência . Um classificador ideal deve identificar a linhagem taxonômica mais próxima a que este táxon pertence,mas não mais. Nesta avaliação, de um banco de dados de referência é subsampled k vezes para gerar consulta e referência sequência de conjuntos, como para o cruz-validado classificação, mas duas importantes distinções existem: (1) o banco de dados de referência utilizados para a classificação exclui qualquer sequência que corresponde a taxonomia de afiliação da consulta sequências de taxonômicos nível L, o nível taxonômico em que a classificação está sendo tentada; e (2) este é realizado a cada nível taxonômico, a fim de avaliar a classificação de desempenho quando cada método encontra um “romance” de espécie, gênero, família, etc.devido a estas diferenças, a interpretação dos novos resultados da Classificação dos táxons é diferente da das classificações mock community e cross-validated. Para estes últimos, a precisão da classificação pode ser avaliada a cada nível taxonómico para cada resultado da classificação: a precisão média da classificação a nível da família e a nível das espécies avaliam os mesmos resultados, mas centram-se em diferentes níveis taxonómicos de classificação. Para novos taxa, no entanto, diferentes consultas e sequências de referência são compiladas para classificação em cada nível taxonômico e classificações separadas são realizadas para cada um. Assim, as classificações a nível da família e das espécies são eventos independentes-um avalia a precisão com que cada método se apresenta quando encontra uma família ” nova “que não está representada no banco de dados de referência, o outro quando uma espécie” nova ” é encontrada.as novas avaliações dos táxons empregam um conjunto de métricas modificadas para fornecer mais informações sobre os tipos de erros de classificação que ocorrem. Os cálculos da precisão, da recolha e da medida F a cada nível taxonómico l avaliam se foi efectuada uma classificação taxonómica exacta ao nível L-1: por exemplo, uma espécie” nova ” deve ser atribuída a um gênero, porque a classe de espécie correta não está representada no banco de dados de referência. Qualquer classificação ao nível das espécies neste cenário é uma sobreclassificação (afectando tanto a recolha como a precisão) . A sobreclassificação é uma das principais métricas para a avaliação de novos taxa, indicando o grau em que novas sequências serão mal interpretadas como organismos conhecidos. Esta sobreclassificação é muitas vezes altamente indesejável porque pode levar, por exemplo, à classificação incorreta de sequências ambientais desconhecidas, mas provavelmente inócuas, como patógenos conhecidos. Sequências novas que são classificadas dentro do clado correto, mas a um nível menos específico do que L, São subclassificadas (afetando a recolha, mas não a precisão) . Sequências que são classificadas em um clado completamente diferente são mal classificadas (afetando tanto a recolha quanto a precisão) .
precisão, recolha e medição F aumentam gradualmente a partir de pontuações médias próximas de 0.0 a nível de classe, atingindo pontuações máximas a nível de género para bactérias e espécies para fungos(Fig. 3a-c). Estas tendências são associadas com diminuições graduais nas taxas de subclassificação e de misclassificação para todos os métodos de classificação, indicando que todos os classificadores têm um desempenho fraco quando encontram sequências sem correspondência conhecida nos níveis de classe, ordem ou família (Fig. 3d, f). Ao nível das espécies, a UCLUST, BLAST+ e VSEARCH obtiveram medidas f significativamente melhores do que todos os outros métodos para classificações de genes rRNA 16S (P < 0, 05) (Fig. 3g). UCLUST alcançou medidas f significativamente melhores do que todos os outros métodos para suas classificações (Fig. 3g). As pontuações de excesso, sub-e desclassificação são menos informativas para otimizar classificadores para casos de uso real, já que a maioria dos métodos poderiam ser otimizados para produzir pontuações próximas de zero para cada uma dessas métricas separadamente, mas apenas através de configurações extremas, levando a medidas F que seriam inaceitáveis em qualquer cenário. Note que todas as comparações foram feitas entre métodos otimizados para maximizar (ou minimizar) uma única métrica, e, portanto, as configurações que maximizam a precisão são frequentemente diferentes daqueles que maximizam a recall ou outras métricas. Esta troca entre métricas diferentes é discutida em mais detalhes abaixo.
classifier performance on novel-taxa simulated sequence datasets for 16S rRNA gene sequences (left column) and fungal ITS sequences (right column). a-f, média f-measure (a), precisão (B), recall (c), overclassification (d), underclassification (e), and misclassification (f) for each taxonomy classification method (averaged across all configurations and all novel taxa sequence datasets) from phylum to species level. Barras de erro = intervalos de confiança de 95%. b média de F-medida para cada classificador optimizado (média calculada em todos os novos conjuntos de dados de sequência de taxa) a nível da espécie. Os violinos com letras minúsculas diferentes têm meios significativamente diferentes (teste emparelhado t falso taxa de detecção corrigida P < 0.05)
O romance táxon de avaliação fornece uma estimativa de classificação de desempenho de um banco de dados de referência, mas a sua generalização é limitada pela qualidade das bases de dados referenciais disponíveis e pelo rótulo baseado no método utilizado para a partição e avaliação. Clados mal etiquetados e polifiléticos na base de dados, por exemplo, Grupo clostridium, aumentam a probabilidade de erro de classificação. Uma análise complementar baseada na similaridade de sequência entre uma consulta nova e um hit de referência de topo poderia mitigar esta questão. No entanto, escolhemos para aplicar um rótulo baseado em abordagem, pois reflete melhor o problema biológico que os usuários podem esperar encontrar, por exemplo, o uso de um determinado referência seqüência de banco de dados (que contêm alguma quantidade de objetáveis e polyphyletic taxa inerentes aos recursos disponíveis no momento), qual a probabilidade de um classificador para misclassify um taxonômica rótulo?
otimização de métodos de avaliação múltipla
a comunidade mock e as avaliações de classificação de validação cruzada renderam tendências semelhantes no desempenho da configuração, mas a otimização de opções de parâmetros para os novos taxa geralmente levou a escolhas subóptimas para os testes mock community e cross-validation (Fig. 4). Buscamos determinar a relação entre o desempenho de configuração do método para cada avaliação e usar esta informação para selecionar configurações que funcionam melhor em todas as avaliações. Para 16S classificação ao nível de espécies da sequência genética rRNA, configurações de métodos que atingem o máximo de medidas F para sequências mock e cross-validated podem ter um desempenho fraco para a classificação de novos táxons(Fig. 4b). Optimization is more straightforward for genus-level classification of 16S rRNA gene sequences(Fig. 4a) e para sequências de fungos(Fig. 4c, d), para a qual o desempenho de configuração (medido como medida F média) é maximizado por configurações semelhantes entre todas as três avaliações.
Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Gráficos de dispersão mostram médio F-medida pontuações para cada método de configuração, a média em todas as amostras, para a classificação de genes de rRNA 16S em nível de gênero (a) e espécies (nível b), fungos e SUAS sequências de gênero (nível c) e nível de espécie (d)
Para identificar o método ideal para configurações, vamos definir a precisão de pontuação limites mínimos para cada avaliação, identificando as quebras naturais na faixa de índices de qualidade, seleção de métodos e gamas de parâmetros que preenchiam estes critérios. A tabela 2 lista configurações de métodos que maximizam as pontuações de precisão de classificação ao nível de espécies para comunidades mock, validadas cruzadas e novas avaliações de táxons em várias condições operacionais comuns. Configurações “equilibradas” são recomendadas para uso geral e são métodos que maximizam as pontuações de medição F. As configurações de” Precision” e “recall” maximizam as pontuações de precisão e “recall”, respectivamente, para as classificações mock, cross-validated e novel-taxa (Tabela 2). Configurações de “Novel” otimizam as pontuações de medição de F para a classificação de novos táxons, e secundariamente para o desempenho mock e cross-validated (Tabela 2). Estas configurações são recomendadas para utilização com tipos de amostras que se espera que contenham grandes proporções de espécies não identificadas, para as quais a sobreclassificação pode ser excessiva. No entanto, estas configurações podem não ter um desempenho ideal para a classificação de espécies conhecidas (ou seja, as taxas de subclassificação serão mais elevadas). No caso dos fungos, as mesmas configurações recomendadas para “precisão” apresentam um bom desempenho para a classificação de novos táxons (Quadro 2). For 16S rRNA gene sequences, BLAST+, UCLUST, and VSEARCH consensus classificators performer best for novel taxon classification (Table 2).
Computacional de tempo de execução
de Alta taxa de transferência de sequenciamento de plataformas (e experiências) continuam a produzir aumento da sequência de contagem, que, mesmo depois de qualidade de filtragem e dereplication operacional ou unidade taxonómica de cluster de passos comuns à maioria dos microbiano pipelines de análise—pode exceder milhares de sequências que necessitam de classificação. O aumento do número de sequências de consulta e sequências de referências pode levar a períodos de execução inaceitáveis, e sob algumas condições experimentais, o método de alto desempenho (baseado em precisão, recall, ou alguma outra métrica) pode ser insuficiente para lidar com um grande número de sequências dentro de um prazo aceitável. Por exemplo, reviravoltas rápidas podem ser vitais sob cenários clínicos à medida que a avaliação microbioma se traduz para a prática clínica, ou cenários comerciais, quando grandes volumes de amostras e expectativas do cliente podem restringir os tempos de reviravoltas e a seleção de métodos.
avaliamos o tempo de execução computacional como uma função linear de (1) o número de sequências de consulta e (2) o número de sequências de referência. A dependência Linear é empiricamente evidente na Fig. 5. Para ambas as métricas, a inclinação é a medida mais importante de desempenho. A interceptação pode incluir a quantidade de tempo necessário para treinar o classificador, pré-processar as seqüências de referência, carregar dados pré-processados, ou outros passos de “configuração” que diminuirão em significância à medida que as contagens de seqüência crescem, e, portanto, é negligenciável.
Runtime performance comparison of taxonomy classifiers. Tempo de execução (s) para cada taxonomia classificador ou variando-se o número da consulta de sequências e manter uma constante de 10.000 referência sequências (um) ou variando-se o número de referência de sequências e manter uma constante 1 seqüência de consulta (b)