Fronteiras em Microbiologia
- Introdução
- materiais e métodos
- selecção dos isolados baseados em ST com base em Ribosómicos
- identificação dos marcadores genéticos específicos à Salmonella Serovar
- avaliação dos potenciais marcadores genéticos específicos do Serovar
- análises filogenéticas
- Localização e Funções do Serotipo Específicas de Genes Marcadores
- In silico Subtipo de Previsão Usando o Sorovar Específicas de Genes Marcadores
- Calculation of the Specificity of Candidate Serovar-Specific Gene Markers for Common Serovars
- resultados
- identificação dos marcadores genéticos específicos do serovar candidatos
- categorias funcionais de marcadores genéticos específicos de Serovar
- Um Conjunto Mínimo de Serotipo Específicas de Genes Marcadores de in silico Molecular Serotyping
- marcadores genéticos específicos de Serovar para a Serotipagem de Serovares comuns
- Conclusão
- contribuições do autor
- Declaração de conflito de interesses
- material suplementar
- abreviatura
- Footnotes
Introdução
Salmonella faz com que salmonelose humana e infecções dos animais de sangue quente (Kingsley e Bäumler, 2000). O gênero Salmonella é dividido em duas espécies, S. enterica e S. bongori. a serotipagem classifica ainda a Salmonella em mais de 2.600 serotipos (serovares) através da reacção de aglutinação do anti-soros a três antigénios de superfície O, H1 e H2 (Le Minor e Bockemühl, 1984; Le Minor et al., 1990). Há 46 antigénios O que identificam o serogrupo. Juntamente com 119 H1 e H2 antigénios de flagelina, as combinações O, H1 e H2 identificam os serovares. Apenas uma pequena proporção dos serovares é responsável pela maioria das infecções por salmonelas humanas (Popoff et al., 2004).a Serotipagem por aglutinação antigénica é substituída por serotipagem molecular (Cai et al., 2005; Wattiau et al., 2011). Isto pode ser conseguido através do exame da sequência do aglomerado do antigénio o, codificação do antigénio H1 do gene fliC e codificação do antigénio H2 do gene fljB (Fitzgerald et al., 2007). Os grupos de genes do antigénio o podem ser diferenciados pela presença ou ausência de genes, enquanto os antigénios H1 e H2 são diferenciados pela variação da sequência (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). Os serótipos de Salmonella também podem ser inferidos através do MLST (Wattiau et al., 2011; Achtman et al., 2012) como um serótipo pode ser inferido por seus tipos de seqüência. No entanto, um pré-requisito para esta abordagem é que o conhecimento prévio da relação correspondente de serovar com o tipo de sequência é necessário.
recentemente, com o desenvolvimento de uma comparação baseada na sequência do genoma inteiro, vários estudos identificaram marcadores genômicos como um método molecular alternativo para a serotipagem. Zou et al. (2016) identificou sete genes que fornecem uma resolução suficiente para diferenciar 309 estirpes de Salmonella representando 26 serovares e encontrou genes específicos de serovar em 13 de 26 serovares. Laing et al. (2017) identified genomic fragments specific to Salmonella species and subspecies through pan-genome analysis. Estes genes ou fragmentos de ADN específicos têm sido utilizados como alvos moleculares para desenvolver múltiplas análises moleculares para a identificação e detecção rápidas de salmonelas a nível das espécies e dos serovares. No entanto, estes genes específicos ou fragmentos de ADN são limitados na sua capacidade discriminativa, devido à sua capacidade de apenas distinguir um número menor de serovares.neste estudo, pretendíamos utilizar a extensa colecção publicamente disponível de genomas de Salmonella para identificar marcadores genéticos específicos de serovar para os serovares mais frequentes. Nós mostramos o potencial destes marcadores genéticos específicos de serovar como marcadores para a serotipagem molecular tanto na tipagem sílica de dados genômicos ou para o desenvolvimento de métodos de diagnóstico laboratorial.
materiais e métodos
selecção dos isolados baseados em ST com base em Ribosómicos
base de dados de Salmonella na Enterobase (Alikhan et al., 2018) a partir de Março de 2018 foi questionado e 118997 isolado foram examinados. Os isolados representativos para cada SCR foram selecionados e extraídos por um script interno em python. Neste estudo foram incluídos apenas serovares com mais de quatro OCS. Para os 20 maiores isolados representativos dos serovares, apenas foram seleccionados aleatoriamente a partir dos OCS com dois ou mais isolados. Para os restantes serovares, foi seleccionado aleatoriamente um isolado representativo para cada rST. As leituras em bruto para estes isolados foram obtidas a partir do ENA (European Nucleotide Archive1) e foram de novo montadas usando enxadas V3.10.1 montador com settings2 (Bankevich et al., 2012). O serovar dos genomas montados foi previsto por SISTR (Yoshida et al., 2016) depois que eles cumpriram os seguintes critérios, que foram definidos por Robertson et al. (2018) using QUAST3 (Gurevich et al., 2013): Tamanho de montagem entre 4 e 6 Mb com o número de contigs inferior a 500, o maior contig superior a 100 kb, conteúdo de GC entre 50 e 54%, gene previsto por glimmer dentro de quase mais de 3000. A concordância entre os resultantes SISTR sorovar previsões e relatados sorovar no Enterobase registo de metadados foram examinadas e um pequeno número de genomas foram removidos da análise, devido à falta de uniformidade sorovar previsões. O conjunto final de dados consistia em 2258 genomas de alta qualidade com uma previsão serovar consistente representando 107 serovares (quadro suplementar S1).
identificação dos marcadores genéticos específicos à Salmonella Serovar
para determinar os potenciais marcadores genéticos específicos à serovar para 107 serovares, os 2258 genomas foram anotados utilizando PROKKA (Seemann, 2014). Pan-genoma e núcleo-genoma foram analisados por roary (Page et al., 2015) usando um limiar de identidade de sequência de 80%. Os genes específicos de cada serovar foram identificados a partir dos genes acessórios do pan-genoma com um script interno em python. Neste estudo, o número de genomas de um dado serovar contendo um gene específico para que serovar foi denominado verdadeiro positivo (TP), o número de genomas do mesmo serovar sem o mesmo gene foi denominado falso negativo (FN). O número de genomas de outros serovares contendo o mesmo gene serovar específico foi denominado falso positve (FP). Cortes relaxados (20% FN, 10% FP) foram usados inicialmente para garantir que todos os serovares tinham genes específicos candidatos que poderiam ser investigados. Genes paralógicos foram removidos das análises.
avaliação dos potenciais marcadores genéticos específicos do Serovar
a pontuação F1 foi utilizada para a selecção inicial dos potenciais marcadores genéticos específicos do serovar. A pontuação F1 foi avaliada com base na Fórmula: 2 × (PPV × sensibilidade)/(PPV + sensibilidade), onde PPV foi definido como TP/(TP+FP) e sensibilidade foi definida como TP/(TP+FN). O F1 varia de 0 a 1, onde 1 significa o gene serovar específico que estava presente em todos os genomas de um dado serovar e ausente em todos os genomas de outros serovares. Os marcadores genéticos específicos do serovar foram seleccionados utilizando o gene com melhor desempenho para cada serovar com base na pontuação F1. A especificidade definida como TN/(TN+FP) foi utilizada para avaliar a taxa verdadeira negativa (TN) dos marcadores genéticos específicos do serovar. A taxa de falsos positivos (FPR) foi definida por 1 – TNR.
análises filogenéticas
a fim de determinar as causas para os falsos negativos observados e FPRs nos marcadores genéticos específicos do serovar candidato, as relações filogenéticas dos serovares envolvidos foram investigadas. Os draft assemblies of 1258 isolates were used to generate phylogenetic trees by using parsnp v1. 24 (Treangen et al., 2014) with default parameters to determine the phylogeny between and within serovars. A árvore foi visualizada pelo FigTree v1. 4. 3 (Schneider et al., 2000).
Localização e Funções do Serotipo Específicas de Genes Marcadores
o Representante completa de genomas para cada sorovar contendo gene recursos foram transferidos a partir NCBI5 e foram utilizados para determinar a localização de cada um dos candidatos serotipo-gene específico por BLASTN com as configurações padrão (versão 2.2.6, Quadro Suplementar S2). Nos serovares sem genoma completo representativo foi seleccionado um genoma representativo de isolados reunidos neste estudo. As sequências de marcadores genéticos específicos do serovar são incluídas nos dados suplementares S1. O agrupamento de genes através do genoma foi usado para investigar se os marcadores genéticos específicos do serovar eram potencialmente parte de um único elemento ganho por um serovar em um evento. Os marcadores genéticos específicos de serovar candidatos eram considerados como um conjunto se estivessem localizados a menos de 5 kb um do outro.
as categorias funcionais dos marcadores genéticos foram identificadas a partir da anotação RAST 6 (Aziz et al., 2008). As sequências proféticas dentro dos genomas de referência de serovars foram identificadas usando PHASTER para indicar se os marcadores genéticos específicos de serovar podem ter sido adquiridos juntamente com profecias (Ferramenta de busca de fagos melhorada libertação) (Arndt et al., 2016).
In silico Subtipo de Previsão Usando o Sorovar Específicas de Genes Marcadores
Um adicional de 1089 isolados foram selecionados a partir da Enterobase usando um script de python com a exclusão de 2258 isolados utilizados para a triagem inicial a partir do mesmo banco de dados de Março de 2018 (Quadro Suplementar e S3). O BLASTN foi utilizado para procurar nos 1089 genomas pertencentes a 106 Serovares de Salmonella a presença de qualquer um dos marcadores genéticos específicos do serovar. Scripts personalizados python foram então usados para prever serovar a partir dessas atribuições serovar com base no padrão de presença genética conhecido para cada serovar. O TP foi classificado como o número total de serovares corretamente atribuídos e casos em que o serovar correto foi chamado, bem como um ou mais FP. A missão falhou foi definida onde nenhum serovar ou serovars incorretos foram chamados. As previsões de Serovar foram comparadas com Seqsero (Zhang et al., 2015) e previsões SISTR.
Calculation of the Specificity of Candidate Serovar-Specific Gene Markers for Common Serovars
the specificity of typing rate for common serovars (Hendriksen et al., 2011) foi igual a (1-taxa de erro potencial). A taxa de erro potencial dos marcadores genéticos específicos do serovar definidos pela fórmula: (número de FPs)∗(a frequência desse serovar numa dada região)/(total de genomas desse serovar).
resultados
identificação dos marcadores genéticos específicos do serovar candidatos
os genes Acessórios de 2258 genomas que representam 107 serovares foram rastreados para identificar potenciais marcadores genéticos específicos do serovar. Esta triagem inicial identificou 354 potenciais marcadores genéticos específicos do serovar dentro de 101 serovares. Seis serovares: Bareilly, Bovismorbificans, Thompson, Reading, Typhi, e Saintpaul não tinham marcadores genéticos específicos de serovar candidatos que estavam presentes em todas as linhagens de um serovar dado. A especificidade (TNR) e a sensibilidade (TPR) dos 354 marcadores genéticos específicos do serovar candidatos foram também examinadas e resumidas na Figura 1. Quarenta antígenos contidos 194 sorovar específicas de genes marcadores com 100% de especificidade e sensibilidade (nenhum FN ou FP), enquanto 31 de antígenos contidos 80 candidatos sorovar específicas de genes marcadores, com sensibilidade de 100%, mas com menos do que 100% de especificidade (variados FP). Nove serovares continham 27 marcadores genéticos específicos de serovar candidatos com 100% de especificidade, mas com menos de 100% de sensibilidade (FN variada). Os restantes 21 serovares continham 53 marcadores genéticos específicos de serovar com especificidade e sensibilidade inferiores a 100% (FN e FP variados).
Figura 1. A distribuição da sensibilidade e especificidade de 354 potenciais marcadores genéticos serovar específicos. TPR, taxa verdadeira positiva; FPR, taxa falsa positiva. Onde é apresentado um gradiente de azul claro (percentagem baixa) a Azul escuro (percentagem elevada).
construímos uma árvore filogenética usando 1258 isolados representativos de 107 serovares usando Pastnp (figura suplementar S1). Os 1258 isolados foram selecionados com base nas relações filogenéticas dos 2258 isolados iniciais dos quais selecionamos isolados para representar cada linhagem independente. Descobrimos que membros de cada um dos 82 serovares formaram uma linhagem monofilética, enquanto 24 serovares eram polifiléticos, cada um composto por 2 a 4 linhagens. Vários destes serovares são conhecidos por serem polifiléticos e é improvável que contenham marcadores genéticos específicos de serovar (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serovar Enteritidis é parafilético com três outros serovares (Dublin, Berta e Gallinarium) surgindo de dentro do maior clado Enteritidis que é em si composto de três linhagens conhecidas como clado A, B E C (Graham et al., 2018). Os cinco marcadores genéticos específicos do Enteritidis foram negativos para os isolados do Enteritidis que se agruparam separadamente na árvore.
curiosamente para quatro serovares polifiléticos, Bredeney, Kottbus, Livingstone e Virchow, cada um tinha um gene serovar específico candidato que estava presente em todos os isolados daquele serovar. Para os restantes 20 serovares polifiléticos e Enteritidis parafiléticos, procurámos marcadores genéticos específicos da linhagem, uma vez que cada serovar continha mais de uma linhagem. Se todas as linhagens contiverem pelo menos um gene específico da linhagem, consideramos que o serovar contém marcadores genéticos específicos do serovar. Um total de 111 potencial linhagem-específicos de genes marcadores foram identificados 19 polyphyletic sorovares e parafilético sorovar Enteritidis, entre os quais, 27 de linhagem-específicos de genes marcadores foram identificados por 5 sorovares com 100% de especificidade e sensibilidade (não premido FN e FP), 76 candidatos linhagem-específicos de genes marcadores para 14 sorovares com 100% de sensibilidade e 100% de especificidade (variados FP), e Enteritidis contendo 6 candidato linhagem-específicos de genes marcadores, com variados FN e FP (Tabela 1).
Tabela 1. Marcadores genéticos específicos da linhagem para serovares polifiléticos e serovares parafiléticos.
para os 11 dos 82 serovares monofiléticos que não tinham marcadores genéticos específicos de serovar devido à FN, descobrimos que a FN era muitas vezes devido a isolados que estão agrupados em um ramo e divergiram mais cedo dos outros isolados. Para esses grupos, procuramos marcadores genéticos específicos da linhagem. Portanto, dois ou mais marcadores genéticos podem ser usados para identificar um serovar e tais serovares também foram considerados como contendo marcadores genéticos específicos do serovar, semelhantes aos serovares polifiléticos. Três serovares, Paratyphi a, Heidelberg e Muenchen podem ser identificados pelos marcadores genéticos específicos da linhagem combinada.
um total de 414 marcadores genéticos específicos do serovar, incluindo 295 marcadores genéticos específicos do serovar e 119 marcadores genéticos específicos da linhagem, estão resumidos na tabela suplementar S2. No total, 106 de 107 serovars continham um ou mais marcadores genéticos, 33 serovars continham um gene específico, enquanto 73 continham dois ou mais marcadores genéticos. Não havia marcadores genéticos específicos de serovar candidatos encontrados para Typhi monofilético e nenhum potencial marcadores genéticos específicos de linhagem encontrados para a linhagem III de Stanleyville que continha apenas um isolado.
categorias funcionais de marcadores genéticos específicos de Serovar
caracterização funcional de todos os 414 marcadores genéticos identificados para os 106 serovares usando RAST descobriram que 197 tinham funções conhecidas e 217 proteínas hipotéticas codificadas com funções desconhecidas. Apenas 46 genes com anotações podem ser agrupados em categorias funcionais, enquanto 151 genes com funções não estavam em categorias funcionais RAST (Tabela 2). Usando PHASTER. 45 marcadores genéticos específicos de serovar candidatos foram localizados dentro das profecias previstas.
Tabela 2. Categorias funcionais de genes Serovar específicas.
Um Conjunto Mínimo de Serotipo Específicas de Genes Marcadores de in silico Molecular Serotyping
Para muitos sorovares, vários candidatos sorovar específicas de genes marcadores ou linhagem-específicos de genes marcadores foram identificados. Nestes casos, foi selecionado um único gene que tem as taxas de FN e FP mais baixas. Um mínimo de 131 marcadores genéticos permite a identificação dos serovares com taxas de erro de 0 a 8,33%. A distribuição dos genes marcadores em todos os 106 sorovares demonstra alto grau de especificidade, como mostrado na Figura 2, em que a diagonal apresenta um para um relacionamento do serotipo ou linhagem com sorovar específicas de genes marcadores, enquanto o fora da diagonal espacial mostrou disperso disperso presença destes genes em outros sorovares de variadas porcentagens indicando uma baixa FPR. Os detalhes destes marcadores genéticos foram listados na tabela suplementar S4. No geral, 45 serovares podem ser distinguidos pelo respectivo gene específico do serovar e 61 serovares podem ser diferenciados por uma combinação de marcadores genéticos.
Figura 2. A distribuição de um conjunto mínimo de 131 genes serovar específicos em 106 serovars. O eixo Y mostra marcadores genéticos específicos da linhagem ou serovar e o eixo X mostra serovares ou linhagens. Os pormenores constam do quadro complementar S4. Gray indicou genomas zero contendo um gene (TN). Os pares de genes / genomas ao longo da diagonal representam genomas contendo os marcadores genéticos específicos de serovar que correspondem ao seu serovar (TP). O vermelho representa genes que estão presentes em 100% dos genomas para um dado serovar ou linhagem. Quando um gene está presente em menos de 100% de um serovar, é apresentado um gradiente de azul claro (percentagem baixa) a Azul escuro (percentagem elevada). Pares azuis ao longo da diagonal representam a presença de FN. Os pares que são azuis ou vermelhos fora da diagonal representam pares contendo genes que não correspondem ao serovar previsto do genoma (FP).
testámos mais 1089 genomas pertencentes a 106 serovares de Salmonella não-typhoidal para avaliar a capacidade dos 131 marcadores genéticos específicos para atribuir correctamente serovares a isolados. Usando os marcadores genéticos específicos do serovar, 1038 dos 1089 isolados (95, 3%) foram atribuídos com sucesso e 51 falharam (4, 7%). Para SISTR e SeqSero, o número de atribuições concordantes de serovar foi de 1037 (95%) e 905 (82,8%), respectivamente (quadro suplementar S3).
marcadores genéticos específicos de Serovar para a Serotipagem de Serovares comuns
os 20 serovares principais que causam infecção humana encontrados em cada continente (Hendriksen et al., 2011) foram colapsados em uma lista combinada de 46 serovares (tabela suplementar S5). Uma vez que estes serovares continham a grande maioria dos isolados causando infecções humanas globalmente, consideramo-los separadamente para avaliar a utilidade dos marcadores genéticos específicos de serovar candidatos para a serotipagem dos serovares mais prevalentes em um ambiente local. Quando apenas estes serovares foram considerados, 18 em 46 poderiam ser identificados unicamente por um dos marcadores genéticos específicos do serovar. Para aumentar a precisão de Digitação nos restantes 28 serovares comuns onde marcadores genéticos específicos de serovar têm variado FPRs, examinamos usando subconjuntos dos 131 marcadores genéticos (variando de 2 a 9 genes por serovar) para eliminar potencial FP. Por exemplo, a combinação de gene específico da Coleraesuis e gene específico da linhagem Cerro-I pode eliminar o falso isolado positivo do Cerro da Coleraesuis, se ambos os genes forem positivos, o isolado pode ser atribuído ao Cerro enquanto se o gene específico da linhagem Cerro-i for negativo, o isolado é Coleraesuis.
para estimar potenciais erros de dactilografia, tivemos em conta a frequência dos 46 serovares comuns que mostraram grandes diferenças entre regiões (Hendriksen et al., 2011). Por conseguinte, podem ser utilizadas diferentes combinações de genes para limitar especificamente os resultados falsos positivos dos serovares presentes nessa região. Numa dada região, a especificidade dos marcadores genéticos específicos de serovar candidatos comuns foi calculada utilizando a taxa de FP e a frequência do falso serovar positivo nessa região. A especificidade dos marcadores genéticos específicos do serovar candidatos foi também calculada utilizando a taxa FP (tabela suplementar S4). Por exemplo, um painel de 15 genes pode ser usado para digitar os 10 serovares mais frequentes na Austrália (NEPSS 2010) (Tabela 3). Quando as frequências regionais australianas foram levadas em conta, os genes listados na Tabela 3 podem ser usados como marcadores para a tipagem laboratorial e a taxa de erro será inferior a 2,4%.
Tabela 3. Um painel de genes serovar específicos para digitar os dez serovares mais frequentes na Austrália.a serotipagem de salmonelas foi vital para o diagnóstico e vigilância. A previsão Serovar por serotipagem tradicional pode ser limitada pela falta de expressão do antigénio de superfície ou propriedades de autoaglutinação (Wattiau et al., 2008). Recentemente, com o desenvolvimento de tecnologia de sequenciamento do genoma completo, as regiões genômicas relevantes do cluster genético rfb para o antigénio O, o gene fliC e o gene fljB para os antigénios H, E os genes visados pelo MLST podem ser extraídos e utilizados para a identificação serovar. Vários estudos identificaram genes ou fragmentos de DNA específicos de serovar para serotipagem através de comparação genômica baseada em sequenciação integral (Zou et al., 2013, 2016; Laing et al., 2017). No entanto, estes genes ou fragmentos de ADN específicos do serovar distinguiram apenas um pequeno número de serovares. Neste estudo, identificámos 414 marcadores genéticos específicos de serovar ou de linhagem para 106 serovares, que incluem 24 serovares polifiléticos e o serovar Enteritidis parafilético. Um subconjunto destes marcadores genéticos foram validados por genomas independentes e foram capazes de atribuir serovares corretamente em 95,3% dos casos.
a análise acima foi complicada pela presença de serovares polifiléticos, que surgem independentemente de ancestrais separados para formar linhagens separadas. Portanto, uma combinação de marcadores genéticos específicos da linhagem foi necessária para a identificação clara da maioria dos serovares polifiléticos. Curiosamente quatro polyphyletic sorovares, Bredeney, Kottbus, Livingstone, e Virchow, cada um tinha um candidato sorovar específicas do gene marcador que estava presente em todos os isolados do sorovar. O gene específico de Bredeney serovar foi previsto para codificar uma translocase envolvida na conversão do antigénio O e poderia ter sido obtido em paralelo. Os genes serovares específicos dos outros três serovares polifiléticos codificam proteínas hipotéticas com função desconhecida e nenhuma explicação aparente para a sua presença em diferentes linhagens do mesmo serovar.ao contrário dos serovares polifiléticos, as três linhagens (clado A, B E C) dos serovar Enteritidis parafiléticos partilham um ancestral comum recente. Os clados A E C são ancestrais ao clado B. estudos anteriores descreveram que Enteritidis foi agrupado com Serovares Dublin, Berta e Gallinarium que foi chamado de “seção Enteritidis” (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). Outro estudo mostrou que a serovar Nitra estava embutida em linhagens Enteritidis usando filogenia do genoma inteiro (Deng et al., 2014). Também houve reatividade cruzada entre Enteritidis e Nitra de acordo com o estudo de Ogunremi (Ogunremi et al., 2017). Em nosso estudo, selecionamos os isolados com base em TSC, Nitra não estava presente na Base de dados rMLST Enterobase quando este estudo começou e, portanto, não foi incluído neste estudo. O gallinário é distinguível do Enteritidis usando a presença de uma deleção de 4 bp no gene speC (Kang et al., 2011). Observou-se que os ancestrais comuns de sorovares de Dublin, Berta, e Gallinarium, surgiu a partir de um ancestral entre os Subtipos B e A/C. Enquanto Dublin pode ser identificada separadamente, podemos distinguir Berta ou Gallinarium de Enteritidis subtipo A/C. Estes resultados destacam a uma limitação da abordagem como sorovares deve ser suficientemente divergentes que eles diferem de pelo menos um único gene. Da mesma forma, havia 8 outros serovares que não eram distinguíveis provavelmente devido a ancestralidade compartilhada muito recente com pouca aquisição de genes.
serovar marcadores genéticos específicos do Serovar ou marcadores genéticos específicos da linhagem em 69 de 106 serovares foram contíguos no genoma com funções semelhantes agrupadas (dados não apresentados). Isto sugere que estes marcadores genéticos podem ter sido incorporados em genomas serovar juntos através da transferência horizontal de genes. De fato, os sete Typhimurium candidato específico de genes marcadores identificados neste estudo (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497, e STM4498) foram localizados na Typhimurium tRNAleuX integração conjugative elemento relacionadas com a região, incluindo genes de STM4488 para STM4498, que é um conhecido horizontal transferência de genes de hotspot (Bispo et al., 2005). Da mesma forma, cinco marcadores genéticos específicos do Enteritidis identificados (SEN1379, SEN1380, SEN1382, SEN1383 e SEN1383) estavam localizados na região Sdr i (Agron et al., 2001) e a região de Santiviago et al., 2010). Ambas as regiões estão ligadas a Profecias, o que sugere que estas regiões integradas no genoma de um ancestral comum do clado Global Enteritidis e foram derivadas da transferência horizontal de genes.outros métodos para a predição in silico serovar são implementados em Seqsero (Zhang et al., 2015) e SISTR (Yoshida et al., 2016). Ambos os métodos examinam as regiões genômicas responsáveis pelos antigénios de superfície, enquanto a SISTR também implementa um esquema cgMLST para examinar a relação genética global. Adicionalmente, os tradicionais grupos de 7 genes MLST e eBURST derivados dele também podem ser usados para a determinação do serovar sílico (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Tanto a SISTR como a SeqSero fornecem um poder discriminatório mais elevado do que a identificação serovar tradicional (Yachison et al., 2017). No entanto, eles têm uma série de desvantagens, tais como serovares indistinguíveis com a mesma fórmula antigênica ou determinantes antigênicos que não estão sendo expressos (Robertson et al., 2018). No estudo atual, examinamos em previsão sílica serovar através da triagem de genomas contra um conjunto de 131 marcadores genéticos específicos de serovar. A abordagem forneceu predição serovar, produzindo “presença ou ausência” de marcador genético específico de serovar ou combinação de marcadores genéticos em um isolado de consulta. Mostramos que os marcadores genéticos específicos de serovar têm uma precisão comparável a outros métodos de serotipagem sílica com 91,5% de isolados do conjunto de dados de identificação inicial e 84,8% de isolados de um conjunto de dados de validação atribuído ao serovar correcto (sem FN e FP). 10.5% dos isolados do conjunto de dados de validação podem ser atribuídos a um pequeno subconjunto de serovares contendo o serovar correcto (com PF variado). A especificidade para a abordagem de predição in silico serovar por marcadores genéticos específicos de serovar foi de 95,3%, ligeiramente superior a SISTR (95%) e SeqSero (82,8%) no mesmo conjunto de dados que testamos. Este resultado foi semelhante às especificidades de SISTR e SeqSero relatadas por Yachison et al. (2017) que foram 94,8 e 88,2%, respectivamente.
O Nosso método de marcador genético específico do serovar não requer o exame preciso dos grupos de genes do antigénio o ou a variação da sequência dos genes do antigénio H, O que pode ser problemático. Nosso método também alivia a necessidade de que toda a sequência genética ou genoma seja montada, o que é necessário em métodos baseados em MLST ou cgMLST. Por conseguinte, esta abordagem pode ser útil para casos em que há muito pouca sequência disponível, tais como em metagenómica ou dactilografia livre de cultura, bem como fornecer uma terceira alternativa para confirmar outras análises.
a identificação de um conjunto de marcadores genéticos capazes de identificar exclusivamente todos os serovares prevalentes numa região pode também ser útil nos ensaios moleculares de desenvolvimento. Estes ensaios seriam úteis em isolados de serotipagem onde as culturas já não são obtidas e a serotipagem tradicional é, portanto, impossível. Por exemplo, um conjunto de ensaios de PCR poderia ser projetado para permitir a detecção sensível de marcadores genéticos específicos, e, portanto, permitir a previsão do serovar, a partir de uma amostra clínica. Além disso, ao eliminar a necessidade de detectar serovares que são muito raramente observados numa região, o número destes marcadores genéticos necessários para detectar todos os serovares principais numa região pode ser significativamente reduzido, permitindo um doseamento mais rentável.
Conclusão
neste estudo foram identificadas candidato sorovar específicas de genes marcadores e candidato linhagem-específicos de genes marcadores para 106 sorovares-se por caracterizar o acessório de genomas de uma selecção representativa da 2258 cepas como potenciais marcadores de in silico serotyping. Temos conta para polyphyletic e parafilético sorovares para fornecer um novo método, utilizando a presença ou ausência destes genes marcadores, para prever o sorovar de um isolado a partir de dados genômicos. Os marcadores genéticos identificados aqui também podem ser usados para desenvolver testes de serotipagem na ausência de uma estirpe isolada que será útil à medida que o diagnóstico se move para a cultura independente e métodos metagenômicos.
contribuições do autor
MP e RL projetaram o estudo e forneceram revisão crítica do manuscrito. XZ e MP realizaram a análise Bioinformática. XZ, MP e RL analisaram os resultados. O XZ redigiu o manuscrito.Este trabalho foi apoiado por um subsídio do National Health and Medical Research Council.
Declaração de conflito de interesses
os autores declaram que a investigação foi realizada na ausência de quaisquer relações comerciais ou financeiras que possam ser interpretadas como um potencial conflito de interesses.
material suplementar
o Material suplementar para este artigo pode ser encontrado online em:: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material
FIGURA S1 | SNP baseado árvore filogenética construída pelo ParSNP mostrando as relações evolutivas dentro e entre os sorovares usando 1344 isolados representativos incluindo 1258 isolados a partir de 107 sorovares considerados no estudo e 86 isolados de sorovares com menos de 5 rSTs que foram excluídos do estudo.
quadro S1 / o conjunto de dados finais de 2258 genomas de previsão serovares de alta qualidade e consistente representando 107 serovares.
TABLE S2 / a total of 414 candidate serovar-specific genes including 295 serovar-specific genes and 119 lineage-specific genes.
tabela S3 / um adicional de 1089 isolados de validação com resultados de predição serovar por marcadores genéticos SISTR,SeqSero e serovar.
quadro S4 / um mínimo de 131 genes para identificação de 106 serovares.
tabela S5 / um conjunto de 65 genes para identificação de 46 serovares comuns.dados S1 / sequências de 131 marcadores genéticos específicos do serovar.
abreviatura
FN, falsos negativos; FP, falsos positivos; FPR, taxa de falsos positivos; MLST, multi-locus sequence typing; NEPSS, Nacional Patógenos Entéricos de Fiscalização do Regime; PPV, valor preditivo positivo; rSTs, ribossomal MLST ms / Pts; SISTR, Salmonella in silico de digitação de recursos; TN, verdadeiros negativos; TNR, a verdadeira taxa negativa; TP, verdadeiros positivos; TPR, a verdadeira taxa positiva.
Footnotes
- ^ https://www.ebi.ac.uk/ena
- ^ http://bioinf.spbau.ru/spades
- ^ http://bioinf.spbau.ru/quast
- ^ http://github.com/marbl/harvest
- ^ https://www.ncbi.nlm.nih.gov/
- ^ http://rast.theseed.org/FIG/rast.cgi
Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776
PubMed Abstract | CrossRef Full Text | Google Scholar
Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001
PubMed Abstract | CrossRef Full Text | Google Scholar
Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). A genomic overview of the population structure of Salmonella. PLoS Genet. 14: e1007261. doi: 10.1371 / journal.pgen.1007261
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Allard, M. W., Luo, Y., Tensão, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). On the evolutionary history, population genetics and diversity among isolates of Salmonella Enteritidis PFGE pattern JEGX01. 0004. PLoS um 8: e55254. doi: 10.1371 / journal.pone.0055254
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Arndt, D., Conceder, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: uma versão melhor e mais rápida da ferramenta PHAST phage search. Nucleic Acids Res. 44, W16–W21. doi: 10.1093/nar/gkw387
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Powell, D. G., Painset, A., et al. (2016). Identificação de salmonelas para vigilância da saúde pública utilizando sequenciação do genoma total. PeerJ 4: e1752. doi: 10.7717/peerj.1752
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Aziz, R. K., Bartels, D., Melhor, A. A., DeJongh, M., Disz, T., Edwards, R. A., et al. (2008). The RAST Server: rapid annotations using subsistemas technology. BMC Genomics 9: 75. doi: 10.1186/1471-2164-9-75
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., et al. (2012). SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Bispo, A. L., Batista, S., Jenks, S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Análise da região hipervariável do genoma da Salmonella enterica associado ao tRNAleuX. J. Bacteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005
PubMed Abstract | CrossRef Full Text | Google Scholar
Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005
PubMed Abstract | CrossRef Full Text | Google Scholar
den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). A sequenciação do genoma revela a diversificação do teor do factor de virulência e a possível adaptação do hospedeiro em subpopulações distintas de Salmonella enterica. BMC Genomics 12: 425. doi: 10.1186/1471-2164-12-425
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Deng, X., Desai, P. T., den Bakker, H. C., Mikoleit, M., Tolar, B., Árvores, E., et al. (2014). Epidemiologia genómica da Salmonella enterica serótipo Enteritidis baseada na estrutura populacional de linhagens prevalentes. Esmerg. Infectar. S. 20, 1481–1489. doi: 10.3201 / eid2009.131095
PubMed Abstract | CrossRef Full Text | Google Scholar
Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925
PubMed Abstract | CrossRef Full Text | Google Scholar
Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, conjunto de suspensão à base de contas para a determinação molecular dos serogrupos comuns de Salmonella. J. Clin. Microbiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Graham, R. M., Hiley, L., Rathnayake, I. U., e Jennison, A. V. (2018). Comparative genomics identifies distinct lineages of S. Enteritidis from Queensland, Australia. PLoS ONE 13: e0191042. doi: 10.1371 / journal.pone.0191042
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Desenvolvimento de um microarray de ADN para a identificação molecular dos 46 serogrupos de Salmonella O. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Gurevich, A., Saveliev, V., Vyahhi, N., e Tesler, G. (2013). QUAST: quality assessment tool for genome assemblies. Bioinformática 29, 1072-1075. doi: 10.1093/bioinformatics/btt086
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Eis Fo Wong, D. M., Jensen, A. B., et al. (2011). Global monitoring of Salmonella serovar distribution from the World health organization global foodborne infections network country data bank: results of quality assured laboratories from 2001 to 2007. Pathog Foodborne. S. 8, 887–900. doi: 10.1089 / fpd.2010.0787
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Kang, M. S., Kwon, Y.-K., Jung, B.-Y. Kim, A., Lee, K. M., Um, B. K., et al. (2011). Identificação diferencial de Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum and Pullorum based on polymorphic regions of glgC and speC genes. Veterinario. Microbiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039
PubMed Abstract | CrossRef Full Text | Google Scholar
Kingsley, R. A., and Bäumler, A. J. (2000). Adaptação do hospedeiro e Emergência de doenças infecciosas: o paradigma da salmonela. Mol. Microbiol. 36, 1006–1014. doi: 10.1046 / J. 1365-2958.2000.01907.x
PubMed Abstract | CrossRef Full Text/Google Scholar
Laing, C. R., Whiteside, M. D., and Gannon, V. P. (2017). Análises Pan-genómicas da espécie Salmonella enterica e identificação de marcadores genómicos preditivos para espécies, subespécies e serovar. Frente. Microbiol. 8:1345. doi: 10.3389/fmicb.2017.01345
PubMed Abstract / CrossRef Full Text/Google Scholar
Le Minor, L., and Bockemühl, J. (1984). Supplément no XXVII au schéma de Kauffmann-White. Anao. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016/S0769-2609(84)80042-3
CrossRef Texto Completo | Google Scholar
Le Minor, L., Popoff, M., e Bockemühl, J. (1990). Suplemento 1989 (n. ° 33) ao regime Kauffmann-White. Res. Microbiol. 141, 1173-1177. doi: 10.1016/0923-2508(90)90090-D
CrossRef Texto Completo | Google Scholar
McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L. Brenner, F. e Campos, P. I. (2004). Sequenciamento e análise comparativa de genes fliC, fljB e flpA de Salmonella. J. Clin. Microbiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Ogunremi, D., Nadin-Davis, S., Dupras, A. A., Márquez, I. G., Omidi, K., o Papa, L., et al. (2017). Avaliação de um ensaio multiplex PCR para a identificação de Salmonella serovars enteritidis e typhimurium utilizando amostras de retalho e abattoir. J. Food Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Página, A. J., Cummins, C. A., Caça, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: rapid large-scale prokaryote pan genome analysis. Bioinformática 31, 3691-3693. doi: 10.1093/bioinformatics/btv421
PubMed Abstract | CrossRef Full Text | Google Scholar
Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005
PubMed Abstract | CrossRef Full Text | Google Scholar
Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Avaliação exaustiva da qualidade dos dados da sequência genómica total da Salmonella disponíveis em bases de dados de sequência públicas, utilizando o recurso “Salmonella in silico typing resource” (SISTR). Microb. Genomics doi: 10.1099 / mgen.0.000151 .
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Santiviago, C. A., Blondel, C. J., Quezada, C. P., Silva, C. A., Tobar, P. M., Porwollik, S., et al. (2010). Excisão espontânea do elemento profético específico específico da Salmonella enterica serovar Enteritidis defeituoso φSE14. J. Bacteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09
PubMed Abstract | CrossRef Full Text | Google Scholar
Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.
Google Scholar
Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformatics/btu153
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Timme, R. E., Pettengill, J. B., Allard, M. W., Tensão, E., Barrangou, R., Wehnes, C., et al. (2013). Diversidade filogenética do agente patogénico Salmonella enterica subsp. enterica inferida a partir de caracteres SNP livres de referência em todo o genoma. Genoma Biol. Evol. 5, 2109–2123. doi: 10.1093/gbe/evt159
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Treangen, T. J., Ondov, B. D., Koren, S., e Phillippy, A. M. (2014). A suíte de colheita para o alinhamento rápido do núcleo-genoma e visualização de milhares de genomas microbianos intraespecíficos. Genoma Biol. 15:524. doi: 10.1186/s13059-014-0524-x
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Vernikos, G. S., Thomson, N. R., e Parkhill, J. (2007). Fluxo genético ao longo do tempo na linhagem de salmonelas. Genoma Biol. 8: R100. doi: 10.1186/gb-2007-8-6-r100
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Wattiau, P., Boland, C., e Bertrand, S. (2011). Metodologias para a Salmonella enterica ssp enterica subtyping: gold standards and alternatives. Appl. Ambiente. Microbiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H., e Imberechts, H. J. (2008). Comparação do ensaio clássico de serotipagem e pré-teste para a identificação de rotina de serovares comuns de Salmonella enterica. J. Clin. Microbiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Yachison, C. A., Yoshida, C., Carvalho, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., et al. (2017). Validação e implicações da utilização do sequenciamento do genoma como substituto da serotipagem tradicional para um laboratório nacional de Referência de Salmonella. Frente. Microbiol. 8:1044. doi: 10.3389/fmicb.2017.01044
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H., et al. (2016). The Salmonella in silico typing resource( SISTR): um instrumento aberto acessível na web para a rápida dactilografia e subtipo de projectos de conjuntos de genoma de Salmonella. PLoS One 11: e0147101. doi: 10.1371 / journal.pone.0147101
PubMed Resumo | CrossRef Texto Completo | Google Scholar
Zhang, S., Yin, Y., Silva, M. B., Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Determinação do serótipo de salmonelas utilizando dados de sequenciação do genoma de elevado rendimento. J. Clin. Microbiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15
PubMed Abstract | CrossRef Full Text/Google Scholar
Zou, Q.-H., Li, R.-Q., Liu, G.-R., e Liu, S.-L. (2016). Genotipagem de salmonelas com genes específicos da linhagem: correlação com a serotipagem. T. J. Infect. S. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029
PubMed Abstract | CrossRef Full Text | Google Scholar
Zou, Q.-H., Li, R.-Q., Wang, Y.-J., e Liu, S.-L. (2013). Identificação de genes para diferenciar linhagens de Salmonella estreitamente relacionadas. PLoS 1 8: e55988. doi: 10.1371/journal.pone.0055988
PubMed Abstract | CrossRef Full Text | Google Scholar