Articles

Frontiers in Microbiology

Introducción

La salmonella causa salmonelosis humana e infecciones de animales de sangre caliente (Kingsley y Bäumler, 2000). El género Salmonella se divide en dos especies, S. enterica y S. bongori. el serotipado clasifica además a la salmonela en más de 2.600 serotipos (serovares) a través de la reacción de aglutinación de antisueros a tres antígenos de superficie O, H1 y H2 (Le Minor y Bockemühl, 1984; Le Minor et al., 1990). Hay 46 antígenos que identifican el serogrupo. Junto con 119 antígenos de flagelina H1 y H2, las combinaciones de O, H1 y H2 identifican los serovares. Solo una pequeña proporción de los serovares son responsables de la mayoría de las infecciones por salmonella en humanos (Popoff et al., 2004).

El serotipado por aglutinación antigénica está siendo reemplazado por el serotipado molecular (Cai et al., 2005; Wattiau et al., 2011). Esto se puede lograr mediante el examen de la secuencia del grupo de genes del antígeno O, el gen codificador del antígeno H1 fliC y el gen codificador del antígeno H2 fljB (Fitzgerald et al., 2007). Los grupos de genes del antígeno O se pueden diferenciar por presencia o ausencia de genes, mientras que los antígenos H1 y H2 se diferencian por variación de secuencia (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). Los serotipos de salmonela también se pueden inferir a través de MLST (Wattiau et al., 2011; Achtman et al., 2012) como serotipo se puede inferir por sus tipos de secuencia. Sin embargo, un requisito previo para este enfoque es que se requiere un conocimiento previo de la relación correspondiente de serovar con el tipo de secuencia.

Recientemente, con el desarrollo de la comparación basada en secuencias de genoma completo, varios estudios han identificado marcadores genómicos como un método molecular alternativo para el serotipado. Zou et al. (2016) identificaron siete genes que proporcionan una resolución suficiente para diferenciar 309 cepas de salmonela que representan 26 serovares y encontraron genes específicos de serovares en 13 de 26 serovares. Laing et al. (2017) identificaron fragmentos genómicos específicos de especies y subespecies de Salmonella a través del análisis de todo el genoma. Estos genes específicos o fragmentos de ADN se han utilizado como blancos moleculares para desarrollar múltiples ensayos moleculares para la rápida identificación y detección de Salmonella a nivel de especie y serovar. Sin embargo, estos genes específicos o fragmentos de ADN están limitados en su capacidad discriminativa debido a su capacidad para distinguir solo un número menor de serovares.

En este estudio, nuestro objetivo fue utilizar la extensa colección de genomas de Salmonela disponible públicamente para identificar marcadores genéticos específicos de serovares para los serovares de Salmonela más frecuentes. Mostramos el potencial de estos marcadores genéticos específicos de serovares como marcadores para el serotipado molecular, ya sea para la tipificación in silico de datos genómicos o para el desarrollo de métodos de diagnóstico de laboratorio.

Materiales y métodos

Selección de Aislados basada en ST MLST Ribosomal

La base de datos de Salmonella en la Enterobase (Alikhan et al., 2018) a partir de marzo de 2018 se consultó y se examinaron 118997 aislados. Se seleccionaron aislamientos representativos para cada RST y se extrajeron mediante un script python interno. En este estudio solo se incluyeron serovares con más de cuatro RST. Para los 20 serovares más grandes, solo se seleccionaron aleatoriamente aislados representativos de RST con dos o más aislados. Para los serovares restantes, se seleccionó aleatoriamente un aislado representativo para cada rST. Las lecturas en bruto de estos aislados se obtuvieron de ENA (European Nucleotide Archive1) y se ensamblaron de novo utilizando el ensamblador SPAdes v3.10.1 con ajustes predeterminados2 (Bankevich et al., 2012). El serovar de los genomas ensamblados fue predicho por SISTR (Yoshida et al., 2016) después de cumplir con los siguientes criterios que fueron definidos por Robertson et al. (2018) utilizando QUAST3 (Gurevich et al., 2013): tamaño de ensamblaje entre 4 y 6 Mb con el número de contig menores de 500, el contig mayor de 100 kb, contenido de GC entre 50 y 54%, gen predicho por glimmer dentro de QUAST más de 3000. Se examinó la concordancia entre las predicciones de serovares SISTR resultantes y el serovar reportado en el registro de metadatos de la Enterobase y se eliminó un pequeño número de genomas del análisis debido a predicciones de serovares inconsistentes. El conjunto de datos final consistió en 2.258 genomas de alta calidad con predicción serovar consistente que representaban 107 serovares (Tabla Suplementaria S1).

Identificación de Marcadores de Genes Candidatos Específicos para Serovares de Salmonella

Para determinar los marcadores potenciales de genes específicos para serovares de 107 serovares, se anotaron los 2258 genomas utilizando PROKKA (Seemann, 2014). El genoma pan y el genoma central fueron analizados por roary (Page et al., 2015) utilizando un umbral de identidad de secuencia del 80%. Los genes específicos de cada serovar se identificaron a partir de los genes accesorios del pan-genoma con un script python interno. En este estudio, el número de genomas de un serovar dado que contiene un gen específico para ese serovar se denominó verdadero positivo (TP), el número de genomas del mismo serovar que carecen del mismo gen se denominó falso negativo (FN). El número de genomas de otros serovares que contienen el mismo gen específico de serovares se denominó falso posivo (PF). Inicialmente se utilizaron cortes relajados (20% FN, 10% FP) para garantizar que todos los serovares tuvieran genes específicos candidatos que pudieran investigarse más a fondo. Se eliminaron genes paralógicos de los análisis.

Evaluación de Marcadores Potenciales de Genes Específicos de Serovares

La puntuación F1 se utilizó para la selección inicial de los marcadores potenciales de genes específicos de serovares. La puntuación F1 se evaluó con base en la fórmula: 2 × (VPP × Sensibilidad) / (VPP + Sensibilidad), donde el VPP se definió como TP/(TP+FP) y la sensibilidad se definió como TP/(TP+FN). El F1 varía de 0 a 1, donde 1 significa el gen específico de un serovar que estaba presente en todos los genomas de un serovar dado y ausente en todos los genomas de otros serovares. Los marcadores de genes específicos de serovares se seleccionaron utilizando el gen de mejor rendimiento para cada serovar en función de la puntuación F1. La especificidad definida como TN/(TN+PF) se utilizó para evaluar la tasa de verdadero negativo (TN) de marcadores genéticos específicos de serovares. La tasa de falsos positivos (RPF) se definió mediante 1 – TNR.

Análisis filogenéticos

Se investigaron las relaciones filogenéticas de los serovares involucrados con el fin de determinar las causas de los falsos negativos observados y de los PRF en los marcadores genéticos específicos de los serovares candidatos. Los conjuntos preliminares de 1258 aislados se utilizaron para generar árboles filogenéticos utilizando parsnp v1.24 (Treangen et al., 2014) con parámetros predeterminados para determinar la filogenia entre y dentro de los serovares. El árbol fue visualizado por FigTree v1. 4.3 (Schneider et al., 2000).

La ubicación y las Funciones de los Marcadores de Genes Específicos de Serovares

Genomas completos representativos de cada característica genética que contiene serovares se descargaron de NCBI5 y se utilizaron para determinar la ubicación de cada gen específico de serovares candidato mediante BLASTN con ajustes predeterminados (versión 2.2.6, Cuadro Suplementario S2). En serovares sin genoma completo representativo, se seleccionó un genoma representativo de los aislados reunidos en este estudio. Las secuencias de marcadores genéticos específicos de serovares se incluyen en los Datos suplementarios S1. La agrupación de genes a lo largo del genoma se utilizó para investigar si los marcadores genéticos específicos de serovares eran potencialmente parte de un solo elemento obtenido por un serovar en un evento. Los marcadores de genes específicos de serovares candidatos se consideraron como un grupo si estaban ubicados a menos de 5 kb el uno del otro.

Las categorías funcionales de marcadores genéticos se identificaron a partir de la anotación RAST6 (Aziz et al., 2008). Las secuencias de profagos dentro de los genomas de referencia de los serovares se identificaron mediante el uso de PHASTER para indicar si los marcadores genéticos específicos de los serovares pueden haberse adquirido junto con profagos (Herramienta de Búsqueda de fagos de Liberación Mejorada) (Arndt et al., 2016).

Predicción de Serotipos In silico Utilizando Marcadores Genéticos Específicos de Serovares

Se seleccionaron 1089 aislados adicionales de la Enterobase utilizando un script python interno con la exclusión de 2258 aislados utilizados para el cribado inicial de la misma base de datos a marzo de 2018 (Tabla Suplementaria S3). BLASTN se utilizó para buscar en los 1089 genomas pertenecientes a 106 serovares de Salmonella la presencia de cualquiera de los marcadores genéticos específicos de serovares. Los scripts de python personalizados se utilizaron para predecir serovares a partir de estas asignaciones de serovares en función del patrón de presencia de genes conocido para cada serovar. El TP se clasificó como el número total de serovares correctamente asignados y los casos en los que se llamó al serovar correcto, así como a uno o más PF. La asignación fallida se definió cuando no se llamaban serovares o serovares incorrectos. Las predicciones serovares se compararon con SeqSero (Zhang et al., 2015) y predicciones de SISTR.

Cálculo de la Especificidad de los Marcadores de Genes Específicos de Serovares Candidatos para Serovares Comunes

La especificidad de la tasa de tipificación para serovares comunes (Hendriksen et al., 2011) fue igual a (1-tasa de error potencial). La tasa de error potencial de los marcadores génicos específicos de serovares definidos por la fórmula: (Número de FPs)∗(La frecuencia de ese serovar en una región dada) / (Total de genomas de ese serovar).

Resultados

Identificación de Marcadores de Genes Específicos de Serovares candidatos

Se examinaron los genes accesorios de 2.258 genomas que representaban 107 serovares para identificar posibles marcadores de genes específicos de serovares. Este examen inicial identificó 354 marcadores genéticos potenciales específicos de serovares en 101 serovares. Seis serovares, a saber, Bareilly, Bovismorbificans, Thompson, Reading, Typhi y Saintpaul, no tenían marcadores genéticos específicos de serovares candidatos que estuvieran presentes en todos los linajes de un serovar dado. La especificidad (TNR) y la sensibilidad (TPR) de los 354 marcadores genéticos específicos de serovares candidatos también se examinaron y resumieron en la Figura 1. Cuarenta serovares contenían 194 marcadores de genes serovares específicos con 100% de especificidad y sensibilidad (sin FN ni FP), mientras que 31 serovares contenían 80 marcadores de genes serovares específicos candidatos con 100% de sensibilidad pero con menos de 100% de especificidad (PF variado). Nueve serovares contenían 27 marcadores genéticos específicos de serovares candidatos con una especificidad del 100% pero con una sensibilidad inferior al 100% (NF variado). Los 21 serovares restantes contenían 53 marcadores genéticos específicos de serovares candidatos con especificidad y sensibilidad inferiores al 100% (FN y FP variados).

FIGURA 1.
www.frontiersin.org

la Figura 1. Distribución de la sensibilidad y especificidad de 354 marcadores genéticos potenciales específicos de serovares. TPR, tasa positiva verdadera; FPR, tasa positiva falsa. Donde se muestra un degradado de azul claro (porcentaje bajo) a azul oscuro (porcentaje alto).

Se construyó un árbol filogenético utilizando 1258 aislados representativos de 107 serovares utilizando ParSNP (Figura Suplementaria S1). Los 1258 aislados se seleccionaron en función de las relaciones filogenéticas de los 2258 aislados iniciales de los que seleccionamos aislados para representar cada linaje independiente. Encontramos que los miembros de cada uno de los 82 serovares formaban un linaje monofilético, mientras que 24 serovares eran polifiléticos con cada uno compuesto de 2 a 4 linajes. Se sabe que varios de estos serovares son polifiléticos y es poco probable que contengan marcadores genéticos específicos de serovares (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serovar Enteritidis es parafilético con otros tres serovares (Dublín, Berta y Gallinarium) que surgen dentro del clado Enteritidis más grande, que a su vez está compuesto por tres linajes conocidos como clado A, B y C (Graham et al., 2018). Los cinco marcadores de genes candidatos específicos de Enteritidis fueron negativos para los aislados de Enteritidis que se agruparon por separado en el árbol.

Curiosamente, para cuatro serovares polifiléticos, Bredeney, Kottbus, Livingstone y Virchow, cada uno tenía un gen específico de serovares candidato que estaba presente en todos los aislados de ese serovar. Para los 20 serovares polifiléticos restantes y Enteritidis serovares parafiléticos, se buscaron marcadores genéticos específicos del linaje, ya que cada serovar contenía más de un linaje. Si todos los linajes contenían al menos un gen específico del linaje, consideramos que el serovar contiene marcadores genéticos específicos del serovar. Se identificaron un total de 111 marcadores genéticos potenciales específicos del linaje para 19 serovares polifiléticos y Enteritidis serovares parafiléticos, entre los cuales, se identificaron 27 marcadores genéticos específicos del linaje para 5 serovares con 100% de especificidad y sensibilidad (sin FN ni FP), 76 marcadores genéticos específicos del linaje candidatos para 14 serovares con 100% de sensibilidad y menos de 100% de especificidad (PF variado), y Enteritidis que contiene 6 marcadores genéticos específicos del linaje candidatos con FN y PF variados (Tabla 1).

TABLA 1
www.frontiersin.org

Cuadro 1. Marcadores de genes candidatos específicos del linaje para serovares polifiléticos y serovares parafiléticos.

Para los 11 de los 82 serovares monofiléticos que carecían de marcadores génicos candidatos específicos de serovares debido a FN, encontramos que el FN a menudo se debió a aislados que se agruparon en una rama y divergieron antes de los otros aislados. Para estos grupos, buscamos marcadores genéticos específicos del linaje. Por lo tanto, se pueden usar dos o más marcadores genéticos para identificar un serovar y también se consideró que dichos serovares contenían marcadores genéticos específicos de serovares, similares a los serovares polifiléticos. Tres serovares, Paratyphi A, Heidelberg y Muenchen, podrían ser identificados por los marcadores génicos específicos del linaje combinados.

Un total de 414 marcadores de genes específicos de serovares candidatos, incluidos 295 marcadores de genes específicos de serovares y 119 marcadores de genes específicos de linaje, se resumen en la Tabla suplementaria S2. En total, 106 de 107 serovares contenían uno o más marcadores genéticos, 33 serovares contenían un gen específico, mientras que 73 contenían dos o más marcadores genéticos. No se encontraron marcadores genéticos específicos de serovares candidatos para el tifus monofilético y no se encontraron marcadores genéticos específicos de linaje potenciales para el linaje III de Stanleyville, que contenía solo un aislado.

Categorías funcionales de Marcadores Genéticos Específicos de Serovares

La caracterización funcional de los 414 marcadores genéticos identificados para los 106 serovares utilizando RAST encontró que 197 tenían funciones conocidas y 217 proteínas hipotéticas codificadas con funciones desconocidas. Solo 46 genes con anotaciones se pueden agrupar en categorías funcionales, mientras que 151 genes con funciones no estaban en categorías funcionales RAST (Tabla 2). Usando PHASTER. se localizaron 45 marcadores genéticos específicos de serovares candidatos dentro de los profagos predichos.

TABLA 2
www.frontiersin.org

la Tabla 2. Categorías funcionales de genes específicos de serovares.

Un Conjunto mínimo de Marcadores de Genes Específicos de Serovares para Serotipado Molecular in silico

Para muchos serovares, se identificaron múltiples marcadores de genes específicos de serovares candidatos o marcadores de genes específicos de linaje. En estos casos, se seleccionó un solo gen que tenía las tasas más bajas de FN y FP. Un mínimo de 131 marcadores genéticos permite la identificación de los serovares con tasas de error de 0 a 8,33%. La distribución de los marcadores génicos en los 106 serovares muestra un alto grado de especificidad, como se muestra en la Figura 2, en la que la diagonal muestra la relación uno a uno del serovar o linaje con los marcadores génicos específicos de serovares, mientras que el espacio fuera de la diagonal mostró una presencia dispersa de estos genes en otros serovares de porcentajes variados que indican una baja RPF. Los detalles de estos marcadores genéticos se listaron en la Tabla suplementaria S4. En total, 45 serovares se pueden distinguir por sus respectivos genes específicos de serovares y 61 serovares se pueden diferenciar por una combinación de marcadores genéticos.

FIGURA 2
www.frontiersin.org

la Figura 2. Distribución de un conjunto mínimo de 131 genes específicos de serovares en 106 serovares. El eje Y muestra serovares o marcadores genéticos específicos de linaje y el eje X muestra serovares o linajes. Los detalles se enumeran en el cuadro suplementario S4. Gray indicó cero genomas que contenían un gen (TN). Los pares de genes y genomas a lo largo de la diagonal representan genomas que contienen los marcadores genéticos específicos de serovares que coinciden con su serovar (TP). El rojo representa los genes que están presentes en el 100% de los genomas de un serovar o linaje determinado. Cuando un gen está presente en menos del 100% de un serovar, se muestra un gradiente de azul claro (porcentaje bajo) a azul oscuro (porcentaje alto). Los pares azules a lo largo de la diagonal representan la presencia de FN. Los pares que son azules o rojos fuera de la diagonal representan pares que contienen genes que no coinciden con el serovar predicho del genoma (PF).

Probamos 1089 genomas adicionales pertenecientes a 106 serovares de Salmonela no tifoidea para evaluar la capacidad de los 131 marcadores genéticos específicos para asignar correctamente serovares a aislados. Utilizando los marcadores de genes específicos de serovares, 1038 de los 1089 aislados (95,3%) se asignaron con éxito y 51 fallaron (4,7%). Para SISTR y SeqSero, el número de asignaciones serovares concordantes fue de 1037 (95%) y 905 (82,8%), respectivamente (Tabla Suplementaria S3).

Marcadores de Genes específicos de Serovares para Serotipado de Serovares Comunes

Los 20 serovares principales que causan infección humana se encuentran en cada continente (Hendriksen et al., 2011) se agruparon en una lista combinada de 46 serovares (Tabla suplementaria S5). Dado que estos serovares contenían la gran mayoría de los aislados que causaban infecciones humanas a nivel mundial, los consideramos por separado para evaluar la utilidad de los marcadores genéticos específicos de serovares candidatos para el serotipado de la mayoría de los serovares prevalentes en un entorno local. Cuando solo se consideraron estos serovares, 18 de 46 pudieron identificarse de forma única por uno de los marcadores genéticos específicos de serovares. Para aumentar la precisión de la tipificación en los restantes 28 serovares comunes donde los marcadores genéticos específicos de serovares tienen FPRs variados, examinamos utilizando subconjuntos de los 131 marcadores genéticos (que van de 2 a 9 genes por serovar) para eliminar la PF potencial. Por ejemplo, la combinación del gen específico de Choleraesuis y el gen específico del linaje Cerro-I puede eliminar el aislado falso positivo de Cerro de Choleraesuis, si ambos genes son positivos, el aislado podría asignarse a Cerro, mientras que si el gen específico del linaje Cerro-I es negativo, el aislado es Choleraesuis.

Para estimar posibles errores en la tipificación, se tuvo en cuenta la frecuencia de los 46 serovares comunes que mostraron grandes diferencias entre regiones (Hendriksen et al., 2011). Por lo tanto, se pueden usar diferentes combinaciones de genes para limitar específicamente los resultados falsos positivos de los serovares presentes en esa región. En una región determinada, la especificidad de los marcadores génicos específicos de serovares candidatos comunes se calculó utilizando la tasa de PF y la frecuencia del serovar falso positivo en esa región. La especificidad de los marcadores de genes específicos de serovares candidatos también se calculó utilizando la tasa de PF (Tabla Suplementaria S4). Por ejemplo, se podría utilizar un panel de 15 genes para tipificar los 10 serovares más frecuentes en Australia (NEPSS 2010) (Tabla 3). Cuando se tuvieron en cuenta las frecuencias regionales australianas, los genes enumerados en la Tabla 3 se pueden utilizar como marcadores para la tipificación en laboratorio y la tasa de error será inferior al 2,4%.

TABLA 3
www.frontiersin.org

la Tabla 3. Un panel de genes específicos de serovares para tipificar los diez serovares más frecuentes en Australia.

Discusión

El serotipado de salmonella ha sido vital para el diagnóstico y la vigilancia. La predicción de serovares mediante serotipado tradicional puede verse limitada por la falta de expresión de antígenos de superficie o propiedades de autoaglutinación (Wattiau et al., 2008). Recientemente, con el desarrollo de la tecnología de secuenciación del genoma completo, se pueden extraer y utilizar para la identificación de serovares las regiones genómicas pertinentes del grupo de genes rfb para el antígeno O, el gen fliC y el gen fljB para los antígenos H, y los genes a los que se dirige el MLST. Varios estudios han identificado genes específicos de serovares o fragmentos de ADN para serotipado a través de una comparación genómica basada en la secuenciación del genoma completo (Zou et al., 2013, 2016; Laing et al., 2017). Sin embargo, estos genes específicos de serovares o fragmentos de ADN solo distinguían un pequeño número de serovares. En este estudio, identificamos 414 marcadores de genes específicos de serovares o de linaje candidatos para 106 serovares, que incluyen 24 serovares polifiléticos y Enteritidis serovar parafilético. Un subconjunto de estos marcadores génicos fueron validados por genomas independientes y fueron capaces de asignar serovares correctamente en el 95,3% de los casos.

El análisis anterior se complicó por la presencia de serovares polifiléticos, que surgen independientemente de antepasados separados para formar linajes separados. Por lo tanto, se requirió una combinación de marcadores genéticos específicos del linaje para la identificación clara de la mayoría de los serovares polifiléticos. Curiosamente, cuatro serovares polifiléticos, Bredeney, Kottbus, Livingstone y Virchow, cada uno tenía un marcador genético específico de serovar candidato que estaba presente en todos los aislados de ese serovar. Se predijo que el gen específico de los serovares de Bredeney codificaría una translocasa involucrada en la conversión del antígeno O y podría haberse obtenido en paralelo. Los genes serovares específicos de los otros tres serovares polifiléticos codifican proteínas hipotéticas con función desconocida y sin explicación aparente para su presencia en diferentes linajes del mismo serovar.

A diferencia de los serovares polifiléticos, los tres linajes (clado A, B y C) del serovar parafilético Enteritidis comparten un ancestro común reciente. Los clados A y C son ancestrales al Clado B. Estudios previos describieron que Enteritidis estaba agrupado con los serovares Dublín, Berta y Gallinarium, a los que se llamó «Sección Enteritidis» (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). Otro estudio mostró que serovar Nitra estaba incrustado en los linajes de Enteritidis mediante el uso de filogenia de genoma completo (Deng et al., 2014). También hubo reactividad cruzada entre Enteritidis y Nitra según el estudio de Ogunremi (Ogunremi et al., 2017). En nuestro estudio, seleccionamos los aislados con base en RST, Nitra no estaba presente en la base de datos rMLST de Enterobase cuando se inició este estudio y, por lo tanto, no se incluyó en este estudio. Gallinarium se distingue de Enteritidis por la presencia de una deleción de 4 pb en el gen speC (Kang et al., 2011). Observamos que los ancestros comunes de los serovares Dublin, Berta y Gallinarium surgieron de un ancestro entre los Clados B y A/C. Si bien Dublín se puede identificar por separado, no podemos distinguir Berta o Gallinarium del clado Enteritidis A/C. Estos resultados destacan una limitación del enfoque, ya que los serovares deben ser lo suficientemente divergentes para que difieran por al menos un gen único. Del mismo modo, había otros 8 serovares que no se distinguían probablemente debido a la ascendencia compartida muy reciente con poca adquisición de genes.

Los marcadores de genes candidatos específicos de serovares o los marcadores de genes candidatos específicos de linaje en 69 de 106 serovares eran contiguos en el genoma con funciones similares agrupadas (no se muestran datos). Esto sugiere que estos marcadores genéticos pueden haber sido incorporados en genomas serovares juntos a través de la transferencia horizontal de genes. De hecho, los siete marcadores de genes candidatos específicos de Tifimurio identificados en este estudio (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497 y STM4498) se ubicaron en la región de Typhimurium tRNAleuX que integra elementos conjugativos relacionados con genes de STM4488 a STM4498, que es un punto de transferencia de genes horizontal conocido (Bishop et al., 2005). De manera similar, se identificaron cinco marcadores genéticos candidatos específicos de Enteritidis (SEN1379, SEN1380, SEN1382, SEN1383 y SEN1383) en la región Sdr I (Agron et al., 2001) y la región del IEG/φSE14 similar a un profeta (Santiviago et al., 2010). Ambas regiones están vinculadas a profagos, lo que sugiere que estas regiones se integraron en el genoma de un ancestro común del clado Enteritidis global y se derivaron de la transferencia horizontal de genes.

Otros métodos para la predicción de serovares in silico se implementan en SeqSero (Zhang et al., 2015) y SISTR (Yoshida et al., 2016). Ambos métodos examinan las regiones genómicas responsables de los antígenos de superficie, mientras que SISTR también implementa un esquema cgMLST para examinar la relación genética general. Además, los grupos tradicionales de 7 genes MLST y eBURST derivados de él también se pueden usar para la determinación de serovares in silico (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Tanto SISTR como SeqSero proporcionan un mayor poder discriminatorio que la identificación serovar tradicional (Yachison et al., 2017). Sin embargo, tienen una serie de inconvenientes, como serovares indistinguibles que tienen la misma fórmula antigénica o determinantes antigénicos que no se expresan (Robertson et al., 2018). En el estudio actual, examinamos la predicción de serovares in silico mediante el cribado de genomas contra un conjunto de 131 marcadores genéticos específicos de serovares. El enfoque proporcionó predicción de serovares al producir «presencia o ausencia» de marcadores génicos específicos de serovares individuales o combinación de marcadores génicos en un aislado de consulta. Mostramos que los marcadores genéticos específicos de serovares tienen una precisión comparable a otros métodos de serotipado in silico con un 91,5% de aislados del conjunto de datos de identificación inicial y un 84,8% de aislados de un conjunto de datos de validación asignado al serovar correcto (sin FN y FP). 10.el 5% de los aislados del conjunto de datos de validación se pueden asignar a un pequeño subconjunto de serovares que contengan el serovar correcto (con FP variado). La especificidad para el enfoque de predicción de serovares in silico por marcadores de genes específicos de serovares fue del 95,3%, ligeramente superior a SISTR (95%) y SeqSero (82,8%) en el mismo conjunto de datos que probamos. Este resultado fue similar a las especificidades de SISTR y SeqSero reportadas por Yachison et al. (2017), que fueron del 94,8% y el 88,2%, respectivamente.

Nuestro método basado en marcadores de genes específicos de serovares no requiere el examen preciso de los grupos de genes del antígeno O o la variación de la secuencia de los genes del antígeno H, lo que puede ser problemático. Nuestro método también alivia la necesidad de ensamblar todo el gen o la secuencia del genoma, lo que es necesario en métodos basados en MLST o cgMLST. Por lo tanto, este enfoque puede ser útil para casos en los que se dispone de muy poca secuencia, como en metagenómica o tipificación libre de cultivos, además de proporcionar una tercera alternativa para confirmar otros análisis.

La identificación de un conjunto de marcadores genéticos capaces de identificar de forma única todos los serovares prevalentes en una región también puede ser útil en los ensayos moleculares de desarrollo. Estos ensayos serían útiles en el serotipado de aislados en los que ya no se obtienen cultivos y, por lo tanto, el serotipado tradicional es imposible. Por ejemplo, se podría diseñar un conjunto de ensayos de PCR que permitieran la detección sensible de marcadores genéticos específicos y, por lo tanto, permitir la predicción del serovar, a partir de una muestra clínica. Además, al eliminar la necesidad de detectar serovares que se observan muy raramente en una región, el número de estos marcadores genéticos necesarios para detectar todos los serovares principales en una región se puede reducir significativamente, lo que permite un ensayo más rentable.

Conclusión

En este estudio identificamos marcadores de genes específicos de serovares candidatos y marcadores de genes específicos de linaje candidatos para 106 serovares caracterizando los genomas accesorios de una selección representativa de 2258 cepas como marcadores potenciales para serotipado in silico. Contamos con serovares polifiléticos y parafiléticos para proporcionar un nuevo método, utilizando la presencia o ausencia de estos marcadores genéticos, para predecir el serovar de un aislado a partir de datos genómicos. Los marcadores genéticos identificados aquí también se pueden usar para desarrollar ensayos de serotipado en ausencia de una cepa aislada, lo que será útil a medida que el diagnóstico se mueva a métodos metagenómicos y independientes del cultivo.

Contribuciones de los autores

MP y RL diseñaron el estudio y proporcionaron una revisión crítica del manuscrito. XZ y MP realizaron el análisis bioinformático. XZ, MP y RL analizaron los resultados. XZ redactó el manuscrito.

Financiación

Este trabajo recibió el apoyo de una subvención para proyectos del Consejo Nacional de Salud e Investigación Médica.

Declaración de Conflicto de Intereses

Los autores declaran que la investigación se realizó en ausencia de relaciones comerciales o financieras que pudieran interpretarse como un posible conflicto de intereses.

Material suplementario

El Material Suplementario para este artículo se puede encontrar en línea en: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

FIGURA S1 | El árbol filogenético basado en SNP construido por ParSNP que muestra las relaciones evolutivas dentro y entre serovares utilizando 1344 aislados representativos, incluidos 1258 aislados de 107 serovares examinados en el estudio y 86 aislados de serovares con menos de 5 RST que de otro modo fueron excluidos del estudio.

TABLA S1 / Conjunto de datos finales de 2258 genomas de predicción serovares consistentes y de alta calidad que representan 107 serovares.

TABLA S2 / Un total de 414 genes específicos de serovares candidatos, incluidos 295 genes específicos de serovares y 119 genes específicos de linaje.

TABLA S3 / An 1089 aislados de validación adicionales con resultados de predicción de serovares por marcadores de genes serovares SISTR, SeqSero y serovares específicos.

TABLA S4 / Un mínimo de 131 genes para la identificación de 106 serovares.

TABLA S5 / A conjunto de 65 genes para la identificación de 46 serovares comunes.

DATOS S1 / Secuencias de 131 marcadores genéticos específicos de serovares.

Abreviatura

FN, falsos negativos; FP, falsos positivos; FPR, tasa de falsos positivos; MLST: tipificación de secuencia multi-locus; NEPSS: Esquema Nacional de Vigilancia de Patógenos Entéricos; VPP: valor predictivo positivo; RST: STS de MLST ribosómico; SISTR: recurso de tipificación in silico de Salmonella; TN: negativos verdaderos; TNR: tasa negativa verdadera; TP: positivos verdaderos; TPR: tasa positiva verdadera.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). A genomic overview of the population structure of Salmonella (en inglés). PLoS Genet. 14: e1007261. doi: 10.1371 / journal.pgen.1007261

Resumen de PubMed / Texto completo Cruzado / Google Scholar

Allard, M. W., Luo, Y., Strain, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). On the evolutionary history, population genetics and diversity among isolates of Salmonella Enteritidis PFGE pattern JEGX01. 0004. PLoS One 8: e55254. doi: 10.1371 / journal.ponga.0055254

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: una versión mejor y más rápida de la herramienta de búsqueda de PHAST phage. Ácidos nucleicos Res. 44, W16-W21. doi: 10.1093 / nar/gkw387

Resumen de PubMed / Texto completo cruzado / Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Powell, D. G., Painset, A., et al. (2016). Identificación de Salmonella para la vigilancia de la salud pública mediante secuenciación del genoma completo. PeerJ 4: e1752. doi: 10.7717 / peerj.1752

Resumen de PubMed / Texto completo Cruzado / Google Scholar

Aziz, R. K., Bartels, D., Best, A. A., deJongh, M., Disz, T., Edwards, R. A., et al. (2008). El servidor RAST: anotaciones rápidas utilizando tecnología de subsistemas. BMC Genomics 9: 75. doi: 10.1186 / 1471-2164-9-75

Resumen de PubMed | Texto completo cruzado | Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., et al. (2012). SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing (en inglés). J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

Resumen de PubMed / Texto completo Cruzado/Google Scholar

Bishop, A. L., Baker, S., Jenks, S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Análisis de la región hipervariable del genoma de Salmonella enterica asociada a tRNAleuX. J. Bacteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). La secuenciación del genoma revela la diversificación del contenido del factor de virulencia y la posible adaptación del huésped en distintas subpoblaciones de Salmonella enterica. BMC Genomics 12: 425. doi: 10.1186 / 1471-2164-12-425

Resumen de PubMed | Texto completo cruzado | Google Scholar

Deng, X., Desai, P. T., den Bakker, H. C., Mikoleit, M., Tolar, B., Trees, E., et al. (2014). Epidemiología genómica del serotipo Enteritidis de Salmonella enterica basada en la estructura poblacional de los linajes prevalentes. Emerg. Infectar. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Matriz de suspensión multiplex a base de perlas para la determinación molecular de serogrupos de salmonela comunes. J. Clin. Microbiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

Resumen de PubMed / Texto completo cruzado / Google Scholar

Graham, R. M., Hiley, L., Rathnayake, I. U., and Jennison, A. V. (2018). La genómica comparativa identifica distintos linajes de S. Enteritidis de Queensland, Australia. PLoS One 13: e0191042. doi: 10.1371 / journal.ponga.0191042

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Desarrollo de un microarray de ADN para la identificación molecular de los 46 serogrupos de Salmonella O. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

Resumen de PubMed / Texto completo Cruzado / Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N., and Tesler, G. (2013). QUAST: herramienta de evaluación de calidad para ensamblajes genómicos. Bioinformatics 29, 1072-1075. doi: 10.1093/bioinformática/btt086

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, A. B., et al. (2011). Global monitoring of Salmonella serovar distribution from the world health organization global foodborne infections network country data bank: results of quality assured laboratories from 2001 to 2007. Patógeno Transmitido por los Alimentos. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Kang, M. S., Kwon, Y.-K. Jung, B. Y., Kim, A., Lee, K. M., Una, B. K., et al. (2011). Identificación diferencial de Salmonella enterica subsp. enterica serovar Gallinarum biovares Gallinarum y Pullorum basados en regiones polimórficas de genes glgC y speC. Veterinario. Microbiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

Resumen de PubMed / Texto completo cruzado / Google Scholar

Kingsley, R. A., and Bäumler, A. J. (2000). Adaptación del huésped y aparición de enfermedades infecciosas: el paradigma de la salmonela. Mol. Microbiol. 36, 1006–1014. doi: 10.1046 / j. 1365-2958. 2000. 01907.x

Resumen de PubMed / Texto completo cruzado / Google Scholar

Laing, C. R., Whiteside, M. D., and Gannon, V. P. (2017). Análisis pangenómicos de la especie Salmonella enterica e identificación de marcadores genómicos predictivos para especies, subespecies y serovares. Delantero. Microbiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

Resumen de PubMed / Texto completo cruzado / Google Scholar

Le Minor, L., and Bockemühl, J. (1984). Supplément no XXVII au schéma de Kauffmann-White. Ana. Instituto Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609(84)80042-3

CrossRef Full Text | Google Scholar

Le Minor, L., Popoff, M., and Bockemühl, J. (1990). Suplemento 1989 (n° 33) del esquema Kauffmann-White. Res. Microbiol. 141, 1173-1177. doi: 10.1016/0923-2508 (90)90090-D

Texto completo cruzado | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F., and Fields, P. I. (2004). Secuenciación y análisis comparativo de genes flagelados fliC, fljB y flpA de Salmonella. J. Clin. Microbiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

Resumen de PubMed | Texto completo cruzado | Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., Márquez, I. G., Omidi, K., Pope, L., et al. (2017). Evaluación de un ensayo de PCR múltiple para la identificación de serovares de Salmonella enteritidis y typhimurium utilizando muestras de venta al por menor y matadero. J. Food Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

Resumen de PubMed | Texto completo cruzado | Google Scholar

Page, A. J., Cummins, C. A., Hunt, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: análisis rápido del genoma de pan de procariotas a gran escala. Bioinformatics 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Evaluación exhaustiva de la calidad de los datos de la secuencia del genoma completo de la Salmonela disponibles en bases de datos públicas de secuencias utilizando el recurso de tipificación in silico de Salmonella (SISTR). Microbio. Doi de genómica: 10,1099 / mgen.0.000151 .

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Santiviago, C. A., Blondel, C. J., Quezada, C. P., Silva, C. A., Tobar, P. M., Porwollik, S., et al. (2010). Escisión espontánea del elemento profágico defectuoso específico de Enteritidis de Salmonella enterica serovar φSE14. J. Bacteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformática/btu153

Resumen de PubMed / Texto completo Cruzado / Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. W., Strain, E., Barrangou, R., Wehnes, C., et al. (2013). Diversidad filogenética del patógeno entérico Salmonella enterica subsp. enterica inferida a partir de caracteres SNP sin referencia a todo el genoma. Genome Biol. Evol. 5, 2109–2123. doi: 10.1093/gbe / evt159

Resumen PubMed / Texto completo cruzado / Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S., and Phillippy, A. M. (2014). El conjunto Harvest para una rápida alineación del genoma central y visualización de miles de genomas microbianos intraespecíficos. Genome Biol. 15:524. doi: 10.1186 / s13059-014-0524-x

Resumen de PubMed / Texto completo cruzado / Google Scholar

Vernikos, G. S., Thomson, N. R., and Parkhill, J. (2007). Flujo genético a lo largo del tiempo en el linaje de la Salmonela. Genome Biol. 8: R100. doi: 10.1186 / gb-2007-8-6-r100

Resumen de PubMed / Texto completo cruzado / Google Scholar

Wattiau, P., Boland, C., and Bertrand, S. (2011). Metodologías para el subtipo de Salmonella enterica ssp enterica: estándares de oro y alternativas. Appl. Environ. Microbiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

Resumen de PubMed / Texto completo cruzado / Google Scholar

Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H., e Imberechts, H. J. (2008). Comparison of classical serotyping and PremiTest assay for routine identification of common Salmonella enterica serovars. J. Clin. Microbiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., et al. (2017). La validación y las implicaciones del uso de la secuenciación del genoma completo como reemplazo del serotipado tradicional para un laboratorio nacional de referencia de Salmonella. Delantero. Microbiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H., et al. (2016). The Salmonella in silico typing resource (SISTR) : una herramienta abierta accesible en la web para mecanografiar y subtiparar rápidamente conjuntos de genoma de Salmonella en borrador. PLoS One 11: e0147101. doi: 10.1371 / journal.ponga.0147101

PubMed Abstract | CrossRef Texto Completo | Google Scholar

Zhang, S., Yin, Y., Jones, M. B., Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Determinación del serotipo de salmonella utilizando datos de secuenciación genómica de alto rendimiento. J. Clin. Microbiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

Resumen de PubMed / Texto completo cruzado / Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R., and Liu, S.-L. (2016). Genotipado de Salmonella con genes específicos de linaje: correlación con el serotipado. Int. J. Infectar. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

Resumen de PubMed / Texto completo Cruzado / Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J., and Liu, S.-L. (2013). Identificación de genes para diferenciar linajes de Salmonela estrechamente relacionados. PLoS One 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar