Articles

Frontiers in Microbiology

Introduzione

La salmonella causa salmonellosi umana e infezioni di animali a sangue caldo (Kingsley e Bäumler, 2000). Il genere Salmonella è diviso in due specie, S. enterica e S. bongori. la sierotipizzazione classifica ulteriormente la salmonella in oltre 2.600 sierotipi (sierovari) attraverso la reazione di agglutinazione degli antisieri a tre antigeni di superficie O, H1 e H2 (Le Minor e Bockemühl, 1984; Le Minor et al., 1990). Ci sono 46 antigeni O, che identificano il sierogruppo. Insieme a 119 antigeni di flagellina H1 e H2, le combinazioni O, H1 e H2 identificano i sierotipi. Solo una piccola percentuale dei sierotipi è responsabile della maggior parte delle infezioni da salmonella nell’uomo (Popoff et al., 2004).

La sierotipizzazione mediante agglutinazione antigenica viene sostituita dalla sierotipizzazione molecolare (Cai et al., 2005; Wattiau et al., 2011). Questo può essere ottenuto attraverso l’esame della sequenza di cluster di geni dell’antigene O, dell’antigene H1 che codifica il gene fliC e dell’antigene H2 che codifica il gene fljB (Fitzgerald et al., 2007). I cluster di geni dell’antigene O possono essere differenziati per presenza o assenza di geni mentre gli antigeni H1 e H2 sono differenziati per variazione di sequenza (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). I sierotipi di salmonella possono anche essere dedotti attraverso MLST (Wattiau et al., 2011; Achtman et al., 2012) come sierotipo può essere dedotto dai suoi tipi di sequenza. Tuttavia, un prerequisito per questo approccio è che è richiesta la conoscenza preliminare della relazione corrispondente di serovar al tipo di sequenza.

Recentemente, con lo sviluppo del confronto basato sulla sequenza dell’intero genoma, diversi studi hanno identificato i marcatori genomici come metodo molecolare alternativo per la sierotipizzazione. Zou et al. (2016) ha identificato sette geni che forniscono una risoluzione sufficiente per differenziare 309 ceppi di salmonella che rappresentano 26 sierotipi e ha trovato geni specifici per sierovari in 13 su 26 sierotipi. Laing et al. (2017) ha identificato frammenti genomici specifici per le specie e le sottospecie di salmonella attraverso l’analisi pan-genoma. Questi geni specifici o frammenti di DNA sono stati utilizzati come bersagli molecolari per sviluppare saggi molecolari multipli per una rapida identificazione e rilevazione della salmonella a livello di specie e sierotipo. Tuttavia, questi geni specifici o frammenti di DNA sono limitati nella loro capacità discriminatoria a causa della loro capacità di distinguere solo un numero minore di sierotipi.

In questo studio, abbiamo mirato a utilizzare l’ampia raccolta di genomi di salmonella disponibili pubblicamente per identificare i marcatori genetici specifici per i sierotipi di salmonella più frequenti. Mostriamo il potenziale di questi marcatori genici sierovar-specifici come marcatori per la sierotipizzazione molecolare sia nella tipizzazione silico di dati genomici o per lo sviluppo di metodi diagnostici di laboratorio.

Materiali e metodi

Selezione isolata ribosomiale basata su MLST ST

Il database della salmonella nell’enterobasi (Alikhan et al., 2018) a partire da marzo 2018 è stato interrogato e sono stati esaminati 118997 isolati. Gli isolati rappresentativi per ogni RST sono stati selezionati ed estratti da uno script python interno. In questo studio sono stati inclusi solo sierotipi con più di quattro RST. Per i 20 sierotipi più grandi gli isolati rappresentativi sono stati selezionati solo casualmente da RST con due o più isolati. Per i serovar rimanenti, è stato selezionato casualmente un isolato rappresentativo per ciascun primo. Le letture grezze per questi isolati sono state recuperate da EN (European Nucleotide Archive1) e sono state assemblate de novo utilizzando l’assemblatore SPAdes v3.10.1 con impostazioni di default2 (Bankevich et al., 2012). Il serovar dei genomi assemblati è stato predetto da SISTR (Yoshida et al., 2016) dopo aver soddisfatto i seguenti criteri che sono stati definiti da Robertson et al. (2018) usando QUAST3 (Gurevich et al., 2013): dimensione dell’assemblea fra 4 e 6 Mb con il numero dei contig di meno che 500, il più grande contig maggior di 100 kb, contenuto di GC fra 50 e 54%, gene predetto dal barlume all’interno di QUAST più di 3000. È stata esaminata la concordanza tra le predizioni sierotipiche SISTR risultanti e il sierotipo riportato nel record dei metadati Enterobase e un piccolo numero di genomi è stato rimosso dall’analisi a causa di previsioni sierotipiche incoerenti. Il set di dati finale consisteva di 2258 genomi di alta qualità con previsione serovar coerente che rappresenta 107 sierovar (Tabella supplementare S1).

Identificazione dei marcatori genetici candidati sieropositivi alla salmonella

Per determinare i potenziali marcatori genetici sieropositivi per 107 sierovari, i 2258 genomi sono stati annotati utilizzando PROKKA (Seemann, 2014). Pan-genoma e core-genoma sono stati analizzati da roary (Page et al., 2015) utilizzando una soglia di identità di sequenza dell ‘ 80%. I geni specifici di ciascun serovar sono stati identificati dai geni accessori del pan-genoma con uno script python interno. In questo studio, il numero di genomi da un determinato serovar contenente un gene specifico per quel serovar è stato definito vero positivo (TP), il numero di genomi dallo stesso serovar privo dello stesso gene è stato definito falso negativo (FN). Il numero di genomi di altri sierotipi contenenti lo stesso gene specifico del sierotipo è stato definito false positve (FP). Inizialmente sono stati utilizzati cutoff rilassati (20% FN, 10% FP) al fine di garantire che tutti i sierotipi avessero geni specifici candidati che potevano essere ulteriormente studiati. I geni paralogici sono stati rimossi dalle analisi.

Valutazione dei potenziali marcatori genici sieropositivi

Il punteggio F1 è stato utilizzato per la selezione iniziale dei potenziali marcatori genici sieropositivi. Il punteggio F1 è stato valutato in base alla formula: 2 × (PPV × Sensitivity)/(PPV + Sensitivity), dove PPV è stato definito come TP/(TP+FP) e la sensibilità è stata definita come TP/(TP+FN). La F1 varia da 0 a 1, dove 1 significa il gene specifico del serovar che era presente in tutti i genomi di un determinato serovar e assente in tutti i genomi di altri serovar. I marcatori genetici specifici del sierovar sono stati selezionati utilizzando il gene più performante per ciascun sierovar in base al punteggio F1. La specificità definita come TN/(TN + FP) è stata usata per valutare il tasso vero negativo (TN) dei marcatori genici sierovar-specifici. Il tasso di falsi positivi (FPR) è stato definito da 1 – TNR.

Analisi filogenetiche

Al fine di determinare le cause del falso negativo osservato e del FPRs nei marcatori genetici sierotipici candidati, sono state studiate le relazioni filogenetiche dei sierotipi coinvolti. Le bozze di 1258 isolati sono state utilizzate per generare alberi filogenetici usando pastinp v1.24 (Treangen et al., 2014) con parametri predefiniti per determinare la filogenesi tra e all’interno dei sierotipi. L’albero è stato visualizzato da FigTree v1.4. 3 (Schneider et al., 2000).

Posizione e funzioni dei marcatori genetici specifici per serovar

I genomi completi rappresentativi per ciascun gene contenente sierovar sono stati scaricati da NCBI5 e sono stati utilizzati per determinare la posizione di ciascun gene specifico per sierovar candidato da BLASTN con le impostazioni predefinite (versione 2.2.6, Tabella supplementare S2). Nei sierotipi senza genoma completo rappresentativo è stato selezionato un genoma rappresentativo da isolati assemblati in questo studio. Sequenze di marcatori genici specifici per sierovar sono incluse nei dati supplementari S1. Il clustering dei geni attraverso il genoma è stato usato per investigare se i marcatori genici serovar-specifici fossero potenzialmente parte di un singolo elemento guadagnato da un serovar in un evento. I marcatori genetici candidati specifici per sierovar sono stati considerati come un cluster se si trovavano a meno di 5 kb l’uno dall’altro.

Le categorie funzionali dei marcatori genetici sono state identificate dall’annotazione RAST6 (Aziz et al., 2008). Le sequenze di prophage all’interno dei genomi di riferimento dei sierovari sono state identificate utilizzando PHASTER per indicare se i marcatori genetici specifici dei sierovari potrebbero essere stati acquisiti insieme ai prophages (PHAge Search Tool Enhanced Release) (Arndt et al., 2016).

Nella previsione del sierotipo silico utilizzando marcatori genetici specifici per sierovari

Sono stati selezionati 1089 isolati aggiuntivi dall’Enterobase utilizzando uno script python interno con l’esclusione di 2258 isolati utilizzati per lo screening iniziale dallo stesso database a marzo 2018 (Tabella supplementare S3). BLASTN è stato utilizzato per cercare contro i 1089 genomi appartenenti a 106 sierotipi di salmonella per la presenza di uno qualsiasi dei marcatori genici sierotipi specifici. Script python personalizzati sono stati quindi utilizzati per prevedere serovar da queste assegnazioni di serovar in base al modello di presenza genica noto per ciascun serovar. Il TP è stato classificato come il numero totale di sierotipi correttamente assegnati e casi in cui è stato chiamato il sierotipo corretto e uno o più FP. L’assegnazione non riuscita è stata definita dove non sono stati chiamati serovar o serovar errati. Le previsioni di Serovar sono state confrontate con SeqSero (Zhang et al., 2015) e previsioni SISTR.

Calcolo della specificità dei marcatori genetici sierotipi specifici candidati per i sierotipi comuni

La specificità del tasso di tipizzazione per i sierotipi comuni (Hendriksen et al., 2011) era uguale a (1-tasso di errore potenziale). Il potenziale tasso di errore dei marcatori genici specifici del sierovar definiti dalla formula: (Numero di FPs)∗(La frequenza di quel sierovar in una data regione)/(Totale dei genomi di quel sierovar).

Risultati

Identificazione di marcatori genetici sieropositivi candidati

I geni accessori di 2258 genomi che rappresentano 107 sieropositivi sono stati sottoposti a screening per identificare potenziali marcatori genetici sieropositivi. Questo screening iniziale ha identificato 354 potenziali marcatori genetici specifici per sierovari all’interno di 101 sierovari. Sei sierotipi vale a dire, Bareilly, Bovismorbificans, Thompson, Reading, Typhi, e Saintpaul non aveva alcun candidato marcatori genetici sierotipi specifici che erano presenti in tutte le stirpi di un determinato sierotipo. La specificità (TNR) e la sensibilità (TPR) dei 354 marcatori genici sieropositivi candidati sono stati anche esaminati e riassunti nella Figura 1. Quaranta sierotipi contenevano 194 marcatori genici sieropositivi con specificità e sensibilità del 100% (nessun FN o FP), mentre 31 sieropositivi contenevano 80 marcatori genici sieropositivi candidati con sensibilità del 100% ma con specificità inferiore al 100% (FP variato). Nove sierotipi contenevano 27 marcatori genetici candidati sierotipi specifici con specificità del 100% ma con sensibilità inferiore al 100% (FN variabile). I restanti 21 sierotipi contenevano 53 marcatori genici candidati sieropositivi con specificità e sensibilità inferiori al 100% (FN e FP diversi).

FIGURA 1
www.frontiersin.org

Figura 1. La distribuzione della sensibilità e della specificità di 354 potenziali marcatori genici sieropositivi. TPR, tasso vero positivo; FPR, tasso falso positivo. Dove viene visualizzato un gradiente dal blu chiaro (percentuale bassa) al blu scuro (percentuale alta).

Abbiamo costruito un albero filogenetico usando 1258 isolati rappresentativi da 107 serovar usando Pastinp (Figura supplementare S1). I 1258 isolati sono stati selezionati in base alle relazioni filogenetiche dei 2258 isolati iniziali da cui abbiamo selezionato gli isolati per rappresentare ogni lignaggio indipendente. Abbiamo scoperto che i membri di ciascuno degli 82 sierotipi formavano un lignaggio monofiletico mentre 24 sierotipi erano polifiletici con ciascuno composto da 2 a 4 lignaggi. Molti di questi sierotipi sono noti per essere polifiletici ed è improbabile che contengano marcatori genetici specifici per sierovari (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serovar Enteritidis è parafiletico con altri tre sierotipi (Dublin, Berta e Gallinarium) derivanti dall’interno del più grande clade Enteritidis che è a sua volta costituito da tre lignaggi noti come clade A, B e C (Graham et al., 2018). I cinque marcatori genetici candidati specifici di Enteritidis erano negativi agli isolati di Enteritidis che si raggruppavano separatamente sull’albero.

È interessante notare che per quattro sierotipi polifiletici, Bredeney, Kottbus, Livingstone e Virchow, ognuno aveva un gene specifico per il sierovar candidato che era presente in tutti gli isolati di quel sierovar. Per i restanti 20 sierotipi polifiletici e enteritidi sierotipici parafiletici, abbiamo cercato marcatori genetici specifici del lignaggio poiché ogni sierovar conteneva più di un lignaggio. Se tutti i lignaggi contenevano almeno un gene specifico del lignaggio, riteniamo che il serovar contenga marcatori genetici specifici del serovar. Un totale di 111 potenziale di lineage-specifici marcatori gene sono state identificate per il 19 polifiletico sierotipi e parafiletico sierotipo Enteritidis, tra i quali, 27 lineage-specifici marcatori gene è stato identificato per 5 sierotipi con il 100% di specificità e sensibilità (no FN, FP), 76 candidato lineage-specifici geni marcatori per 14 sierotipi con il 100% di sensibilità e di meno di specificità del 100% (varia FP), e Enteritidis contenente i 6 candidati lineage-specifici geni marcatori con vari FN e FP (Tabella 1).

TABELLA 1

www.frontiersin.org

Tabella 1. Marcatori genetici candidati specifici per lignaggio per sierotipi polifiletici e sierotipi parafiletici.

Per gli 11 degli 82 sierotipi monofiletici che mancavano di marcatori genetici candidati specifici per sierovari a causa di FN, abbiamo scoperto che l’FN era spesso dovuto a isolati raggruppati su un ramo e divergenti in precedenza dagli altri isolati. Per tali gruppi, abbiamo cercato marcatori genetici specifici del lignaggio. Pertanto, due o più marcatori genetici possono essere utilizzati per identificare un sierotipo e tali sierotipi sono stati anche considerati come marcatori genetici specifici per sierotipi, simili ai sierotipi polifiletici. Tre sierotipi, Paratyphi A, Heidelberg e Muenchen potrebbero essere identificati dai marcatori genetici combinati specifici del lignaggio.

Un totale di 414 marcatori genetici sieropositivi candidati, inclusi 295 marcatori genetici sieropositivi e 119 marcatori genetici specifici del lignaggio, sono riassunti nella Tabella supplementare S2. In totale, 106 dei 107 sierotipi contenevano uno o più marcatori genetici, 33 sierotipi contenevano un gene specifico mentre 73 contenevano due o più marcatori genetici. Non sono stati trovati marcatori genetici sieropositivi candidati per il Typhi monofiletico e nessun potenziale marcatore genetico specifico del lignaggio trovato per il lignaggio III di Stanleyville che conteneva solo un isolato.

Categorie funzionali di marcatori genetici specifici per sierovari

La caratterizzazione funzionale di tutti i 414 marcatori genetici identificati per i 106 sierovari utilizzando RAST ha rilevato che 197 avevano funzioni note e 217 proteine ipotetiche codificate con funzioni sconosciute. Solo 46 geni con annotazioni possono essere raggruppati in categorie funzionali mentre 151 geni con funzioni non erano in categorie funzionali RAST (Tabella 2). Usando PHASTER. 45 marcatori genetici candidati sieropositivi sono stati localizzati all’interno delle profagie previste.

TABELLA 2
www.frontiersin.org

Tabella 2. Categorie funzionali di geni specifici per sierovari.

Un insieme minimo di marcatori genici specifici per sierotipizzazione silico molecolare

Per molti sierovar, sono stati identificati più marcatori genici specifici per sierovar candidati o marcatori genici specifici per lignaggio. In questi casi, è stato selezionato un singolo gene che ha i tassi più bassi di FN e FP. Un minimo di 131 marcatori genetici consente l’identificazione dei sierotipi con tassi di errore da 0 a 8,33%. La distribuzione dei marcatori genetici su tutti i 106 sierotipi dimostra un alto grado di specificità come mostrato nella Figura 2 in cui la diagonale mostra la relazione uno a uno del sierotipo o della stirpe con i marcatori genetici specifici del sierotipo mentre lo spazio fuori diagonale ha mostrato una presenza sparsa e sparsa di questi geni in altri sierotipi di varie percentuali che indicano un basso FPR. I dettagli di questi marcatori genetici sono stati elencati nella Tabella supplementare S4. Nel complesso, 45 sierotipi possono essere distinti dal rispettivo gene specifico del sierotipo e 61 sierotipi possono essere differenziati da una combinazione di marcatori genetici.

FIGURA 2
www.frontiersin.org

Figura 2. La distribuzione di un set minimo di 131 geni specifici per i sierotipi in 106 sierotipi. L’asse Y mostra sierotipi o marcatori genetici specifici del lignaggio e l’asse X mostra sierotipi o lignaggi. I dettagli sono stati elencati nella tabella supplementare S4. Il grigio indicava zero genomi contenenti un gene (TN). Le coppie gene/genoma lungo la diagonale rappresentano genomi contenenti i marcatori genetici specifici del serovar che corrispondono al loro serovar (TP). Il rosso rappresenta i geni che sono presenti nel 100% dei genomi per un determinato sierotipo o lignaggio. Quando un gene è presente in meno del 100% di un serovar viene visualizzato un gradiente dal blu chiaro (bassa percentuale) al blu scuro (alta percentuale). Le coppie blu lungo la diagonale rappresentano la presenza di FN. Le coppie che sono blu o rosse al di fuori della diagonale rappresentano coppie contenenti geni che non corrispondono al sierotipo previsto del genoma (FP).

Abbiamo testato altri 1089 genomi appartenenti a 106 sierotipi di Salmonella non tifoidali per valutare la capacità dei 131 marcatori genetici specifici di assegnare correttamente i sierotipi agli isolati. Utilizzando i marcatori genici specifici di serovar, 1038 dei 1089 isolati (95,3%) sono stati assegnati con successo e 51 non sono riusciti (4,7%). Per SISTR e SeqSero, il numero di assegnazioni concordanti di serovar è stato rispettivamente di 1037 (95%) e 905 (82,8%) (Tabella supplementare S3).

Marcatori genici specifici per sierotipizzazione di sierotipi comuni

I primi 20 sierotipi che causano infezioni umane presenti in ogni continente (Hendriksen et al., 2011) sono stati compressi in un elenco combinato di 46 sierotipi (Tabella supplementare S5). Poiché questi sierotipi contenevano la stragrande maggioranza degli isolati che causano infezioni umane a livello globale, li consideriamo separatamente per valutare l’utilità dei marcatori genetici candidati specifici per sierotipizzazione dei sierotipi più diffusi in un ambiente locale. Quando sono stati considerati solo questi sierotipi, 18 su 46 potrebbero essere identificati in modo univoco da uno dei marcatori genetici specifici del sierotipo. Per aumentare la precisione di digitazione nei restanti 28 sierotipi comuni in cui i marcatori genetici specifici per sierovari hanno vari FPRs, abbiamo esaminato utilizzando sottoinsiemi dei 131 marcatori genetici (che vanno da 2 a 9 geni per sierovari) per eliminare il potenziale FP. Ad esempio, la combinazione di gene specifico Choleraesuis e gene specifico del lignaggio Cerro-I può eliminare l’isolato falso positivo di Cerro da Choleraesuis, se entrambi i geni sono positivi, l’isolato potrebbe essere assegnato a Cerro mentre se il gene specifico del lignaggio Cerro-I è negativo, l’isolato è Choleraesuis.

Per stimare potenziali errori nella digitazione, abbiamo preso in considerazione la frequenza dei 46 sierotipi comuni che mostravano grandi differenze tra le regioni (Hendriksen et al., 2011). Di conseguenza, le combinazioni differenti dei geni possono essere usate specificamente per limitare i risultati falsi positivi dai sierotipi presenti in quella regione. In una data regione, la specificità dei marcatori genetici sieropositivi candidati comuni è stata calcolata utilizzando il tasso di FP e la frequenza del sieropositivo falso in quella regione. La specificità dei marcatori genici sieropositivi candidati è stata calcolata anche utilizzando il tasso di FP (Tabella supplementare S4). Ad esempio, un pannello di 15 geni potrebbe essere utilizzato per digitare i 10 sierotipi più frequenti in Australia (NEPSS 2010) (Tabella 3). Quando sono state prese in considerazione le frequenze regionali australiane, i geni elencati nella Tabella 3 possono essere utilizzati come marcatori per la tipizzazione basata su laboratorio e il tasso di errore sarà inferiore al 2,4%.

TABELLA 3
www.frontiersin.org

Tabella 3. Un pannello di geni specifici per i sierotipi per la digitazione dei dieci sierotipi più frequenti in Australia.

Discussione

La sierotipizzazione della salmonella è stata fondamentale per la diagnosi e la sorveglianza. La previsione del sierovar mediante sierotipizzazione tradizionale può essere limitata dalla mancanza di espressione dell’antigene di superficie o proprietà di autoagglutinazione (Wattiau et al., 2008). Recentemente, con lo sviluppo della tecnologia di sequenziamento dell’intero genoma, le regioni genomiche rilevanti del cluster genico rfb per l’antigene O, il gene fliC e il gene fljB per gli antigeni H e i geni mirati a MLST possono essere estratti e utilizzati per l’identificazione del serovar. Diversi studi hanno identificato geni sierovari specifici o frammenti di DNA per la sierotipizzazione attraverso il confronto genomico basato sul sequenziamento dell’intero genoma (Zou et al., 2013, 2016; Laing et al., 2017). Tuttavia, questi geni o frammenti di DNA specifici per sierovari distinguevano solo un piccolo numero di sierotipi. In questo studio, abbiamo identificato 414 marcatori genetici sierotipici candidati o specifici del lignaggio per 106 sierotipi che includono 24 sierotipi polifiletici e gli enteritidi sierotipici parafiletici. Un sottoinsieme di questi marcatori genetici è stato convalidato da genomi indipendenti e sono stati in grado di assegnare correttamente i sierotipi nel 95,3% dei casi.

L’analisi di cui sopra è stata complicata dalla presenza di sierotipi polifiletici, che sorgono indipendentemente da antenati separati per formare lignaggi separati. Pertanto, è stata necessaria una combinazione di marcatori genetici specifici del lignaggio per la chiara identificazione della maggior parte dei sierotipi polifiletici. È interessante notare che quattro sierotipi polifiletici, Bredeney, Kottbus, Livingstone e Virchow, avevano ciascuno un marcatore genetico specifico del sierovar candidato che era presente in tutti gli isolati di quel sierovar. Si prevedeva che il gene Bredeney serovar-specifico codificasse una traslocasi coinvolta nella conversione dell’antigene O e avrebbe potuto essere acquisito in parallelo. I geni serovar-specifici degli altri tre sierotipi polifiletici codificano proteine ipotetiche con funzione sconosciuta e nessuna spiegazione apparente per la loro presenza in diversi lignaggi dello stesso serovar.

A differenza dei sierotipi polifiletici, i tre lignaggi (clade A, B e C) degli Enteritidi sierotipici parafiletici condividono un recente antenato comune. Clade A e C sono ancestrali al Clade B. Studi precedenti hanno descritto che Enteritidis è stato raggruppato con sierotipi Dublino, Berta, e Gallinarium che è stato chiamato “Sezione Enteritidis” (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). Un altro studio ha dimostrato che serovar Nitra è stato incorporato all’interno dei lignaggi Enteritidis utilizzando la filogenesi dell’intero genoma (Deng et al., 2014). C’era anche una reattività crociata tra Enteritidis e Nitra secondo lo studio di Ogunremi (Ogunremi et al., 2017). Nel nostro studio, abbiamo selezionato gli isolati basati su RST, Nitra non era presente nel database Enterobase rMLST quando questo studio è iniziato e quindi non è stato incluso in questo studio. Gallinarium è distinguibile da Enteritidis utilizzando la presenza di una delezione di 4 bp nel gene speC (Kang et al., 2011). Abbiamo osservato che gli antenati comuni di sierotipi di Dublino, Berta, e Gallinarium, nasce da un antenato tra Cladi B e A/C. Dublino possono essere identificati separatamente, siamo in grado di distinguere Berta o Gallinarium da Enteritidis clade A/C. Questi risultati evidenziano un limite dell’approccio sierotipi deve essere sufficientemente divergenti che differiscono per almeno un unico gene. Allo stesso modo, c’erano altri 8 sierotipi che non erano distinguibili probabilmente a causa di antenati condivisi molto recenti con poca acquisizione genica.

I marcatori genici candidati specifici per sierovari o i marcatori genici candidati specifici per lignaggio in 69 sierovari su 106 erano contigui nel genoma con funzioni simili raggruppate insieme (dati non mostrati). Ciò suggerisce che questi marcatori genetici potrebbero essere stati incorporati nei genomi sierovari insieme attraverso il trasferimento genico orizzontale. In effetti i sette marcatori genetici candidati specifici al Typhimurium identificati in questo studio (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497 e STM4498) si trovavano nella regione associata all’elemento coniugativo di Typhimurium tRNAleuX che integra i geni da STM4488 a STM4498, che è un noto hotspot di trasferimento genico orizzontale (Bishop et al., 2005). Allo stesso modo cinque marcatori specifici del gene candidato Enteritidis identificati (SEN1379, SEN1380, SEN1382, SEN1383 e SEN1383) si trovavano nella regione Sdr I (Agron et al., 2001) e la regione GEI/φSE14 simile alla profezia (Santiviago et al., 2010). Entrambe queste regioni sono collegate a prophages, il che suggerisce che queste regioni integrate nel genoma di un antenato comune del clade globale Enteritidis e sono state derivate dal trasferimento genico orizzontale.

Altri metodi per la previsione di serovar in silico sono implementati in SeqSero (Zhang et al., 2015) e SISTR (Yoshida et al., 2016). Entrambi questi metodi esaminano le regioni genomiche responsabili degli antigeni di superficie mentre SISTR implementa anche uno schema cgMLST per esaminare la relazione genetica complessiva. Inoltre, i tradizionali gruppi di 7 geni MLST ed eBURST derivati da esso possono essere utilizzati anche per la determinazione del serovar silico (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Sia SISTR che SeqSero forniscono un potere discriminatorio più elevato rispetto all’identificazione tradizionale del serovar (Yachison et al., 2017). Tuttavia, hanno una serie di inconvenienti come sierotipi indistinguibili che hanno la stessa formula antigenica o determinanti antigenici non espressi (Robertson et al., 2018). Nell’attuale studio, abbiamo esaminato la previsione del serovar silico mediante lo screening dei genomi contro una serie di 131 marcatori genetici specifici del serovar. L’approccio ha fornito la previsione del serovar producendo ” presenza o assenza” di un singolo marcatore genico specifico del serovar o una combinazione di marcatori genici in un isolato di query. Dimostriamo che i marcatori genetici specifici per sierovari hanno un’accuratezza paragonabile ad altri metodi di sierotipizzazione in silico con il 91,5% di isolati dal set di dati di identificazione iniziale e l ‘ 84,8% di isolati da un set di dati di validazione assegnato al serovar corretto (senza FN e FP). 10.il 5% degli isolati dal set di dati di convalida può essere assegnato a un piccolo sottoinsieme di sierovar contenenti il sierovar corretto (con FP vario). La specificità per l’approccio di previsione del serovar in silico da parte dei marcatori genetici specifici del serovar è stata del 95,3%, leggermente superiore a SISTR (95%) e SeqSero (82,8%) nello stesso set di dati che abbiamo testato. Questo risultato è stato simile alle specificità di SISTR e SeqSero riportate da Yachison et al. (2017) che erano 94.8 e 88.2%, rispettivamente.

Il nostro metodo basato sul marcatore genico sierovar-specifico non richiede l’esame accurato dei cluster di geni dell’antigene O o la variazione di sequenza dei geni dell’antigene H che può essere problematica. Il nostro metodo allevia anche la necessità che l’intero gene o la sequenza del genoma siano assemblati, che è necessario nei metodi basati su MLST o cgMLST. Pertanto, questo approccio può essere utile per i casi in cui è disponibile pochissima sequenza come nella metagenomica o nella tipizzazione libera dalla cultura, oltre a fornire una terza alternativa per confermare altre analisi.

L’identificazione di un insieme di marcatori genetici in grado di identificare in modo univoco tutti i sierotipi prevalenti in una regione può anche essere utile nei test molecolari di sviluppo. Questi saggi sarebbero utili nella sierotipizzazione di isolati in cui le colture non sono più ottenute e la sierotipizzazione tradizionale è quindi impossibile. Ad esempio, un insieme di saggi PCR potrebbe essere progettato che consentirebbe il rilevamento sensibile di marcatori genetici specifici, e quindi consentire la previsione del sierotipo, da un campione clinico. Inoltre, eliminando la necessità di rilevare i sierotipi che sono molto raramente osservati in una regione, il numero di questi marcatori genetici necessari per rilevare tutti i sierotipi principali in una regione può essere significativamente ridotto consentendo un dosaggio più conveniente.

Conclusione

In questo studio abbiamo identificato i marcatori genetici specifici per sierovari candidati e i marcatori genetici specifici per lignaggio candidato per 106 sierotipi caratterizzando i genomi accessori di una selezione rappresentativa di 2258 ceppi come potenziali marcatori per la sierotipizzazione in silico. Rappresentiamo i sierotipi polifiletici e parafiletici per fornire un nuovo metodo, utilizzando la presenza o l’assenza di questi marcatori genetici, per predire il sierotipo di un isolato dai dati genomici. I marcatori genetici qui identificati possono anche essere utilizzati per sviluppare saggi di sierotipizzazione in assenza di un ceppo isolato che sarà utile quando la diagnosi passa a metodi indipendenti dalla coltura e metagenomici.

Contributi dell’autore

MP e RL hanno progettato lo studio e fornito una revisione critica del manoscritto. XZ e MP hanno eseguito l’analisi bioinformatica. XZ, MP e RL hanno analizzato i risultati. XZ ha redatto il manoscritto.

Finanziamento

Questo lavoro è stato sostenuto da un National Health and Medical Research Council project grant.

Dichiarazione sul conflitto di interessi

Gli autori dichiarano che la ricerca è stata condotta in assenza di relazioni commerciali o finanziarie che potrebbero essere interpretate come un potenziale conflitto di interessi.

Materiale supplementare

Il materiale supplementare per questo articolo può essere trovato online all’indirizzo: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

la FIGURA S1 | SNP in base albero filogenetico costruito da ParSNP mostrando le relazioni evolutive all’interno e tra i sierotipi utilizzando 1344 rappresentante isolati tra il 1258, isolati da 107 sierotipi esaminato nello studio e 86 isolati da sierotipi con meno di 5 primati che altrimenti sarebbero stati esclusi dallo studio.

TABELLA S1 / Il set di dati finale di 2258 genomi di previsione serovar di alta qualità e coerenti che rappresentano 107 sierotipi.

TABELLA S2 / Un totale di 414 geni sieropositivi candidati, inclusi 295 geni sieropositivi e 119 geni specifici del lignaggio.

TABELLA S3 / Un ulteriore 1089 convalida isolati con risultati di previsione sierovar da SISTR, SeqSero e marcatori genici sierovar-specifici.

TABELLA S4 / Un minimo di 131 geni per l’identificazione di 106 sierotipi.

TABELLA S5 / Un insieme di 65 geni per l’identificazione di 46 sierotipi comuni.

DATI S1 / Sequenze di 131 marcatori genici sieropositivi.

Abbreviazione

FN, falsi negativi; FP, falsi positivi; FPR, tasso di falsi positivi; MLST, multi-locus sequence typing; NEPSS, National Enterici Pathogens Surveillance Scheme; PPV, valore predittivo positivo; rSTs, ribosomiale MLST STs; SISTR, Salmonella in silico typing resource; TN, veri negativi; TNR, vero tasso negativo; TP, veri positivi; TPR, vero tasso positivo.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). Una panoramica genomica della struttura della popolazione della salmonella. PLoS Genet. 14: e1007261. doi: 10.1371 / giornale.pgen.1007261

PubMed Abstract | CrossRef Full Text/Google Scholar

Allard, MW, Luo, Y., Strain, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). Sulla storia evolutiva, la genetica delle popolazioni e la diversità tra isolati di Salmonella Enteritidis modello PFGE JEGX01. 0004. PLoS Uno 8:e55254. doi: 10.1371 / giornale.pone.0055254

PubMed Abstract | CrossRef Full Text/Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: una versione migliore e più veloce dello strumento di ricerca PHAST phage. Acidi nucleici Res. 44, W16–W21. il nostro sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione e per migliorare la tua esperienza di navigazione. (2016). Identificazione della salmonella per la sorveglianza della sanità pubblica mediante sequenziamento dell’intero genoma. PeerJ 4: e1752. doi: 10.7717 / peerj.1752

PubMed Abstract | CrossRef Full Text/Google Scholar

Aziz, R. K., Bartels, D., Best, A. A., DeJongh, M., Disz, T., Edwards, R. A., et al. (2008). Il server RAST: annotazioni rapide utilizzando la tecnologia dei sottosistemi. BMC Genomica 9: 75. doi: 10.1186 | 1471-2164-9-75

PubMed Abstract/CrossRef Full Text/Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, AS, et al. (2012). SPAdes: un nuovo algoritmo di assemblaggio del genoma e le sue applicazioni al sequenziamento unicellulare. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract | CrossRef Full Text/Google Scholar

Bishop, A. L., Baker, S., Jenks, S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Analisi della regione ipervariabile del genoma della Salmonella enterica associata a tRNAleuX. J. Batteriolo. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Il sequenziamento del genoma rivela la diversificazione del contenuto del fattore di virulenza e il possibile adattamento dell’ospite in distinte sottopopolazioni di Salmonella enterica. BMC Genomica 12:425. doi: 10.1186 | 1471-2164-12-425

PubMed Abstract/CrossRef Full Text/Google Scholar

Deng, X., Desai, PT, den Bakker, H. C., Mikoleit, M., Tolar, B., Trees, E., et al. (2014). Epidemiologia genomica del sierotipo enteritide di Salmonella enterica Si basa sulla struttura della popolazione dei lignaggi prevalenti. Emerg. Infettare. Dis. 20, 1481–1489. doi: 10.3201/eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, bead-based suspension array per la determinazione molecolare dei sierogruppi comuni di salmonella. J. Clin. Microbiolo. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed Abstract | CrossRef Full Text/Google Scholar

Graham, RM, Hiley, L., Rathnayake, I. U., e Jennison, A. V. (2018). Genomica comparativa identifica lignaggi distinti di S. Enteritidis dal Queensland, Australia. PLoS Uno 13:e0191042. doi: 10.1371 / giornale.pone.0191042

PubMed Abstract | CrossRef Full Text/Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Sviluppo di un microarray di DNA per l’identificazione molecolare di tutti i 46 sierogruppi di Salmonella O. EM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

PubMed Abstract | CrossRef Full Text/Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N., and Tesler, G. (2013). QUAST: strumento di valutazione della qualità per le assemblee genoma. Bioinformatica 29, 1072-1075. doi: 10.1093/bioinformatica/btt086

PubMed Abstract / CrossRef Full Text/Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, A. B., et al. (2011). Monitoraggio globale della distribuzione di sierotipi di salmonella da parte dell’organizzazione mondiale della sanità global foodborne infections network country data bank: risultati dei laboratori quality assured dal 2001 al 2007. Pathog di origine alimentare. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstract | CrossRef Full Text/Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K., et al. (2011). Identificazione differenziale della Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum e Pullorum a base di regioni polimorfiche di geni glgC e speC. Veterinario. Microbiolo. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

PubMed Abstract | CrossRef Full Text/Google Scholar

Kingsley, RA, and Bäumler, AJ (2000). Adattamento dell’ospite e comparsa di malattie infettive: il paradigma della salmonella. Mol. Microbiolo. 36, 1006–1014. doi: 10.1046 / j. 1365-2958. 2000.01907.il sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione e per migliorare la tua esperienza di navigazione. Analisi pan-genoma della specie Salmonella enterica, e l’identificazione di marcatori genomici predittivi per specie, sottospecie, e sierotipi. Anteriore. Microbiolo. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract / CrossRef Full Text/Google Scholar

Le Minor, L., and Bockemühl, J. (1984). Supplément no XXVII au schéma de Kauffmann-Bianco. Ann. Istituto Pasteur Microbiol. 135, 45-51. doi: 10.1016/S0769-2609(84)80042-3

CrossRef Full Text/Google Scholar

Le Minor, L., Popoff, M., e Bockemühl, J. (1990). Supplemento 1989 (n° 33) al regime Kauffmann-White. Res. Microbiolo. 141, 1173-1177. doi: 10.1016/0923-2508(90)90090-D

CrossRef Full Text | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F., and Fields, P. I. (2004). Sequenziamento e analisi comparativa dei geni della flagellina fliC, fljB e flpA da Salmonella. J. Clin. Microbiolo. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Abstract | CrossRef Full Text | Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., Márquez, I. G., Omidi, K., Pope, L., et al. (2017). Valutazione di un test PCR multiplex per l’identificazione di sierotipi di salmonella enteritidis e typhimurium utilizzando campioni al dettaglio e macelli. J. Cibo Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

PubMed Astratto | CrossRef Testo Completo | Google Scholar

Pagina, A. J., Cummins, C. A., Caccia, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: analisi rapida su larga scala del genoma del prokaryote pan. Bioinformatica 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Valutazione completa della qualità dei dati di sequenza dell’intero genoma della salmonella disponibili in banche dati di sequenza pubbliche utilizzando la Salmonella in silico typing resource (SISTR). Microb. Genomica doi: 10.1099 / mgen.0.000151 .

PubMed Abstract | CrossRef Full Text/Google Scholar

Santiviago, CA, Blondel, CJ, Quezada, CP, Silva, CA, Tobar, PM, Porwollik, S., et al. (2010). Escissione spontanea della Salmonella enterica serovar Enteritidis – specifico difettoso prophage-like elemento φSE14. J. Batteriolo. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformatica/btu153

PubMed Abstract / CrossRef Full Text/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. W., Strain, E., Barrangou, R., Wehnes, C., et al. (2013). Diversità filogenetica del patogeno enterico Salmonella enterica subsp. enterica dedotto da caratteri SNP senza riferimento a livello genomico. Genome Biol. Evol. 5, 2109–2123. il nostro sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione e per migliorare la tua esperienza di navigazione. (2014). La suite Harvest per un rapido allineamento core-genoma e la visualizzazione di migliaia di genomi microbici intraspecifici. Genome Biol. 15:524. doi: 10.1186 / s13059-014-0524-per la prima volta, il progetto è stato realizzato in collaborazione con il Dipartimento di Scienze politiche e politiche dell’Università degli Studi di Milano. Flusso genetico nel tempo nel lignaggio della Salmonella. Genome Biol. 8: R100. doi: 10.1186 / it-2007-8-6-r100

PubMed Abstract | CrossRef Full Text/Google Scholar

Wattiau, P., Boland, C., and Bertrand, S. (2011). Metodologie per Salmonella enterica ssp enterica sottotipizzazione: gold standard e alternative. Appl. Ambiente. Microbiolo. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

PubMed Abstract | CrossRef Full Text/Google Scholar

Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H., and Imberechts, HJ (2008). Confronto tra sierotipizzazione classica e test PremiTest per l’identificazione di routine dei sierotipi comuni di Salmonella enterica. J. Clin. Microbiolo. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstract | CrossRef Full Text/Google Scholar

Yachison, CA, Yoshida, C., Robertson, J., Nash, JH, Kruczkiewicz, P., Taboada, E. N., et al. (2017). La convalida e le implicazioni dell’utilizzo del sequenziamento dell’intero genoma in sostituzione della sierotipizzazione tradizionale per un laboratorio nazionale di riferimento per la salmonella. Anteriore. Microbiolo. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract | CrossRef Full Text/Google Scholar

Yoshida, CE, Kruczkiewicz, P., Laing, CR, Lingohr, EJ., Gannon, V.P., Nash, J. H., et al. (2016). La salmonella in silico typing resource( SISTR): uno strumento aperto accessibile dal web per la digitazione rapida e sottotipizzazione progetto di assemblaggi genoma Salmonella. PLoS Uno 11:e0147101. doi: 10.1371 / giornale.pone.0147101

PubMed Abstract | CrossRef Full Text/Google Scholar

Zhang, S., Yin, Y., Jones, MB, Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Determinazione del sierotipo di salmonella utilizzando dati di sequenziamento del genoma ad alta velocità. J. Clin. Microbiolo. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Abstract | CrossRef Full Text/Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R., e Liu, S.-L. (2016). Genotipizzazione della Salmonella con geni specifici del lignaggio: correlazione con sierotipizzazione. Int. J. Infettare. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

PubMed Abstract | CrossRef Full Text/Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J., e Liu, S.-L. (2013). Identificazione di geni per differenziare lignaggi di Salmonella strettamente correlati. PLoS Uno 8:e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar