Articles

Grenser I Mikrobiologi

Introduksjon

Salmonella forårsaker human salmonellose og infeksjoner av varmblodige dyr (Kingsley og Bä, 2000). Salmonella slekten er delt inn I To arter, s. enterica og s. bongori. serotyping klassifiserer Videre Salmonella i over 2600 serotyper (serovarer) gjennom agglutineringsreaksjonen av antisera til tre overflateantigener O, H1 Og H2 (Le Minor og Bockemü, 1984; Le Minor et al., 1990). Det er 46 o antigener, som identifiserer serogruppen. Sammen med 119 h1-og h2-flagellinantigener identifiserer o -, H1-og H2-kombinasjonene serovarene. Bare en liten andel av serovarene er ansvarlige for flertallet Av de humane Salmonellainfeksjonene (Popoff et al., 2004).

Serotyping ved antigenisk agglutinering blir erstattet av molekylær serotyping (Cai et al., 2005; Marius et al., 2011). Dette kan oppnås ved undersøkelse av sekvensen Av o antigen genet klynge, H1 antigen koding gen fliC Og H2 antigen koding gen fljB (Fitzgerald et al., 2007). O antigen – genklynger kan differensieres ved tilstedeværelse eller fravær av gener, Mens h1-og H2-antigener differensieres ved sekvensvariasjon (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). Salmonella serotyper kan også utledes GJENNOM MLST (Wattiau et al., 2011; Geir et al., 2012) som en serotype kan utledes av dens sekvenstyper. En forutsetning for denne tilnærmingen er imidlertid at forkunnskaper om det tilsvarende forholdet mellom serovar og sekvenstype er nødvendig.

Nylig, med utviklingen av helgenom sekvensbasert sammenligning, har flere studier identifisert genomiske markører som en alternativ molekylær metode for serotyping. Zou et al. (2016) identifiserte syv gener som gir tilstrekkelig oppløsning for å skille mellom 309 Salmonellastammer som representerer 26 serovarer og fant serovar-spesifikke gener hos 13 av 26 serovarer. Laing et al. (2017) identifisert genomfragmenter som er spesifikke for Salmonella-arter og underarter gjennom pan-genomanalyse. Disse spesifikke gener ELLER DNA-fragmenter har blitt brukt som molekylære mål for å utvikle flere molekylære analyser for rask identifisering og påvisning Av Salmonella på arter og serovar nivå. Imidlertid er disse spesifikke gener eller DNA-fragmenter begrenset i deres diskriminerende evne på grunn av deres evne til å bare skille et mindre antall serovarer.i denne studien hadde vi som mål å bruke den omfattende offentlig tilgjengelige samlingen Av Salmonella-genomer for å identifisere serovar-spesifikke genmarkører for De hyppigste Salmonella-serovarene. Vi viser potensialet til disse serovar-spesifikke genmarkørene som markører for molekylær serotyping, enten ved silikotyping av genomiske data eller for utvikling av laboratoriediagnostiske metoder.

Materialer og Metoder

Ribosomal MLST ST Basert Isolat Utvalg

Salmonella database I Enterobase (Alikhan et al., 2018) per Mars 2018 ble spurt og 118997 isolat ble undersøkt. Representative isolater for hver rSTs ble valgt og ekstrahert av et internt python-skript. Bare serovarer med mer enn fire rSTs ble inkludert i denne studien. For de 20 største serovars representative isolater ble bare tilfeldig valgt fra rSTs med to eller flere isolater. For de resterende serovarene ble ett representativt isolat for hver rST tilfeldig valgt. Raw leser for disse isolater ble hentet fra Ena (European Nucleotid Archive1) og ble de novo satt sammen Ved Hjelp Av Spar v3.10. 1 assembler med standard innstillinger2 (Bankevich et al ., 2012). Serovar av de samlede genomene ble spådd AV SISTR (Yoshida et al., 2016) etter at De oppfylte følgende kriterier som Ble definert Av Robertson et al. (2018) ved HJELP AV QUAST3 (Gurevich et al., 2013): montering størrelse mellom 4 Og 6 Mb med antall contigs mindre enn 500, den største contig større enn 100 kb, GC innhold mellom 50 og 54%, genet spådd av glimmer INNEN QUAST mer enn 3000. Konkordansen mellom DEN RESULTERENDE SISTR serovar spådommer og den rapporterte serovar På Enterobase metadata posten ble undersøkt og et lite antall genomer ble fjernet fra analysen på grunn av inkonsekvent serovar spådommer. Det endelige datasettet besto av 2258 høykvalitets genomer med konsistent serovar-prediksjon som representerer 107 serovarer (Supplerende Tabell S1).

Identifikasjon Av Salmonella Serovar-Spesifikke Kandidatgenmarkører

for å bestemme potensielle serovar-spesifikke genmarkører for 107 serovarer ble 2258 genomene annotert VED HJELP AV PROKKA (Seemann, 2014). Pan-genom og kjerne-genom ble analysert av roary (Page et al., 2015) ved hjelp av en 80% sekvens identitet terskel. Genene som er spesifikke for hver serovar ble identifisert fra pan-genomets tilbehørsgener med et internt python-skript. I denne studien ble antall genomer fra en gitt serovar som inneholdt et spesifikt gen for den serovar kalt sann positiv (TP), antall genomer fra samme serovar som mangler det samme genet, kalt falsk negativ (FN). Antall genomer fra andre serovarer som inneholder det samme serovar-spesifikke genet ble kalt falsk positve (fp). Avslappede cutoffs (20% FN, 10% FP) ble brukt i utgangspunktet for a sikre at alle serovarer hadde kandidatspesifikke gener som kunne undersokes videre. Paralogøse gener ble fjernet fra analysene.

Evaluering av Potensielle Serovar – Spesifikke Genmarkører

F1-skåren ble brukt for innledende seleksjon av de potensielle serovar-spesifikke genmarkørene. F1-score ble evaluert basert på formelen: 2 × (Ppv × Sensitivitet)/(PPV + Sensitivitet), DER PPV ble definert SOM TP/(TP+FP) og følsomhet ble definert SOM TP / (TP+FN). F1 varierer fra 0 til 1, hvor 1 betyr det serovar-spesifikke genet som var tilstede i alle genomer av en gitt serovar og fraværende i alle genomer av andre serovarer. De serovar-spesifikke genmarkørene ble valgt ved hjelp av det beste presterende genet for hver serovar basert På F1-score. Spesifisiteten definert SOM TN / (TN+FP) ble brukt til å evaluere sann negativ (tn) rate av serovar-spesifikke genmarkører. Falsk positiv rate (fpr) ble definert av 1-TNR.

Fylogenetiske Analyser

for å fastslå årsakene til de observerte falske negative Og FPRs i kandidatserovar-spesifikke genmarkørene, ble de fylogenetiske relasjonene til de involverte serovarene undersøkt. Utkastet forsamlinger av 1258 isolater ble brukt til å generere fylogenetiske trær ved hjelp av pastinakk v1.24 (Treangen et al., 2014) med standardparametere for å bestemme fylogenien mellom og innenfor serovarer. Treet ble visualisert Av FigTree v1.4. 3 (Schneider et al., 2000).

Plassering og Funksjoner Av serovar-Spesifikke Genmarkører

Representative komplette genomer for hver serovar som inneholder genfunksjoner ble lastet ned FRA NCBI5 og ble brukt til å bestemme plasseringen av hver kandidat serovar-spesifikke gen VED BLASTN med standardinnstillinger (versjon 2.2.6, Supplerende Tabell S2). I serovarer uten representativt komplett genom ble et representativt genom valgt fra isolater samlet i denne studien. Sekvenser av serovar-spesifikke genmarkører er inkludert I Supplerende Data S1. Clustering av gener over genomet ble brukt til å undersøke om de serovar-spesifikke genmarkørene potensielt var en del av et enkelt element oppnådd av en serovar i en hendelse. Kandidat serovar-spesifikke genmarkører ble ansett som en klynge hvis de befant seg mindre enn 5 kb fra hverandre.

de funksjonelle kategoriene av genmarkører ble identifisert fra RAST annotation6 (Aziz et al ., 2008). Profag-sekvensene innen serovars referansegenomer ble identifisert VED Å bruke PHASTER for å indikere om de serovar-spesifikke genmarkørene kan ha blitt ervervet sammen med profager (PHAge Search Tool Enhanced Release) (Arndt et al., 2016).

i Prediksjon av silico Serotype Ved Bruk Av Serovar-Spesifikke Genmarkører

Ble Ytterligere 1089 isolater valgt fra Enterobasen ved bruk av et internt python-skript med utelukkelse av 2258 isolater brukt til den første screeningen fra Samme database Som I Mars 2018 (Supplerende Tabell S3). BLASTN ble brukt til å søke mot 1089 genomene som tilhører 106 Salmonella serovarer for tilstedeværelsen av noen av de serovar-spesifikke genmarkørene. Tilpassede python-skript ble deretter brukt til å forutsi serovar fra disse serovar-oppdragene basert på det kjente genet tilstedeværelsesmønsteret for hver serovar. TP ble klassifisert som totalt antall korrekt tildelte serovarer og tilfeller der riktig serovar ble kalt, samt en ELLER flere FP. Mislykket oppdrag ble definert der ingen serovar eller feil serovarer ble kalt. Serovar spådommer ble sammenlignet Med SeqSero (Zhang et al., 2015) og SISTR spådommer.

Beregning Av Spesifisiteten Av Kandidat Serovar-Spesifikke Genmarkører for Vanlige Serovarer

spesifisiteten av typefrekvens for vanlige serovarer (Hendriksen et al., 2011) var lik (1-potensiell feilrate). Den potensielle feilraten for serovar-spesifikke genmarkører definert av formelen: (Antall FPs)∗(frekvensen av den serovaren i en gitt region) / (Totalt antall genomer av den serovaren).

Resultater

Identifikasjon Av Kandidat Serovar-Spesifikke Genmarkører

tilbehørsgenene fra 2258 genomer som representerer 107 serovarer ble screenet for å identifisere potensielle serovar-spesifikke genmarkører. Denne første screeningen identifiserte 354 potensielle serovar-spesifikke genmarkører innen 101 serovarer. Seks serovarer nemlig, Bareilly, Bovismorbificans, Thompson, Reading, Typhi og Saintpaul hadde ingen kandidat serovar-spesifikke genmarkører som var tilstede i alle linjene i en gitt serovar. Spesifisiteten (TNR) og sensitiviteten (tpr) til de 354 serovar-spesifikke genmarkørene ble også undersøkt og oppsummert I Figur 1. Førti serovarer inneholdt 194 serovar-spesifikke genmarkører med 100% spesifisitet og sensitivitet (INGEN FN eller FP), mens 31 serovarer inneholdt 80 kandidat serovar-spesifikke genmarkører med 100% sensitivitet, men med mindre enn 100% spesifisitet (variert fp). Ni serovarer inneholdt 27 kandidatserovar-spesifikke genmarkører med 100% spesifisitet, men med mindre enn 100% sensitivitet (variert FN). De resterende 21 serovarene inneholdt 53 kandidat serovar-spesifikke genmarkører med både spesifisitet og følsomhet mindre enn 100% (variert FN og FP).

FIGUR 1
www.frontiersin.org

Figur 1. Fordelingen av sensitivitet og spesifisitet av 354 potensielle serovar-spesifikke genmarkører. TPR, sann positiv rente; fpr, falsk positiv rente. Der en gradering fra lyseblå (lav prosent) til mørk blå (høy prosent) vises.

vi konstruerte et fylogenetisk tre ved hjelp av 1258 representative isolater fra 107 serovarer ved Hjelp Av Pastinakk (Supplerende Figur S1). De 1258 isolatene ble valgt basert på fylogenetiske relasjoner av de første 2258 isolatene hvorfra vi valgte isolater for å representere hver uavhengig avstamning. Vi fant at medlemmer av hver av de 82 serovarer dannet en monofyletisk avstamning mens 24 serovarer var polyfyletisk med hver består av 2 til 4 linjer. Flere av disse serovarene er kjent for å være polyfyletiske og er usannsynlig å inneholde serovar-spesifikke genmarkører (Falush et al., 2006; den Bakker et al., 2011; Geir et al., 2012; Timme et al., 2013). Serovar Enteritidis er paraphyletic med tre andre Serovars (Dublin, Berta, Og Gallinarium) som oppstår fra i større Enteritidis clade som i seg selv består av tre linjer kjent som clade A, B Og C (Graham et al., 2018). De fem enteritidis-spesifikke kandidatgenmarkørene var negative for Enteritidis-isolatene som grupperte seg separat på treet.Interessant for fire polyfyletiske serovarer, Bredeney, Kottbus, Livingstone og Virchow, hadde hver en kandidat serovar-spesifikt gen som var tilstede i alle isolater av den serovar. For de resterende 20 polyfyletiske serovarer og paraphyletic Serovar Enteritidis, vi søkte etter avstamningsspesifikke genmarkører som hver serovar inneholdt mer enn en avstamning. Hvis alle linjene inneholdt minst ett slektsspesifikt gen, anser vi at serovar inneholder serovar-spesifikke genmarkører. Totalt 111 potensielle avstamningsspesifikke genmarkører ble identifisert for 19 polyfyletiske serovarer og paraphyletiske Serovar Enteritidis, hvorav 27 avstamningsspesifikke genmarkører ble identifisert for 5 serovarer med 100% spesifisitet og sensitivitet (INGEN FN og FP), 76 kandidatlinjespesifikke genmarkører for 14 serovarer med 100% sensitivitet og mindre enn 100% spesifisitet (variert FP), og Enteritidier som inneholder 6 kandidatlinjespesifikke genmarkører med variert fp).fn og fp (tabell 1).

TABELL 1
www.frontiersin.org

Tabell 1. Avstamningsspesifikke kandidatgenmarkører for polyfyletisk serovar og parapyletisk serovar.

for 11 av de 82 monofyletiske serovarene som manglet serovar-spesifikke kandidatgenmarkører på GRUNN AV FN, fant vi AT FN ofte skyldtes isolater som er gruppert på en gren og divergerte tidligere fra DE andre isolatene. For slike grupper søkte vi etter slektsspesifikke genmarkører. Derfor kan to eller flere genmarkører brukes til å identifisere en serovar, og slike serovarer ble også ansett å inneholde serovar-spesifikke genmarkører, tilsvarende polyfyletiske serovarer. Tre serovarer, Paratyphi A, Heidelberg og Muenchen kunne identifiseres ved de kombinerte avstamningsspesifikke genmarkørene.

Totalt 414 kandidatserovar-spesifikke genmarkører inkludert 295 serovar-spesifikke genmarkører og 119 slektsspesifikke genmarkører er oppsummert I Supplementstabell S2. Totalt inneholdt 106 av 107 serovarer en eller flere genmarkører, 33 serovarer inneholdt ett spesifikt gen mens 73 inneholdt to eller flere genmarkører. Det var ingen kandidat serovar-spesifikke genmarkører funnet for monofyletisk Typhi og ingen potensielle avstamningsspesifikke genmarkører funnet for avstamning III Av Stanleyville som bare inneholdt ett isolat.

Funksjonelle Kategorier Av Serovar-Spesifikke Genmarkører

Funksjonell karakterisering av alle 414 genmarkører identifisert for de 106 serovarene ved BRUK AV RAST fant at 197 hadde kjente funksjoner og 217 kodede hypotetiske proteiner med ukjente funksjoner. Bare 46 gener med merknader kan grupperes i funksjonelle kategorier mens 151 gener med funksjoner ikke var I rast funksjonelle kategorier (Tabell 2). Bruke PHASTER. 45 kandidat serovar-spesifikke genmarkører ble plassert innenfor spådde profetier.

TABELL 2
www.frontiersin.org

Tabell 2. Serovar-spesifikke gener funksjonelle kategorier.

Et Minimalt Sett Med Serovar-Spesifikke Genmarkører for i silico Molekylær Serotyping

for mange serovarer ble flere kandidatserovar-spesifikke genmarkører eller slektsspesifikke genmarkører identifisert. I disse tilfellene ble et enkelt gen valgt som har de laveste FN – og FP-ratene. Minst 131 genmarkører gjør det mulig å identifisere serovarene med feilfrekvenser fra 0 til 8,33%. Fordelingen av genmarkørene over alle 106 serovarer demonstrerer høy grad av spesifisitet som vist i Figur 2 hvor diagonalen viser en til en relasjon av serovar eller avstamning med serovar-spesifikke genmarkører mens off-diagonal plass viste sparsom spredt tilstedeværelse av disse genene i andre serovarer av varierte prosenter som indikerer en lav FPR. Detaljer om disse genmarkørene ble oppført I Supplerende Tabell S4. Totalt kan 45 serovarer skilles ved deres respektive serovar-spesifikke gen og 61 serovarer kan differensieres ved en kombinasjon av genmarkører.

FIGUR 2
www.frontiersin.org

Figur 2. Fordelingen av et minimalt sett med 131 serovar-spesifikke gener i 106 serovarer. Y-aksen viser serovarer eller avstamningsspesifikke genmarkører, Og X-aksen viser serovarer eller avstamninger. Detaljene ble oppført I Supplerende Tabell S4. Gray indikerte null genomer som inneholder et gen (TN). Gen / Genom-par langs diagonalen representerer genomer som inneholder serovar-spesifikke genmarkører som samsvarer med deres serovar (TP). Rød representerer gener som er tilstede i 100% av genomene for en gitt serovar eller avstamning. Når et gen er tilstede i mindre enn 100% av en serovar, vises en gradient fra lyseblå (lav prosentandel) til mørk blå (høy prosentandel). Blå par langs diagonalen representerer TILSTEDEVÆRELSEN AV FN. Par som er blå eller røde utenfor diagonalen representerer par som inneholder gener som ikke samsvarer med den forutsagte serovar av genomet (FP).Vi testet ytterligere 1089 genomer som tilhører 106 Ikke-tyfoidale Salmonella serovarer for å evaluere evnen til de 131 spesifikke genmarkørene til å tildele serovarer til isolater på riktig måte. Ved bruk av serovar-spesifikke genmarkører ble 1038 av 1089-isolatene (95,3%) vellykket tildelt og 51 mislyktes (4,7%). FOR SISTR og SeqSero var antall konkordante serovar-oppdrag henholdsvis 1037 (95%) og 905 (82,8%) (Supplerende Tabell S3).

Serovar-Spesifikke Genmarkører for Serotyping av Vanlige Serovarer

de 20 beste serovarene som forårsaker menneskelig infeksjon funnet i hvert kontinent (Hendriksen et al., 2011) ble kollapset i en kombinert liste over 46 serovarer (Supplerende Tabell S5). Siden disse serovarene inneholdt de aller fleste isolater som forårsaker menneskelige infeksjoner globalt, vurderer vi dem separat for å vurdere bruken av kandidat serovar-spesifikke genmarkører for serotyping av mest utbredte serovarer i en lokal setting. Når bare disse serovarene ble vurdert, kunne 18 av 46 unikt identifiseres av en av de serovar-spesifikke genmarkørene. For å øke nøyaktigheten av å skrive i de resterende 28 vanlige serovarer hvor serovar-spesifikke genmarkører har variert FPRs, undersøkte vi ved hjelp av undergrupper av de 131 genmarkørene (fra 2 til 9 gener per serovar) for å eliminere potensiell FP. For eksempel kan kombinasjonen Av Choleraesuis-spesifikt gen og Cerro – i-slektsspesifikt gen eliminere falskt positivt isolat Av Cerro fra Choleraesuis, hvis begge gener er positive, kan isolatet tildeles Cerro, mens Hvis Cerro-I slektsspesifikt gen er negativt, er isolatet Choleraesuis.

for å estimere potensielle feil i å skrive, tok vi hensyn til frekvensen av 46 vanlige serovarer som viste store forskjeller mellom regioner (Hendriksen et al., 2011). Derfor kan forskjellige kombinasjoner av gener brukes til å spesifikt begrense falske positive resultater fra serovarer tilstede i den regionen. I en gitt region ble spesifisiteten til vanlige serovar-spesifikke genmarkører beregnet ved hjelp AV frekvensen AV FP og frekvensen av den falske positive serovaren i den regionen. Spesifisiteten til kandidatserovar-spesifikke genmarkører ble også beregnet ved HJELP AV fp-frekvensen (Supplementstabell S4). For eksempel kan et panel på 15 gener brukes til å skrive De 10 hyppigste serovarene I Australia (NEPSS 2010) (Tabell 3). Når Australske regionale frekvenser ble tatt i betraktning, kan genene oppført i Tabell 3 brukes som markører for laboratoriebasert typing og feilfrekvensen vil være mindre enn 2,4%.

TABELL 3
www.frontiersin.org

Tabell 3. Et panel av serovar-spesifikke gener for å skrive de ti hyppigste serovarene I Australia.

Diskusjon

Salmonella serotyping har vært avgjørende for diagnose og overvåking. Serovar prediksjon ved tradisjonell serotyping kan begrenses av mangel på overflateantigenuttrykk eller autoagglutinasjonsegenskaper (Wattiau et al., 2008). Nylig, med utviklingen av helgenomsekvenseringsteknologi, kan de relevante genomiske områdene av rfb-genklyngen for o-antigen, genflic og gen fljB for h-antigener og gener målrettet AV MLST ekstraheres og brukes til serovaridentifikasjon. Flere studier har identifisert serovar-spesifikke gener eller DNA-fragmenter for serotyping gjennom hel-genom sekvensering basert genom sammenligning (Zou et al ., 2013, 2016; Laing et al., 2017). Imidlertid utpekte disse serovar-spesifikke gener eller DNA-fragmenter bare et lite antall serovarer. I denne studien identifiserte vi 414 kandidat serovar-spesifikke eller slektsspesifikke genmarkører for 106 serovarer som inkluderer 24 polyfyletiske serovarer og paraphyletic Serovar Enteritidis. En undergruppe av disse genmarkørene ble validert av uavhengige genomer og kunne tildele serovarer riktig i 95,3% av tilfellene.ovennevnte analyse ble komplisert ved tilstedeværelsen av polyfyletiske serovarer, som oppstår uavhengig av separate forfedre for å danne separate linjer. Derfor var det nødvendig med en kombinasjon av avstamningsspesifikke genmarkører for klar identifisering av flertallet av de polyfyletiske serovarene. Interessant fire polyfyletiske serovarer, Bredeney, Kottbus, Livingstone og Virchow, hver hadde en kandidat serovar-spesifikk genmarkør som var tilstede i alle isolater av den serovar. Det Bredeney serovar-spesifikke genet ble spådd å kode en translokase involvert I o-antigenkonvertering og kunne ha blitt oppnådd parallelt. De serovar-spesifikke genene til de andre tre polyfyletiske serovarene koder hypotetiske proteiner med ukjent funksjon og ingen åpenbar forklaring på deres tilstedeværelse i forskjellige linjer av samme serovar.I Motsetning til polyfyletiske serovarer har de tre linjene (klade A, B Og C) i paraphyletic Serovar Enteritidis en felles stamfar. Clade A og C er forfedre Til Clade B. Tidligere studier beskrev At Enteritidis ble gruppert med Serovars Dublin, Berta Og Gallinarium som ble kalt «Seksjon Enteritidis» (Vernikos et al., 2007; Geir et al., 2012; Allard et al., 2013; Timme et al., 2013). En annen studie viste at Serovar Nitra var innebygd i Enteritidis-linjene ved å bruke hele genomfylogeni (Deng et al., 2014). Det var også kryssreaktivitet mellom Enteritidis og Nitra i henhold Til ogunremis studie (Ogunremi et al., 2017). I vår studie valgte Vi isolater basert på rSTs, Nitra var ikke tilstede i Enterobase rMLST database da denne studien startet og så ble ikke inkludert i denne studien. Gallinarium skiller Seg fra Enteritidis ved hjelp av tilstedeværelsen av en 4 bp-sletting i spec-genet (Kang et al., 2011). Vi observerte at de vanlige forfedrene Til Serovarer Dublin, Berta Og Gallinarium, oppsto fra en forfedre Mellom Clades B Og A / C. Mens Dublin kan identifiseres separat, kan Vi ikke skille Berta eller Gallinarium fra Enteritidis clade A / C. disse resultatene fremhever en begrensning av tilnærmingen da serovarer må være tilstrekkelig divergerende at de varierer med minst ett unikt gen. På samme måte var det 8 andre serovarer som ikke kunne skilles sannsynlig på grunn av svært nylig felles forfedre med lite genoppkjøp.

Serovar-spesifikke kandidatgenmarkører eller slektsspesifikke kandidatgenmarkører i 69 av 106 serovarer var sammenhengende i genomet med lignende funksjoner gruppert sammen (data ikke vist). Dette antyder at disse genmarkørene kan ha blitt innlemmet i serovar-genomene sammen gjennom horisontal genoverføring. Faktisk de syv Typhimurium spesifikke kandidat genet markører identifisert i denne studien (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497, OG STM4498)ble plassert I Typhimurium tRNAleuX integrere konjugative element-relaterte regionen inkludert gener FRA STM4488 TIL STM4498, som er en kjent horisontal genoverføring hotspot (Bishop et al., 2005). Tilsvarende fem Enteritidis spesifikke kandidat gen markører identifisert (SEN1379, SEN1380, SEN1382, SEN1383, OG SEN1383)ble plassert I Sdr i regionen (Agron et al., 2001) og profet-lignende GEI / φ 14-regionen (Santiviago et al., 2010). Begge disse regionene er knyttet til profetier, noe som tyder på at disse regionene integrert i genomet av en felles stamfar til den globale Enteritidis clade og ble avledet fra horisontal genoverføring.

Andre metoder for i silico serovar prediksjon er implementert I SeqSero (Zhang et al., 2015) OG SISTR (Yoshida et al., 2016). Begge disse metodene undersøker genomiske regioner som er ansvarlige for overflateantigener, MENS SISTR også implementerer en cgMLST-ordning for å undersøke generell genetisk slektskap. I tillegg tradisjonelle 7 genet MLST og eBURST grupper avledet fra det kan også brukes for i silico serovar bestemmelse (Achtman et al., 2012; Jørgen et al., 2016; Robertson et al., 2018). BÅDE SISTR og SeqSero gir høyere diskriminerende kraft enn tradisjonell serovar-identifikasjon (Yachison et al., 2017). Men de har en rekke ulemper som utvisket serovars har samme antigene formel eller antigene determinanter ikke blir uttrykt (Robertson et al., 2018). I den nåværende studien undersøkte vi i silico serovar-prediksjon ved å screene genomer mot et sett med 131 serovar-spesifikke genmarkører. Tilnærmingen ga serovar-prediksjon ved å gi» tilstedeværelse eller fravær » av individuell serovar-spesifikk genmarkør eller kombinasjon av genmarkører i et spørringsisolat. Vi viser at serovar-spesifikke genmarkører har sammenlignbar nøyaktighet med andre i silikoserotypingsmetoder med 91,5% isolater fra innledende identifikasjonsdatasett og 84,8% isolater fra et valideringsdatasett tilordnet riktig serovar (uten FN og FP). 10.5% av isolatene fra valideringsdatasettet kan tilordnes en liten delmengde av serovarer som inneholder riktig serovar (med variert FP). Spesifisiteten for i silico serovar prediksjon tilnærming av serovar-spesifikke genmarkører var 95.3%, litt høyere ENN SISTR (95%) Og SeqSero (82.8%) i samme datasett vi testet. Dette resultatet var lik de særegenheter SISTR og SeqSero rapportert Av Yachison et al. (2017) som var henholdsvis 94,8 og 88,2%.

vår serovar-spesifikke genmarkørbasert metode krever ikke nøyaktig undersøkelse Av O-antigengenklynger eller sekvensvariasjon Av H-antigengener som kan være problematisk. Vår metode lindrer også behovet for hele genet eller genomsekvensen som er nødvendig I MLST-eller cgMLST-baserte metoder. Derfor kan denne tilnærmingen være nyttig for tilfeller der svært lite sekvens er tilgjengelig, for eksempel i metagenomikk eller kulturfri skriving, samt å gi et tredje alternativ til å bekrefte andre analyser.identifiseringen av et sett med genmarkører som unikt kan identifisere alle utbredte serovarer i en region, kan også være nyttig i utviklingsmolekylære analyser. Disse analysene vil være nyttige i serotyping isolater der kulturer ikke lenger er oppnådd, og tradisjonell serotyping er derfor umulig. FOR eksempel kan ET SETT MED PCR-analyser utformes som vil tillate sensitiv deteksjon av spesifikke genmarkører, og derfor tillate prediksjon av serovar, fra en klinisk prøve. I tillegg, ved å eliminere behovet for å oppdage serovarer som svært sjelden observeres i en region, kan antallet av disse genmarkørene som kreves for å oppdage alle store serovarer i en region, reduseres betydelig, noe som gir en mer kostnadseffektiv analyse.

Konklusjon

i denne studien identifiserte vi kandidatserovar-spesifikke genmarkører og kandidatlinjespesifikke genmarkører for 106 serovarer ved å karakterisere tilbehørsgenomene til et representativt utvalg av 2258 stammer som potensielle markører for silikoserotyping. Vi står for polyfyletiske og paraphyletic serovars å gi en ny metode, ved hjelp av tilstedeværelse eller fravær av disse genmarkører, for å forutsi serovar av et isolat fra genomiske data. Genmarkørene som er identifisert her, kan også brukes til å utvikle serotypeanalyser i fravær av en isolert stamme som vil være nyttig når diagnosen beveger seg til kulturuavhengige og metagenomiske metoder.

Forfatterbidrag

MP og RL designet studien og ga kritisk revisjon av manuskriptet. XZ og MP utførte den bioinformatiske analysen. XZ, MP og RL analyserte resultatene. XZ utarbeidet manuskriptet.

Finansiering

dette arbeidet ble støttet Av Et Prosjekt fra National Health And Medical Research Council.

Interessekonflikt

forfatterne erklærer at forskningen ble utført i fravær av kommersielle eller økonomiske forhold som kan tolkes som en potensiell interessekonflikt.

Supplerende Materiale

Supplerende Materiale for denne artikkelen kan bli funnet online på: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

FIGUR S1 | SNP-basert fylogenetisk tre konstruert Av Pastinakk som viser evolusjonære relasjoner innenfor og mellom serovarer ved hjelp av 1344 representative isolater inkludert 1258 isolater fra 107 serovarer undersøkt i studien og 86 isolater fra serovarer med mindre enn 5 rSTs som ellers ble ekskludert fra studien.TABELL S1 / det endelige datasettet med 2258 høy kvalitet og konsistente serovar prediksjonsgenomer som representerer 107 serovarer.TABELL S2 / totalt 414 kandidatserovar – spesifikke gener inkludert 295 serovar-spesifikke gener og 119 slektsspesifikke gener.

TABELL S3 / Ytterligere 1089 valideringsisolater med serovar-prediksjonsresultater ved SISTR -, SeqSero-og serovar-spesifikke genmarkører.

TABELL S4 / minst 131 gener for identifikasjon av 106 serovarer.

TABELL S5 / et sett med 65 gener for identifisering av 46 vanlige serovarer.

DATA S1 / Sekvenser av 131 serovar-spesifikke genmarkører.

Forkortelse

FN, falske negativer; FP, falske positiver; FPR, falsk positiv rente; MLST, multi-locus sekvens typing; NEPSS, Nasjonale Enteriske Patogener Overvåking Ordningen; PPV, positiv prediktiv verdi; rSTs, ribosomal MLST STs; SISTR, Salmonella i silico skrive ressurs; TN, sanne negativer; TNR, sann negativ rate; TP, sanne positive; TPR, sann positiv rate.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). En genomisk oversikt over populasjonsstrukturen Av Salmonella. PLoS Genet. 14: e1007261. doi: 10.1371 / tidsskrift.pgen.1007261

PubMed Abstract | CrossRef Full Text / Google Scholar

Allard, M. W., Luo, Y., Stamme, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). På evolusjonær historie, populasjonsgenetikk og mangfold blant isolater Av Salmonella ENTERITIDIS PFGE mønster JEGX01. 0004. PLoS En 8: e55254. doi: 10.1371 / tidsskrift.pone.0055254

PubMed Abstract | CrossRef Full Text/Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: en bedre, raskere versjon AV PHAST phage search tool. Nukleinsyrer Res. 44, W16-W21. doi: 10.1093/nar/gkw387

PubMed Abstract | CrossRef Full Text/Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Powell, D. G., Painset, A., et al. (2016). Identifisering Av Salmonella for folkehelse overvåking ved hjelp av hele genomsekvensering. PeerJ 4: e1752. doi: 10.7717 / peerj.1752

PubMed Abstract | CrossRef Full Text/Google Scholar

Aziz, R. K., Bartels, D., Best, A. A., DeJongh, M., Disz, T., Edwards, R. A., Et al. (2008). RAST-Serveren: raske merknader ved hjelp av delsystemteknologi. BMC Genomikk 9: 75. doi: 10.1186/1471-2164-9-75

PubMed Abstract | CrossRef Full Text | Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., D. v., M., Et al. (2012). SPAdes: en ny genom montering algoritme og dens applikasjoner til single-celle sekvensering. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract | CrossRef Full Text/Google Scholar

Biskop, Al, Baker, S., Jenks, S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Analyse av den hypervariable regionen Av Salmonella enterica genomet assosiert med tRNAleuX. J. Bakteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Genomsekvensering avslører diversifisering av virulensfaktorinnhold og mulig vertstilpasning i forskjellige subpopulasjoner Av Salmonella enterica. BMC Genomikk 12: 425. doi: 10.1186/1471-2164-12-425

PubMed Abstract | CrossRef Full Text/Google Scholar

Deng, X., Desai, Pt, Den Bakker, H. C., Mikoleit, M., Tolar, B., Trær, E., Et al. (2014). Genomisk epidemiologi Av Salmonella enterica serotype Enteritider basert på populasjonsstruktur av utbredte linjer. Emerg. Infisere. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, perle-basert suspensjon array for molekylær bestemmelse av vanlige Salmonella serogrupper. J. Clin. Mikrobiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed Abstract | CrossRef Full Text/Google Scholar

Graham, Rm, Hiley, L., Rathnayake, Ie, Og Jennison, Av (2018). Comparative genomics identifiserer forskjellige linjer Av S. Enteritidis fra Queensland, Australia. PLoS En 13: e0191042. doi: 10.1371 / tidsskrift.pone.0191042

PubMed Abstract | CrossRef Full Text/Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., Et al. (2013). Utvikling AV EN DNA-mikroarray for molekylær identifikasjon av alle 46 Salmonella o serogrupper. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

PubMed Abstract / CrossRef Full Text / Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N., Og Tesler, G. (2013). QUAST: kvalitetsvurderingsverktøy for genomsamlinger. Bioinformatikk 29, 1072-1075. doi: 10.1093 / bioinformatikk/btt086

PubMed Abstract | CrossRef Full Text/Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, A. B., et al. (2011). Global overvåking Av Salmonella serovar distribusjon fra verdens helseorganisasjon global matbårne infeksjoner nettverk land data bank: resultater av kvalitetssikrede laboratorier fra 2001 til 2007. Matbårne Patogen. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstract | CrossRef Full Text/Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K., Et al. (2011). Differensiell identifikasjon Av Salmonella enterica subsp. enterica Serovar Gallinarum biovars Gallinarum og Pullorum basert på polymorfe regioner av glgC og speC gener. Veterinær. Mikrobiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

PubMed Abstract | CrossRef Full Text / Google Scholar

Kingsley, R. A., Og Bä, A. J. (2000). Vert tilpasning og fremveksten av smittsomme sykdommer: Salmonella paradigmet. Mol. Mikrobiol. 36, 1006–1014. doi: 10.1046/j.1365-2958. 2000. 01907.x

PubMed Abstract / CrossRef Full Text / Google Scholar

Laing, Cr, Whiteside, Md, Og Gannon, Vp (2017). Pan-genom analyser Av arten Salmonella enterica, og identifisering av genomiske markører prediktiv for arter, underarter og serovar. Front. Mikrobiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract / CrossRef Full Text/Google Scholar

Le Minor, L., Og Bockemü, J. (1984). Supplerendeé NEI XXVII au sché De Kauffmann-Hvit. Anne. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609 (84) 80042-3

CrossRef Full Text | Google Scholar

Le Mindre, L., Popoff, M., Og Bockemü, J. (1990). Tillegg 1989 (n° 33) Til Kauffmann-Hvit ordningen. Res. Mikrobiol. 141, 1173-1177. doi: 10.1016/0923-2508 (90)90090-D

CrossRef Full Text/Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F., Og Fields, Pi (2004). Sekvensering og komparativ analyse av flagellin gener fliC, fljB, og flpA Fra Salmonella. J. Clin. Mikrobiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Abstract | CrossRef Full Text/Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., Má, I. G., Omidi, K., Pope, L., et al. (2017). Evaluering AV en multiplex PCR-analyse for identifisering Av Salmonella serovars enteritidis og typhimurium ved bruk av detaljhandels-og slakteriprøver. J. Mat Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

PubMed Abstract | CrossRef Full Text | Google Scholar

Side, A. J., Cummins, Ca, Jakt, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: rask storskala prokaryote pan genom analyse. Bioinformatikk 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Omfattende vurdering av kvaliteten På Salmonella hele genomet sekvensdata tilgjengelig i offentlige sekvensdatabaser ved Hjelp Av Salmonella in silico typing resource (SISTR). Mikrob. Genomikk doi: 10.1099 / mgen.0.000151 .

PubMed Abstract | CrossRef Full Text/Google Scholar

Santiviago, C. A., Blondel, C. J., Quezada, C. P., Silva, C. A., Tobar, P. M., Porwollik, S., Et al. (2010). Spontan eksisjon Av Det Salmonella enterica serovar Enteritidis-spesifikke defekte profage-lignende elementet φ 14. J. Bakteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformatikk/btu153

PubMed Abstract | CrossRef Full Text/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. W., Stamme, E., Barrangou, R., Wehnes, C., et al. (2013). Fylogenetisk mangfold av det enteriske patogenet Salmonella enterica subsp. enterica utledes fra genom-wide referanse-fri SNP tegn. Genom Biol. Evol. 5, 2109–2123. doi: 10.1093/gbe / evt159

PubMed Abstract | CrossRef Full Text/Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S. og Phillippy, A. M. (2014). Harvest suite for rask kjerne-genom justering og visualisering av tusenvis av intraspesifikke mikrobielle genomer. Genom Biol. 15:524. doi: 10.1186 / s13059-014-0524-x

PubMed Abstract | CrossRef Full Text/Google Scholar

Vernikos, G. S., Thomson, N. R., Og Parkhill, J. (2007). Genetisk flux over Tid i Salmonella-linjen. Genom Biol. 8: R100. doi: 10.1186 / no-2007-8-6-r100

PubMed Abstract | CrossRef Full Text/Google Scholar

Wattiau, P., Boland, C., Og Bertrand, S. (2011). Metoder For Salmonella enterica ssp enterica subtyping: gullstandarder og alternativer. Appl. Miljø. Mikrobiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

PubMed Abstract | CrossRef Full Text/Google Scholar

Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H., Og Imberechts, H. J. (2008). Sammenligning av klassisk serotyping og PremiTest analyse for rutinemessig identifisering Av Vanlige Salmonella enterica serovarer. J. Clin. Mikrobiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstract | CrossRef Full Text/Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., Et al. (2017). Valideringen og implikasjonene ved å bruke hele genomsekvensering som erstatning for tradisjonell serotyping for et nasjonalt Salmonella referanselaboratorium. Front. Mikrobiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract / CrossRef Full Text / Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H., et al. (2016). Salmonella i silico typing resource (SISTR): en åpen web-tilgjengelig verktøy for raskt å skrive og subtyping utkast Salmonella genom forsamlinger. PLoS En 11: e0147101. doi: 10.1371 / tidsskrift.pone.0147101

PubMed Abstract | CrossRef Full Text/Google Scholar

Zhang, s., Yin, Y., Jones, Mb, Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Salmonella serotype bestemmelse utnytte høy gjennomstrømming genomsekvensering data. J. Clin. Mikrobiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Abstract / CrossRef Full Text / Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R., Og Liu, S.-L. (2016). Genotyping Av Salmonella med slektsspesifikke gener: korrelasjon med serotyping. Int. J. Infisere. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

PubMed Abstract / CrossRef Full Text / Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J., Og Liu, S.-L. (2013). Identifisering av gener for å skille nært beslektede Salmonella linjer. PLoS En 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar