Articles

Frontiers in Microbiology

introduktion

Salmonella forårsager human salmonellose og infektioner hos varmblodede dyr (Kingsley og B. Slægten Salmonella er opdelt i to arter, S. enterica og S. bongori. serotypning klassificerer yderligere Salmonella i over 2.600 serotyper (serovarer) gennem agglutinationsreaktionen af antisera til tre overfladeantigener O, H1 og H2 (Le Minor og Bockem Larsthl, 1984; Le Minor et al., 1990). Der er 46 o antigener, der identificerer serogruppen. Sammen med 119 H1-og H2-flagellinantigener identificerer o -, H1-og H2-kombinationerne serovarerne. Kun en lille del af serovarerne er ansvarlige for størstedelen af de humane salmonellainfektioner (Popoff et al., 2004).

serotypning ved antigen agglutination erstattes af molekylær serotypning (Cai et al., 2005; Torben et al., 2011). Dette kan opnås ved undersøgelse af sekvensen af O-antigengenklynge, H1-antigenkodende gen fliC og H2-antigenkodende gen fljB., 2007). O antigengenklynger kan differentieres ved tilstedeværelse eller fravær af gener, mens H1-og H2-antigener differentieres ved sekvensvariation., 2004; Guo et al., 2013; Chang et al., 2015). Salmonella serotyper kan også udledes gennem MLST., 2011; Achtman et al., 2012) som en serotype kan udledes af dens sekvenstyper. En forudsætning for denne tilgang er imidlertid, at forudgående kendskab til det tilsvarende forhold mellem serovar og sekvenstype er påkrævet.

for nylig med udviklingen af helgenomsekvensbaseret sammenligning har flere undersøgelser identificeret genomiske markører som en alternativ molekylær metode til serotypning. Et al. (2016) identificerede syv gener, der giver tilstrækkelig opløsning til at differentiere 309 Salmonellastammer, der repræsenterer 26 serovarer og fandt serovarspecifikke gener i 13 ud af 26 serovarer. Laing et al. (2017) identificerede genomiske fragmenter, der er specifikke for Salmonellaarter og underarter gennem pan-genomanalyse. Disse specifikke gener eller DNA-fragmenter er blevet brugt som molekylære mål til at udvikle flere molekylære assays til hurtig identifikation og påvisning af Salmonella på arter og serovar niveau. Imidlertid er disse specifikke gener eller DNA-fragmenter begrænset i deres diskriminerende evne på grund af deres evne til kun at skelne mellem et mindre antal serovarer.

i denne undersøgelse havde vi til formål at bruge den omfattende offentligt tilgængelige samling af Salmonella-genomer til at identificere serovar-specifikke genmarkører for de hyppigste Salmonella-serovarer. Vi viser potentialet i disse serovar-specifikke genmarkører som markører til molekylær serotypning enten i silicotypning af genomiske data eller til udvikling af laboratoriediagnostiske metoder.

materialer og metoder

ribosomal Mlst ST-baseret Isolatvalg

Salmonella-databasen i Enterobasen (Alikhan et al., 2018) fra marts 2018 blev forespurgt, og 118997 isolat blev undersøgt. Repræsentative isolater for hver rSTs blev valgt og ekstraheret af et internt python-script. Kun serovarer med mere end fire rSTs blev inkluderet i denne undersøgelse. For de 20 største serovarer blev repræsentative isolater kun tilfældigt udvalgt blandt rSTs med to eller flere isolater. For de resterende serovarer blev et repræsentativt isolat for hver første tilfældigt valgt. Rå læser for disse isolater blev hentet fra ENA (europæisk Nukleotidarkiv1) og blev de novo samlet ved hjælp af SPAdes v3.10.1 assembler med standardindstillinger2 (Bankevich et al., 2012). Serovaren af de samlede genomer blev forudsagt af SISTR (Yoshida et al., 2016) efter at de opfyldte følgende kriterier, som blev defineret af Robertson et al. (2018) ved hjælp af KVAST3 (Gurevich et al., 2013): samlestørrelse mellem 4 og 6 Mb med antallet af contigs mindre end 500, den største contig større end 100 kb, GC-indhold mellem 50 og 54%, gen forudsagt af glimt inden for kvast mere end 3000. Overensstemmelsen mellem de resulterende sistr serovar-forudsigelser og den rapporterede serovar på Enterobase-metadataposten blev undersøgt, og et lille antal genomer blev fjernet fra analysen på grund af inkonsekvente serovar-forudsigelser. Det endelige datasæt bestod af 2258 genomer af høj kvalitet med konsistent serovar-forudsigelse, der repræsenterer 107 serovarer (supplerende tabel S1).

identifikation af Salmonella Serovar-specifikke Kandidatgenmarkører

for at bestemme de potentielle serovar-specifikke genmarkører for 107 serovarer blev de 2258 genomer kommenteret ved hjælp af PROKKA (Seemann, 2014). Pan-genom og kerne-genom blev analyseret af roary (Page et al., 2015) ved hjælp af en 80% sekvensidentitetsgrænse. De gener, der er specifikke for hver serovar, blev identificeret fra pan-genomets tilbehørsgener med et internt python-script. I denne undersøgelse blev antallet af genomer fra en given serovar indeholdende et specifikt gen for den serovar betegnet sand positiv (TP), antallet af genomer fra den samme serovar, der mangler det samme gen, blev betegnet falsk negativ (FN). Antallet af genomer fra andre serovarer indeholdende det samme serovar-specifikke gen blev betegnet falsk positve (FP). Afslappede cutoffs (20% FN, 10% FP) blev oprindeligt brugt for at sikre, at alle serovarer havde kandidatspecifikke gener, som kunne undersøges yderligere. Paralogøse gener blev fjernet fra analyserne.

evaluering af potentielle Serovar – specifikke genmarkører

F1-scoren blev anvendt til initial selektion af de potentielle serovar-specifikke genmarkører. F1-score blev evalueret ud fra formlen: 2-lys (PPV-lysfølsomhed)/(PPV + – følsomhed), hvor PPV blev defineret som TP/(TP+FP) og følsomhed blev defineret som TP/(TP+FN). F1 varierer fra 0 til 1, Hvor 1 betyder det serovar-specifikke gen, som var til stede i alle genomer af en given serovar og fraværende i alle genomer af andre serovarer. De serovar-specifikke genmarkører blev valgt under anvendelse af det bedst præsterende gen for hver serovar baseret på F1-score. Specificiteten defineret som TN/(TN+FP) blev brugt til at evaluere ægte negativ (TN) hastighed af serovar-specifikke genmarkører. Falsk positiv rate (FPR) blev defineret af 1 – TNR.

fylogenetiske analyser

for at bestemme årsagerne til de observerede falske negative og FPRs i de kandidatserovar-specifikke genmarkører blev de fylogenetiske forhold mellem de involverede serovarer undersøgt. Udkastet til samlinger af 1258 isolater blev brugt til at generere fylogenetiske træer ved hjælp af pastinp v1.24 (Treangen et al., 2014) med standardparametre til bestemmelse af fylogeni mellem og inden for serovarer. Træet blev visualiseret af FigTree v1.4. 3 (Schneider et al., 2000).

placering og funktioner af Serovar-specifikke genmarkører

repræsentative komplette genomer for hver serovar indeholdende genfunktioner blev hentet fra NCBI5 og blev brugt til at bestemme placeringen af hvert af kandidat serovar-specifikke gen ved BLASTN med standardindstillinger (version 2.2.6, Supplerende Tabel S2). I serovarer uden repræsentativt komplet genom blev der valgt et repræsentativt genom blandt isolater samlet i denne undersøgelse. Sekvenser af serovar-specifikke genmarkører er inkluderet i supplerende Data S1. Klyngedannelse af gener på tværs af genomet blev brugt til at undersøge, om de serovar-specifikke genmarkører potentielt var en del af et enkelt element opnået af en serovar i en begivenhed. De kandidatserovar-specifikke genmarkører blev betragtet som en klynge, hvis de var placeret mindre end 5 kb fra hinanden.

de funktionelle kategorier af genmarkører blev identificeret ud fra RAST-annotation6., 2008). Profagesekvenserne inden for serovars referencegenomer blev identificeret ved hjælp af PHASTER for at indikere, om de serovar-specifikke genmarkører kan være erhvervet sammen med profager (Fagsøgningsværktøj forbedret frigivelse) (Arndt et al., 2016).

I silico Serotype Forudsigelse ved hjælp af Serovar-specifikke genmarkører

yderligere 1089 isolater blev valgt fra Enterobasen ved hjælp af et internt python-script med udelukkelse af 2258 isolater anvendt til den indledende screening fra den samme database fra marts 2018 (supplerende tabel S3). BLASTN blev brugt til at søge mod de 1089 genomer, der tilhørte 106 Salmonella serovarer for tilstedeværelsen af nogen af de serovar-specifikke genmarkører. Brugerdefinerede python-scripts blev derefter brugt til at forudsige serovar fra disse serovar-opgaver baseret på det kendte gentilstedeværelsesmønster for hver serovar. TP blev klassificeret som det samlede antal korrekt tildelte serovarer og tilfælde, hvor den korrekte serovar blev kaldt samt en eller flere FP. Mislykket opgave blev defineret, hvor der ikke blev kaldt nogen serovar eller forkerte serovarer. Serovar forudsigelser blev sammenlignet med Seksero (Jang et al., 2015) og sistr forudsigelser.

beregning af specificiteten af kandidat Serovar-specifikke genmarkører for almindelige serovarer

specificiteten af typehastighed for almindelige serovarer (Hendriksen et al., 2011) var lig med (1-potentiel fejlrate). Den potentielle fejlfrekvens for serovar-specifikke genmarkører defineret ved formlen: (Antal FPs) kar(frekvensen af den serovar i en given region)/(i alt genomer af den serovar).

resultater

identifikation af kandidat Serovar-specifikke genmarkører

tilbehørsgenerne fra 2258 genomer, der repræsenterer 107 serovarer, blev screenet for at identificere potentielle serovar-specifikke genmarkører. Denne indledende screening identificerede 354 potentielle serovar-specifikke genmarkører inden for 101 serovarer. Seks serovarer nemlig Bareilly, Bovismorbificans, Thompson, Reading, Typhi og Saintpaul havde ingen kandidat serovar-specifikke genmarkører, der var til stede i alle slægter af en given serovar. Specificiteten (TNR) og følsomheden (TPR) af de 354 kandidat serovar-specifikke genmarkører blev også undersøgt og opsummeret i Figur 1. Fyrre serovarer indeholdt 194 serovar-specifikke genmarkører med 100% specificitet og følsomhed (ingen FN eller FP), mens 31 serovarer indeholdt 80 kandidat serovar-specifikke genmarkører med 100% følsomhed, men med mindre end 100% specificitet (varieret FP). Ni serovarer indeholdt 27 kandidat serovar-specifikke genmarkører med 100% specificitet, men med mindre end 100% følsomhed (varieret FN). De resterende 21 serovarer indeholdt 53 kandidat serovar-specifikke genmarkører med både specificitet og følsomhed mindre end 100% (varieret FN og FP).

figur 1

www.frontiersin.org

Figur 1. Fordelingen af følsomhed og specificitet af 354 potentielle serovar-specifikke genmarkører. TPR, ægte positiv sats; FPR, falsk positiv sats. Hvor en gradient fra lyseblå (lav procentdel) til Mørkeblå (høj procentdel) vises.

Vi konstruerede et fylogenetisk træ ved hjælp af 1258 repræsentative isolater fra 107 serovarer ved hjælp af Pastinp (supplerende figur S1). De 1258 isolater blev udvalgt baseret på fylogenetiske forhold mellem de oprindelige 2258 isolater, hvorfra vi valgte isolater til at repræsentere hver uafhængig Slægt. Vi fandt ud af, at medlemmer af hver af de 82 serovarer dannede en monofyletisk Slægt, mens 24 serovarer var polyfyletiske, hvor hver bestod af 2 til 4 slægter. Flere af disse serovarer vides at være polyfyletiske og indeholder sandsynligvis ikke serovar-specifikke genmarkører (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serovar Enteritidis er parafyletisk med tre andre serovarer (Dublin, Berta og Gallinarium), der stammer fra den større Enteritidis clade, som i sig selv består af tre slægter kendt som clade A, B og C (Graham et al., 2018). De fem Enteritidis-specifikke kandidatgenmarkører var negative for Enteritidis-isolaterne, der grupperede separat på træet.

interessant for fire polyfyletiske serovarer, Bredeney, Kottbus, Livingstone og Virchu, havde hver en kandidat serovar-specifikt gen, som var til stede i alle isolater af den serovar. For de resterende 20 polyfyletiske serovarer og parafyletiske serovar Enteritidis, vi søgte efter slægtsspecifikke genmarkører, da hver serovar indeholdt mere end en slægt. Hvis alle slægter indeholdt mindst et slægtsspecifikt gen, betragter vi den serovar som indeholdende serovar-specifikke genmarkører. I alt 111 potentielle slægtsspecifikke genmarkører blev identificeret for 19 polyfyletiske serovarer og parafyletiske serovar Enteritidis, blandt hvilke 27 slægtsspecifikke genmarkører blev identificeret for 5 serovarer med 100% specificitet og følsomhed (ingen FN og FP), 76 kandidatlinjespecifikke genmarkører for 14 serovarer med 100% følsomhed og mindre end 100% specificitet (varieret FP) og Enteritidis indeholdende 6 kandidatlinjespecifikke genmarkører med varieret FN og FP (tabel 1).

tabel 1
www.frontiersin.org

tabel 1. Lineage-specifikke kandidatgenmarkører for polyfyletiske serovarer og parafyletisk serovar.

for de 11 af de 82 monofyletiske serovarer, der manglede serovar-specifikke kandidatgenmarkører på grund af FN, fandt vi, at FN ofte skyldtes isolater, der er grupperet på en gren og divergeret tidligere fra de andre isolater. For sådanne grupper søgte vi efter slægtsspecifikke genmarkører. Derfor kan to eller flere genmarkører anvendes til at identificere en serovar, og sådanne serovarer blev også anset for at indeholde serovarspecifikke genmarkører svarende til polyfyletiske serovarer. Tre serovarer, Paratyphi A, Heidelberg og Muenchen kunne identificeres ved hjælp af de kombinerede slægtsspecifikke genmarkører.

i alt 414 kandidat serovar-specifikke genmarkører inklusive 295 serovar-specifikke genmarkører og 119 slægtsspecifikke genmarkører er opsummeret i supplerende tabel S2. I alt indeholdt 106 af 107 serovarer en eller flere genmarkører, 33 serovarer indeholdt et specifikt gen, mens 73 indeholdt to eller flere genmarkører. Der var ingen kandidat serovar-specifikke genmarkører fundet for monofyletisk Typhi og ingen potentielle afstamningsspecifikke genmarkører fundet for afstamning III af Stanleyville, som kun indeholdt et isolat.

funktionelle kategorier af Serovar-specifikke genmarkører

funktionel karakterisering af alle 414 genmarkører identificeret for de 106 serovarer ved hjælp af RAST fandt, at 197 havde kendte funktioner og 217 kodede hypotetiske proteiner med ukendte funktioner. Kun 46 gener med kommentarer kan grupperes i funktionelle kategorier, mens 151 gener med funktioner ikke var i RAST funktionelle kategorier (tabel 2). Brug af PHASTER. 45 kandidat serovar-specifikke genmarkører var placeret inden for forudsagte profager.

tabel 2
www.frontiersin.org

tabel 2. Serovar-specifikke gener funktionelle kategorier.

et minimalt sæt Serovar-specifikke genmarkører til in silico Molekylær serotypning

for mange serovarer blev flere kandidat serovar-specifikke genmarkører eller slægtsspecifikke genmarkører identificeret. I disse tilfælde blev der valgt et enkelt gen, der har de laveste FN-og FP-satser. Mindst 131 genmarkører tillader identifikation af serovarerne med fejlfrekvenser fra 0 til 8,33%. Fordelingen af genmarkørerne på tværs af alle 106 serovarer demonstrerer høj grad af specificitet som vist i figur 2, Hvor diagonalen viser det ene til et forhold mellem serovaren eller slægten med serovar-specifikke genmarkører, mens det off-diagonale rum viste sparsom spredt tilstedeværelse af disse gener i andre serovarer med forskellige procentdele, der indikerer en lav FPR. Detaljerne om disse genmarkører blev anført i supplerende tabel S4. Samlet set kan 45 serovarer skelnes ved deres respektive serovar-specifikke gen, og 61 serovarer kan differentieres ved hjælp af en kombination af genmarkører.

figur 2
www.frontiersin.org

figur 2. Fordelingen af et minimalt sæt af 131 serovar-specifikke gener i 106 serovarer. Y-aksen viser serovar-eller slægtsspecifikke genmarkører, og Røntgenaksen viser serovarer eller slægter. Detaljerne blev anført i supplerende tabel S4. Grå indikerede nul genomer indeholdende et gen (TN). Gen / Genompar langs diagonalen repræsenterer genomer indeholdende de serovar-specifikke genmarkører, der matcher deres serovar (TP). Rød repræsenterer gener, der er til stede i 100% af genomer for en given serovar eller afstamning. Hvor et gen er til stede i mindre end 100% af en serovar, vises en gradient fra lyseblå (lav procentdel) til Mørkeblå (høj procentdel). Blå par langs diagonalen repræsenterer tilstedeværelsen af FN. Par, der er blå eller røde uden for diagonalen, repræsenterer par, der indeholder gener, der ikke matcher den forudsagte serovar af genomet (FP).

Vi testede yderligere 1089 genomer tilhørende 106 ikke-typhoidal Salmonella serovarer for at evaluere evnen hos de 131 specifikke genmarkører til korrekt at tildele serovarer til isolater. Ved anvendelse af de serovar-specifikke genmarkører blev 1038 af de 1089 isolater (95,3%) tildelt med succes og 51 mislykkedes (4,7%). For SISTR og Seksero var antallet af konkordante serovar-opgaver henholdsvis 1037 (95%) og 905 (82,8%) (supplerende tabel S3).

Serovar-specifikke genmarkører til serotypning af almindelige serovarer

de top 20 serovarer, der forårsager menneskelig infektion, findes på hvert kontinent (Hendriksen et al., 2011) blev kollapset i en kombineret liste over 46 serovarer (supplerende tabel S5). Da disse serovarer indeholdt langt størstedelen af isolater, der forårsager humane infektioner globalt, vi betragter dem separat for at vurdere nytten af kandidatserovar-specifikke genmarkører til serotypning af mest udbredte serovarer i lokale omgivelser. Når kun disse serovarer blev overvejet, kunne 18 ud af 46 identificeres entydigt af en af de serovar-specifikke genmarkører. For at øge nøjagtigheden af at skrive i de resterende 28 almindelige serovarer, hvor serovar-specifikke genmarkører har varieret FPRs, undersøgte vi ved hjælp af delmængder af de 131 genmarkører (spænder fra 2 til 9 gener pr.serovar) for at eliminere potentiel FP. For eksempel kan kombinationen af Choleraesuis-specifikt gen og Cerro-i-slægtsspecifikt gen eliminere falsk positivt isolat af Cerro fra Choleraesuis, hvis begge gener er positive, kan isolatet tildeles Cerro, mens hvis Cerro-i-slægtsspecifikt gen er negativt, isolatet er Choleraesuis.

for at estimere potentielle fejl ved indtastning tog vi højde for hyppigheden af de 46 almindelige serovarer, der viste store forskelle mellem regioner (Hendriksen et al., 2011). Derfor kan forskellige kombinationer af gener anvendes til specifikt at begrænse falske positive resultater fra serovarer til stede i denne region. I en given region blev specificiteten af fælles kandidat serovar-specifikke genmarkører beregnet ved anvendelse af hastigheden af FP og hyppigheden af den falske positive serovar i denne region. Specificiteten af kandidat serovar-specifikke genmarkører blev også beregnet ved anvendelse af FP-hastigheden (supplerende tabel S4). For eksempel kan et panel på 15 gener bruges til at skrive de 10 hyppigste serovarer i Australien (NEPSS 2010) (tabel 3). Når Australske regionale frekvenser blev taget i betragtning, kan generne, der er anført i tabel 3, bruges som markører til laboratoriebaseret typning, og fejlfrekvensen vil være mindre end 2,4%.

tabel 3
www.frontiersin.org

tabel 3. Et panel af serovar-specifikke gener til at skrive de ti hyppigste serovarer i Australien.

Diskussion

salmonella serotypning har været afgørende for diagnose og overvågning. Serovar Forudsigelse ved traditionel serotypning kan begrænses af manglen på overfladeantigenekspression eller autoagglutineringsegenskaber., 2008). For nylig, med udviklingen af helgenom-sekventeringsteknologi, de relevante genomiske regioner i rfb-genklyngen for O-antigen, gen fliC og genfljb for H-antigener, og gener målrettet af MLST kan ekstraheres og anvendes til serovar-identifikation. Flere undersøgelser har identificeret serovar-specifikke gener eller DNA-fragmenter til serotypning gennem helgenom-sekventeringsbaseret genomisk sammenligning., 2013, 2016; Laing et al., 2017). Imidlertid adskiller disse serovarspecifikke gener eller DNA-fragmenter kun et lille antal serovarer. I denne undersøgelse identificerede vi 414 kandidat serovar-specifikke eller slægtsspecifikke genmarkører for 106 serovarer, der inkluderer 24 polyfyletiske serovarer og parafyletisk serovar Enteritidis. En delmængde af disse genmarkører blev valideret af uafhængige genomer og var i stand til at tildele serovarer korrekt i 95,3% af tilfældene.

ovenstående analyse blev kompliceret af tilstedeværelsen af polyfyletiske serovarer, der opstår uafhængigt af separate forfædre for at danne separate slægter. Derfor var en kombination af slægtsspecifikke genmarkører påkrævet for klar identifikation af størstedelen af de polyfyletiske serovarer. Interessant nok havde fire polyfyletiske serovarer, Bredeney, Kottbus, Livingstone og Virchov hver en kandidat serovar-specifik genmarkør, som var til stede i alle isolater af den serovar. Det Bredeney serovar-specifikke gen blev forudsagt at kode en translokase involveret i O-antigenkonvertering og kunne have været opnået parallelt. De serovarspecifikke gener fra de andre tre polyfyletiske serovarer koder for hypotetiske proteiner med ukendt funktion og ingen tilsyneladende forklaring på deres tilstedeværelse i forskellige slægter af den samme serovar.

I modsætning til polyfyletiske serovarer deler de tre slægter (clade A, B og C) af parafyletisk serovar Enteritidis en nylig fælles forfader. Clade A og C er forfædre til Clade B. tidligere undersøgelser beskrev, at Enteritidis var grupperet med Serovars Dublin, Berta og Gallinarium, der blev kaldt “sektion Enteritidis” (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). En anden undersøgelse viste, at serovar Nitra var indlejret i Enteritidis-Slægter ved anvendelse af helgenom fylogeni (Deng et al., 2014). Der var også krydsreaktivitet mellem Enteritidis og Nitra ifølge ogunremis undersøgelse (ogunremi et al., 2017). I vores undersøgelse valgte vi isolaterne baseret på rSTs, Nitra var ikke til stede i Enterobase rMLST-databasen, da denne undersøgelse startede, og blev derfor ikke inkluderet i denne undersøgelse. Gallinarium kan skelnes fra Enteritidis ved anvendelse af tilstedeværelsen af en 4 bp-deletion i speC-genet (Kang et al., 2011). Vi observerede, at de fælles forfædre til Serovars Dublin, Berta og Gallinarium opstod fra en forfader mellem Clades B og A/C. Mens Dublin kan identificeres separat, kan vi ikke skelne Berta eller Gallinarium fra Enteritidis clade A/C. Disse resultater fremhæver en begrænsning af tilgangen, da serovarer skal være tilstrækkeligt divergerende til, at de adskiller sig med mindst et unikt gen. Tilsvarende, der var 8 andre serovarer, der ikke kunne skelnes sandsynligvis på grund af meget nylig delt herkomst med lidt genopsamling.

Serovar-specifikke kandidatgenmarkører eller slægtsspecifikke kandidatgenmarkører i 69 ud af 106 serovarer var sammenhængende i genomet med lignende funktioner grupperet sammen (data ikke vist). Dette antyder, at disse genmarkører kan være blevet inkorporeret i serovar-genomer sammen gennem vandret genoverførsel. Faktisk var de syv Typhimurium-specifikke kandidatgenmarkører identificeret i denne undersøgelse (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497 og STM4498) lokaliseret i Typhimurium trnaleuks integrerende konjugativt elementrelateret region inklusive gener fra STM4488 til STM4498, som er et kendt vandret genoverførselshotspot (Bishop et al., 2005). Tilsvarende fem Enteritidis specifikke kandidatgenmarkører identificeret (SEN1379, SEN1380, SEN1382, SEN1383 og SEN1383) var placeret i Sdr i-regionen (Agron et al., 2001) og den profagelignende GEI/kurtse14-region (Santiviago et al., 2010). Begge disse regioner er knyttet til profager, hvilket antyder, at disse regioner integreres i genomet til en fælles forfader til den globale Enteritidis-klade og stammer fra vandret genoverførsel.

andre metoder til in silico serovar forudsigelse er implementeret i Seksero (Jang et al., 2015) og SISTR (Yoshida et al., 2016). Begge disse metoder undersøger genomiske regioner, der er ansvarlige for overfladeantigener, mens SISTR også implementerer en cgMLST-ordning for at undersøge den samlede genetiske sammenhæng. Derudover traditionelle 7 gen MLST og eBURST grupper afledt af det kan også anvendes til in silico serovar bestemmelse (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Både SISTR og Seksero giver højere diskriminerende magt end traditionel serovaridentifikation (Yachison et al., 2017). Imidlertid har de en række ulemper, såsom ikke-skelnelige serovarer, der har den samme antigene formel eller antigene determinanter, der ikke udtrykkes (Robertson et al., 2018). I den aktuelle undersøgelse undersøgte vi i silico serovar Forudsigelse ved screening af genomer mod et sæt af 131 serovar-specifikke genmarkører. Fremgangsmåden tilvejebragte serovar-Forudsigelse ved at give “tilstedeværelse eller fravær” af individuel serovar-specifik genmarkør eller kombination af genmarkører i et forespørgselsisolat. Vi viser, at serovar-specifikke genmarkører har sammenlignelig nøjagtighed med andre i silicoserotypemetoder med 91,5% isolater fra det oprindelige identifikationsdatasæt og 84,8% isolater fra et valideringsdatasæt tildelt den korrekte serovar (uden FN og FP). 10.5% af isolater fra valideringsdatasæt kan tildeles en lille delmængde af serovarer, der indeholder den korrekte serovar (med varieret FP). Specificiteten for in silico serovar forudsigelsesmetode ved serovar-specifikke genmarkører var 95,3%, lidt højere end SISTR (95%) og Seksero (82,8%) i det samme datasæt, vi testede. Dette resultat svarede til specifikationerne for SISTR og Seksero rapporteret af Yachison et al. (2017), som var henholdsvis 94,8 og 88,2%.

vores serovar-specifikke genmarkørbaserede metode kræver ikke den nøjagtige undersøgelse af O-antigengenklynger eller sekvensvariation af H-antigengenerne, som kan være problematisk. Vores metode lindrer også behovet for, at hele genet eller genomsekvensen samles, hvilket er nødvendigt i mlst-eller cgMLST-baserede metoder. Derfor kan denne tilgang være nyttig i tilfælde, hvor meget lidt sekvens er tilgængelig, såsom i metagenomics eller kulturfri typing samt tilvejebringelse af et tredje alternativ til at bekræfte andre analyser.

identifikationen af et sæt genmarkører, der er i stand til entydigt at identificere alle fremherskende serovarer i en region, kan også være nyttige i udviklingsmolekylære analyser. Disse analyser ville være nyttige til serotypning af isolater, hvor kulturer ikke længere opnås, og traditionel serotypning er derfor umulig. For eksempel kunne et sæt PCR-analyser designes, der muliggør følsom detektion af specifikke genmarkører og derfor tillader forudsigelse af serovaren fra en klinisk prøve. Ved at eliminere behovet for at detektere serovarer, der meget sjældent observeres i en region, kan antallet af disse genmarkører, der kræves for at detektere alle større serovarer i en region, reduceres markant, hvilket giver mulighed for en mere omkostningseffektiv analyse.

konklusion

i denne undersøgelse identificerede vi kandidatserovar-specifikke genmarkører og kandidatlinjespecifikke genmarkører for 106 serovarer ved at karakterisere tilbehørsgenomerne af et repræsentativt udvalg af 2258 stammer som potentielle markører for in silico-serotypning. Vi tegner os for polyfyletiske og parafyletiske serovarer for at tilvejebringe en ny metode ved hjælp af tilstedeværelsen eller fraværet af disse genmarkører for at forudsige serovaren af et isolat fra genomiske data. De genmarkører, der er identificeret her, kan også bruges til at udvikle serotypeanalyser i fravær af en isoleret stamme, som vil være nyttig, når diagnosen bevæger sig til kulturuafhængige og metagenomiske metoder.

Forfatterbidrag

MP og RL designede undersøgelsen og leverede kritisk revision af manuskriptet. MF og MF har foretaget den bioinformatiske analyse. RL, MP og RL har analyseret resultaterne. SF har udarbejdet manuskriptet.

finansiering

dette arbejde blev støttet et nationalt sundheds-og medicinsk Forskningsråds projektstipendium.

interessekonflikt Erklæring

forfatterne erklærer, at forskningen blev udført i mangel af kommercielle eller økonomiske forhold, der kunne fortolkes som en potentiel interessekonflikt.

supplerende materiale

det supplerende materiale til denne artikel kan findes online på: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

figur S1 | det SNP-baserede fylogenetiske træ Konstrueret af Pastinp, der viser de evolutionære forhold inden for og mellem serovarer ved hjælp af 1344 repræsentative isolater inklusive 1258 isolater fra 107 serovarer undersøgt i undersøgelsen og 86 isolater fra serovarer med mindre end 5 rSTs, som ellers var udelukket fra undersøgelsen.

tabel S1 / det endelige datasæt med 2258 høj kvalitet og konsistente serovar-forudsigelsesgenomer, der repræsenterer 107 serovarer.

tabel S2 / i alt 414 kandidat serovar-specifikke gener inklusive 295 serovar-specifikke gener og 119 slægtsspecifikke gener.tabel S3 / yderligere 1089 Validering isolater med serovar forudsigelsesresultater af sistr, Seksero og serovar-specifikke genmarkører.

tabel S4 / mindst 131 gener til identifikation af 106 serovarer.

tabel S5 / et sæt på 65 gener til identifikation af 46 almindelige serovarer.

DATA S1 / sekvenser af 131 serovar-specifikke genmarkører.

forkortelse

FN, falske negativer; FP, falske positive; FPR, falsk positiv rate; MLST, multi-locus-sekvenstypning; NEPSS, national ordning for overvågning af enteriske patogener; PPV, positiv forudsigelig værdi; rSTs, ribosomal Mlst STs; SISTR, Salmonella in silico typing resource; TN, sande negativer; TNR, ægte negativ rate; TP, sande positive; TPR, ægte positiv rate.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). En genomisk oversigt over Populationsstrukturen af Salmonella. PLoS Genet. 14: e1007261. doi: 10.1371 / tidsskrift.pgen.1007261

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Allard, M. V., Luo, Y., stamme, E., Pettengill, J., Timme, R., Vang, C., et al. (2013). På den evolutionære historie, populationsgenetik og mangfoldighed blandt isolater af Salmonella Enteritidis pfge mønster JEGKS01. 0004. PLoS en 8: e55254. doi: 10.1371 / tidsskrift.pone.0055254

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: en bedre, hurtigere version af PHAST fag søgeværktøjet. Nukleinsyrer Res. 44, B16–B21. doi: 10.1093 / nar / gk387

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Poul, D. G., Painset, A., et al. (2016). Identifikation af Salmonella til overvågning af folkesundheden ved hjælp af helgenomsekventering. PeerJ 4: e1752. doi: 10.7717 / peerj.1752

PubMed Abstract | CrossRef Fuld tekst/Google Scholar

Tak, R. K., Bartels, D., Best, A. A., DeJongh, M., Div, T., Edvard, R. A., Et Al. (2008). RAST-serveren: hurtige kommentarer ved hjælp af delsystemteknologi. BMC Genomics 9:75. doi: 10.1186 / 1471-2164-9-75

PubMed abstrakt | CrossRef Fuld tekst | Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., et al. (2012). SPAdes: en ny genomsamlingsalgoritme og dens applikationer til enkeltcellesekventering. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract | CrossRef Fuld tekst/Google Scholar

biskop, A. L., bager, S., Jenks, S., Fookes, M., Gaora, P. Larsen, Pickard, D., et al. (2005). Analyse af den hypervariable region af Salmonella enterica-genomet forbundet med trnaleuks. J. Bakteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Genomsekventering afslører diversificering af virulensfaktorindhold og mulig værtstilpasning i forskellige underpopulationer af Salmonella enterica. BMC Genomics 12: 425. doi: 10.1186 / 1471-2164-12-425

PubMed abstrakt | CrossRef fuldtekst/Google Scholar

Deng, H., Desai, P. T., Den Bakker, H. C., Mikoleit, M., Tolar, B., Trees, E., et al. (2014). Genomisk epidemiologi af Salmonella enterica serotype Enteritider baseret på populationsstruktur af fremherskende slægter. Emerg. Inficere. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multipleks, perlebaseret suspension array til molekylær bestemmelse af almindelige Salmonella serogrupper. J. Clin. Mikrobiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed abstrakt / CrossRef Fuld tekst / Google Scholar

Graham, R. M., Hiley, L., Rathnayake, I. U. og Jennison, A. V. (2018). Sammenlignende genomik identificerer forskellige slægter af S. Enteritidis fra Australien. PLoS en 13: e0191042. doi: 10.1371 / tidsskrift.pone.0191042

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, et al. (2013). Udvikling af en DNA-mikroarray til molekylær identifikation af alle 46 Salmonella o serogrupper. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

PubMed abstrakt / CrossRef Fuld tekst / Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N. og Tesler, G. (2013). Kvast: kvalitetsvurderingsværktøj til genomsamlinger. Bioinformatik 29, 1072-1075. doi: 10.1093 / bioinformatik / btt086

PubMed abstrakt | CrossRef fuldtekst/Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, fo Vong, D. M., Jensen, A. B., Et Al. (2011). Global overvågning af Salmonella serovar distribution fra Verdenssundhedsorganisationen globale fødevarebårne infektioner netværk land databank: resultater af kvalitetssikrede laboratorier fra 2001 til 2007. Foodborne Pathog. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Kang, M.-S., Kon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K., Et Al. (2011). Differentiel identifikation af Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum og Pullorum baseret på polymorfe regioner af glgC-og speC-gener. Dyrlæge. Mikrobiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Kingsley, R. A., Og B. Krisumler, A. J. (2000). Vært tilpasning og fremkomsten af smitsomme sygdomme: Salmonella paradigme. Mol. Mikrobiol. 36, 1006–1014. doi: 10.1046 / j. 1365-2958.2000. 01907.Google Scholar

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Laing, C. R., Hvidside, M. D. og Gannon, V. P. (2017). Pan-genomanalyser af arten Salmonella enterica og identifikation af genomiske markører, der er forudsigelige for arter, underarter og serovar. Front. Mikrobiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed abstrakt / CrossRef Fuld tekst/Google Scholar

le Minor, L., Og Bockem Larshl, J. (1984). Det er ikke tilladt at erstatte Kauffmann-hvid. Ann. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609 (84)80042-3

CrossRef fuldtekst | Google Scholar

le Minor, L., Popoff, M., Og Bockem Larshl, J. (1990). Supplement 1989 (N-33) Til Kauffmann-hvid-ordningen. Res. Microbiol. 141, 1173-1177. doi: 10.1016/0923-2508 (90)90090-D

CrossRef fuldtekst | Google Scholar

M., Gheesling, L., Brenner, F. og Fields, P. I. (2004). Sekventering og sammenlignende analyse af flagellingener fliC, fljB og flpA fra Salmonella. J. Clin. Mikrobiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Abstract | CrossRef fuldtekst/Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., M, I. G., Omidi, K., Pave, L., et al. (2017). Evaluering af en multipleks PCR-analyse til identifikation af Salmonella serovars enteritidis og typhimurium ved hjælp af detail-og slagteriprøver. J. Food Prot. 80, 295–301. doi: 10.4315/0362-028h.JFP-16-167

PubMed abstrakt | CrossRef Fuld tekst | Google Scholar

side, A. J., Cummins, C. A., Hunt, M., Vong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: hurtig storskala prokaryote pan genom analyse. Bioinformatik 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Omfattende vurdering af kvaliteten af Salmonella helgenomsekvensdata tilgængelige i offentlige sekvensdatabaser ved hjælp af Salmonella in silico typing resource (SISTR). Microb. Genomics doi: 10.1099 / mgen.0.000151 .

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Santiviago, C. A., Blondel, C. J., Silva, C. A., Tobar, P. M., Porvollik, S., et al. (2010). Spontan udskæring af det Salmonella enterica serovar Enteritidis-specifikke defekte profagelignende element kursse14. J. Bakteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093 / bioinformatik / btu153

PubMed abstrakt | CrossRef fuldtekst/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. V., stamme, E., Barrangou, R., Vihnes, C., et al. (2013). Fylogenetisk mangfoldighed af det enteriske patogen Salmonella enterica subsp. enterica udledt af genom-dækkende referencefri SNP-tegn. Genom Biol. Evol. 5, 2109–2123. doi: 10.1093 / GbE / evt159

PubMed abstrakt | CrossRef Fuld tekst | Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S. og Phillippy, A. M. (2014). Høstsuiten til hurtig kerne-genomjustering og visualisering af tusinder af intraspecifikke mikrobielle genomer. Genom Biol. 15:524. doi: 10.1186 / s13059-014-0524-PubMed abstrakt / CrossRef Fuld tekst / Google Scholar

Vernikos, G. S., Thomson, N. R. og Parkhill, J. (2007). Genetisk strømning over tid i Salmonella-slægten. Genom Biol. 8: R100. doi: 10.1186 / DK-2007-8-6-r100

PubMed Abstract / CrossRef Fuld tekst / Google Scholar

Metoder til Salmonella enterica ssp enterica subtyping: guld standarder og alternativer. Appl. Environ. Mikrobiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

vand, P., Van Hessche, M., Schlicker, C., Vander Veken, H. og Imberechts, H. J. (2008). Sammenligning af klassisk serotypning og PremiTest assay til rutinemæssig identifikation af almindelige Salmonella enterica serovarer. J. Clin. Mikrobiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstract | CrossRef Fuld tekst/Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruckey, P., Taboada, E. N., Et Al. (2017). Valideringen og konsekvenserne af at anvende helgenomsekventering som erstatning for traditionel serotypning for et nationalt Salmonellareferencelaboratorium. Front. Mikrobiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract | CrossRef Fuld tekst/Google Scholar

Yoshida, C. E., P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H., et al. (2016). Salmonella in silico typing resource (SISTR): et åbent internet tilgængeligt værktøj til hurtigt at skrive og subtypere udkast til Salmonella genomsamlinger. PLoS en 11: e0147101. doi: 10.1371 / tidsskrift.pone.0147101

PubMed abstrakt | CrossRef Fuld tekst/Google Scholar

Jang, S., Yin, Y., Jones, M. B., Jang, S., Kaiser, B. L. D., Dinsmore, B. A., Et Al. (2015). Bestemmelse af Salmonella-serotype ved anvendelse af genomsekventeringsdata med høj kapacitet. J. Clin. Mikrobiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Abstract / CrossRef Fuld tekst / Google Scholar

Liu, K.-H., Li, R.-K., Liu, G.-R. og Liu, S.-L. (2016). Genotypebestemmelse af Salmonella med slægtsspecifikke gener: korrelation med serotypning. Int. J. Inficere. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

PubMed Abstract | CrossRef Fuld tekst/Google Scholar

li, K.-H., Li, R.-K., Vang, Y.-J. og Liu, S.-L. (2013). Identifikation af gener for at differentiere nært beslægtede Salmonella-slægter. PLoS en 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar