Articles

Frontiers in Microbiology

Introduction

Salmonella veroorzaakt salmonellose bij de mens en infecties bij warmbloedige dieren (Kingsley and Bäumler, 2000). Het geslacht Salmonella is verdeeld in twee soorten, S. enterica en S. bongori. serotypering classificeert Salmonella verder in meer dan 2.600 serotypen (serovars) door de agglutinatiereactie van antisera op drie oppervlakteantigenen O, H1 en H2 (Le Minor en Bockemühl, 1984; Le Minor et al., 1990). Er zijn 46 o antigenen, die de serogroep identificeren. Samen met 119 H1 en H2 flagellin antigenen identificeren de combinaties o, H1 en H2 de serovars. Slechts een klein deel van de serovars is verantwoordelijk voor het merendeel van de Salmonella-infecties bij de mens (Popoff et al., 2004).

Serotypering door antigene agglutinatie wordt vervangen door moleculaire serotypering (Cai et al., 2005; Wattiau et al., 2011). Dit kan door onderzoek van de opeenvolging van o-cluster van het antigeen gen, H1 antigeen dat gen fliC codeert en H2 antigeen dat gen fljB codeert (Fitzgerald et al., 2007). O antigeen genclusters kunnen worden gedifferentieerd door aanwezigheid of afwezigheid van genen, terwijl H1 en H2 antigenen worden gedifferentieerd door sequentievariatie (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). Serotypen van Salmonella kunnen ook worden afgeleid door MLST (Wattiau et al., 2011; Achtman et al., 2012) als een serotype kan worden afgeleid door zijn sequentietypen. Een voorwaarde voor deze aanpak is echter dat voorkennis van de overeenkomstige relatie tussen serovar en sequentietype vereist is.

onlangs, met de ontwikkeling van een vergelijking op basis van hele genoomsequenties, hebben verscheidene studies genomische merkers geïdentificeerd als een alternatieve moleculaire methode voor serotypering. Zou et al. (2016) identificeerde zeven genen die voldoende resolutie leveren om 309 Salmonella stammen te onderscheiden die 26 serovars vertegenwoordigen en vond serovar-specifieke genen in 13 van 26 serovars. Laing et al. (2017) identificeerde genomische fragmenten specifiek voor Salmonella species en subspecies door pan-genoom analyse. Deze specifieke genen of de fragmenten van DNA zijn gebruikt als moleculaire doelstellingen om veelvoudige moleculaire analyses voor snelle identificatie en opsporing van Salmonella op species en serovarniveau te ontwikkelen. Nochtans, zijn deze specifieke genen of de fragmenten van DNA beperkt in hun discriminative capaciteit toe te schrijven aan hun capaciteit om slechts een kleiner aantal serovars te onderscheiden.

in deze studie wilden we gebruik maken van de uitgebreide publiek beschikbare collectie Salmonella genomen om serovar-specifieke gen markers te identificeren voor de meest voorkomende Salmonella serovars. We tonen het potentieel van deze serovar-specifieke gen markers als markers voor moleculaire serotypering in silico-typering van genomische data of voor de ontwikkeling van laboratorium diagnostische methoden.

materialen en methoden

ribosomale Mlst ST gebaseerde Isolaatselectie

De Salmonella database in de Enterobase (Alikhan et al., 2018) vanaf maart 2018 werd opgevraagd en 118997 isolaat werden onderzocht. Representatieve isolaten voor elke rst ‘ s werden geselecteerd en geëxtraheerd door een in-house python script. Alleen serovars met meer dan vier rst ‘ s werden in deze studie opgenomen. Voor de 20 grootste serovars werden representatieve isolaten slechts willekeurig geselecteerd uit rst ‘ s met twee of meer isolaten. Voor de resterende serovars werd een representatief isolaat voor elke rST willekeurig geselecteerd. Raw reads voor deze isolaten werden opgehaald uit Ena (European Nucleotide Archive1) en werden de novo geassembleerd met SPAdes v3.10.1 assembler met standaard settings2 (Bankevich et al., 2012). De serovar van de verzamelde genomen werd voorspeld door SISTR (Yoshida et al., 2016) nadat ze aan de volgende criteria die werden gedefinieerd door Robertson et al. (2018) met behulp van QUAST3 (Gurevich et al., 2013): assemblage grootte tussen 4 en 6 Mb met het aantal contigs minder dan 500, de grootste contig groter dan 100 kb, GC-gehalte tussen 50 en 54%, gen voorspeld door glimmer binnen QUAST meer dan 3000. De overeenstemming tussen de resulterende sistr serovar voorspellingen en de gerapporteerde serovar op de Enterobase metadata record werd onderzocht en een klein aantal genomen werd verwijderd uit de analyse toe te schrijven aan inconsistente serovar voorspellingen. De definitieve dataset bestond uit 2258 genomen van hoge kwaliteit met consistente serovarvoorspelling die 107 serovars vertegenwoordigden (aanvullende tabel S1).

Identificatie van Salmonella Serovar-specifieke kandidaat-Genmarkers

om de potentiële serovar-specifieke genmarkers voor 107 serovars te bepalen, werden de 2258 genomen geannoteerd met behulp van PROKKA (Seemann, 2014). Pan-genoom en core-genoom werden geanalyseerd door roary (Page et al., 2015) met behulp van een 80% sequence identity threshold. De genen specifiek voor elke serovar werden geà dentificeerd van de bijkomende genen van het pan-genoom met een in-house python script. In deze studie werd het aantal genomen van een bepaalde serovar met een specifiek gen voor die serovar true positive (TP) genoemd, het aantal genomen van dezelfde serovar zonder hetzelfde gen werd vals-negatief (Fn) genoemd. Het aantal genomen van andere serovars met hetzelfde serovar-specifieke gen werd false positve (FP) genoemd. Ontspannen cutoffs (20% FN, 10% FP) werden aanvankelijk gebruikt om ervoor te zorgen dat alle serovars kandidaat-specifieke genen hadden die verder konden worden onderzocht. Paralogous genen werden verwijderd uit de analyses.

evaluatie van potentiële Serovar – specifieke Genmarkers

De F1-score werd gebruikt voor de initiële selectie van de potentiële serovar-specifieke genmarkers. De F1-score werd geëvalueerd op basis van de Formule: 2 × (PPV × gevoeligheid)/(PPV + gevoeligheid), waarbij PPV werd gedefinieerd als TP/(TP+FP) en gevoeligheid werd gedefinieerd als TP/(TP+FN). De F1 varieert van 0 tot 1, waarbij 1 het serovar-specifieke gen betekent dat aanwezig was in alle genomen van een gegeven serovar en afwezig was in alle genomen van andere serovars. De serovar – specifieke genmarkers werden geselecteerd met behulp van het best presterende gen voor elke serovar op basis van F1-score. De specificiteit gedefinieerd als TN/(TN+FP) werd gebruikt om de werkelijke negatieve (TN) rate van serovar-specifieke genmarkers te evalueren. False positive rate (FPR) werd gedefinieerd door 1 – TNR.

fylogenetische Analyses

om de oorzaken van de waargenomen vals-negatieve en FPRs in de kandidaat-serovar-specifieke genmarkers te bepalen, werden de fylogenetische relaties van de betrokken serovars onderzocht. De ontwerpassemblages van 1258 isolaten werden gebruikt om fylogenetische bomen te genereren door gebruik te maken van pastinaal v1. 24 (Treangen et al., 2014) met standaardparameters om de fylogenie tussen en binnen serovars te bepalen. De boom werd gevisualiseerd door FigTree v1. 4. 3 (Schneider et al., 2000).

locatie en functies van Serovar-specifieke Genmarkers

representatieve complete genomen voor elke serovar die genkenmerken bevat, werden gedownload van NCBI5 en werden gebruikt om de locatie van elk kandidaat-serovar-specifiek gen te bepalen door middel van BLASTN met standaardinstellingen (versie 2.2.6, Aanvullende Tabel S2). In serovars zonder representatief volledig genoom werd een representatief genoom geselecteerd uit isolaten die in deze studie werden samengesteld. Sequenties van serovar-specifieke genmarkers zijn opgenomen in aanvullende gegevens S1. Het clusteren van genen over het genoom werd gebruikt om te onderzoeken of de serovar-specifieke gentellers potentieel deel van één enkel element waren dat door een serovar in één gebeurtenis wordt bereikt. De kandidaat serovar-specifieke genmarkers werden beschouwd als een cluster als ze minder dan 5 kb van elkaar werden gevestigd.

de functionele categorieën van genmarkers werden geïdentificeerd aan de hand van Rast annotatie6 (Aziz et al., 2008). De profage sequenties binnen serovars referentie genomen werden geà dentificeerd door PHASTER te gebruiken om aan te geven of de serovar-specifieke gen markers kunnen zijn verworven samen met profages (PHAge Search Tool Enhanced Release) (Arndt et al., 2016).

bij de voorspelling van silico-serotypen met Serovar – specifieke Genmarkers

werden nog eens 1089 isolaten uit de Enterobase geselecteerd met behulp van een eigen pythonscript, met uitsluiting van 2258 isolaten die voor de eerste screening uit dezelfde database werden gebruikt vanaf maart 2018 (aanvullende tabel S3). BLASTN werd gebruikt om tegen de 1089 genomen te zoeken die tot 106 Salmonella serovars voor de aanwezigheid van om het even welke serovar-specifieke gentellers behoren. De aangepaste scripts van python werden toen gebruikt om serovar van deze serovartoewijzingen te voorspellen die op het bekende patroon van de genaanwezigheid voor elke serovar worden gebaseerd. De TP werd geclassificeerd als het totale aantal correct toegewezen serovars en gevallen waarin de juiste serovar werd genoemd, evenals een of meer FP. Mislukte toewijzing werd gedefinieerd waar geen serovar of incorrecte serovars werden genoemd. Serovar voorspellingen werden vergeleken met SeqSero (Zhang et al., 2015) en sistr voorspellingen.

Calculation of the Specificity of Candidate Serovar-Specific Gen Markers for Common Serovars

the specificity of typing rate for common serovars (Hendriksen et al., 2011) was gelijk aan (1 – potentieel foutenpercentage). Het potentiële foutenpercentage van serovar – specifieke genmarkers gedefinieerd door de formule: (aantal FPs) * (de frequentie van die serovar in een bepaald gebied) / (totaal aantal genomen van die serovar).

resultaten

Identificatie van kandidaat-Serovar-specifieke Genmarkers

de bijkomende genen van 2258 genomen die 107 serovars vertegenwoordigen, werden gescreend om potentiële serovar-specifieke genmarkers te identificeren. Deze eerste screening identificeerde 354 potentiële serovar – specifieke genmarkers binnen 101 serovars. Zes serovars namelijk, Bareilly, Bovismorbificans, Thompson, Reading, Typhi en Saintpaul hadden geen kandidaat-serovar-specifieke genmarkers die aanwezig waren in alle geslachten van een bepaalde serovar. De specificiteit (TNR) en gevoeligheid (TPR) van de 354 kandidaat-serovar-specifieke genmarkers werden ook onderzocht en samengevat in Figuur 1. Veertig serovars bevatten 194 serovar-specifieke genmarkers met 100% specificiteit en gevoeligheid (geen FN of FP), terwijl 31 serovars 80 kandidaat-serovar-specifieke genmarkers met 100% gevoeligheid maar met minder dan 100% specificiteit (gevarieerd FP) bevatten. Negen serovars bevatten 27 kandidaat-serovar-specifieke genmarkers met 100% specificiteit maar met minder dan 100% gevoeligheid (gevarieerd FN). De overige 21 serovars bevatten 53 kandidaat-serovar-specifieke genmarkers met zowel specificiteit als gevoeligheid van minder dan 100% (gevarieerd FN en FP).

figuur 1
www.frontiersin.org

figuur 1. De verdeling van de gevoeligheid en specificiteit van 354 potentiële serovar-specifieke genmarkers. TPR, true positive rate; FPR, false positive rate. Waarbij een gradiënt van lichtblauw (laag percentage) naar donkerblauw (hoog percentage) wordt weergegeven.

we construeerden een fylogenetische boom met 1258 representatieve isolaten van 107 serovars met behulp van Pastinaal (aanvullend figuur S1). De 1258 isolaten werden geselecteerd gebaseerd op phylogenetic verhoudingen van de aanvankelijke 2258 isolaten waaruit wij isolaten selecteerden om elke onafhankelijke lijn te vertegenwoordigen. We vonden dat leden van elk van de 82 serovars een monofyletische lijn vormden terwijl 24 serovars polyfyletisch waren met elk 2 tot 4 lijnen. Van verschillende van deze serovars is bekend dat ze polyphyletisch zijn en het is onwaarschijnlijk dat ze serovar-specifieke genmarkers bevatten (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serovar Enteritidis is paraphyletic met drie andere serovars (Dublin, Berta, en Gallinarium) voortkomend uit binnen de grotere Enteritidis clade die zelf bestaat uit drie geslachten bekend als clade a, B en C (Graham et al., 2018). De vijf Enteritidis-specifieke kandidaat gen markers waren negatief voor de Enteritidis isolaten die afzonderlijk geclusterd op de boom.interessant is dat Voor vier polyfyletische serovars, Bredeney, Kottbus, Livingstone en Virchow, elk één kandidaat-serovar-specifiek gen had dat aanwezig was in alle isolaten van die serovar. Voor de resterende 20 polyphyletic serovars en paraphyletic serovar Enteritidis, zochten we naar lineage-specifieke gen markers aangezien elke serovar meer dan één lineage bevatte. Als alle geslachten ten minste één geslachtsspecifiek gen bevatten, beschouwen we die serovar als serovar-specifieke genmarkers. Een totaal van 111 potentiële geslacht-specifieke gen markers geïdentificeerd voor 19 polyphyletic serovars en paraphyletic serovar Enteritidis, waaronder, 27 geslacht-specifieke gen markers geïdentificeerd voor 5 serovars met 100% specificiteit en gevoeligheid (geen FN en FP), 76 kandidaat-geslacht-specifieke gen-markers voor 14 serovars met 100% gevoeligheid en minder dan 100% en specificiteit (gevarieerd FP), en Enteritidis met 6 kandidaat-geslacht-specifieke gen markers met gevarieerde FN en FP (Tabel 1).

tabel 1
www.frontiersin.org

Tabel 1. Lineage-specific candidate gen markers for polyphyletic serovars and paraphyletic serovar.

voor de 11 van de 82 monofyletische serovars zonder serovar-specifieke kandidaat-genmarkers vanwege FN, vonden we dat de FN vaak te wijten was aan isolaten die op één tak zijn gegroepeerd en eerder van de andere isolaten afwijken. Voor zulke groepen zochten we naar geslachtsspecifieke genmarkers. Daarom kunnen twee of meer genmarkers worden gebruikt om een serovar te identificeren en dergelijke serovars werden ook beschouwd als serovar-specifieke genmarkers te bevatten, vergelijkbaar met polyfyletische serovars. Drie serovars, Paratyphi A, Heidelberg, en Muenchen kunnen worden geïdentificeerd door de gecombineerde geslacht-specifieke gen markers.

een totaal van 414 kandidaat-serovar – specifieke genmarkers waaronder 295 serovar-specifieke genmarkers en 119 lineage-specifieke genmarkers zijn samengevat in aanvullende tabel S2. In totaal bevatten 106 van 107 serovars één of meer genmarkers, 33 serovars één specifiek gen en 73 twee of meer genmarkers. Er werden geen kandidaat-serovar – specifieke genmarkers gevonden voor monofyletische Typhi en geen potentiële lineage-specifieke genmarkers gevonden voor lineage III van Stanleyville die slechts één isolaat bevatte.

functionele categorieën van Serovar-specifieke Genmarkers

functionele karakterisatie van alle 414 genmarkers geïdentificeerd voor de 106 serovars met behulp van RAST bleek dat 197 bekende functies hadden en 217 gecodeerde hypothetische eiwitten met onbekende functies. Slechts 46 genen met annotaties kunnen in functionele categorieën worden gegroepeerd terwijl 151 genen met functies niet in functionele categorieën van RAST waren (Tabel 2). Met behulp van PHASTER. 45 kandidaat serovar – specifieke gen markers werden gelokaliseerd binnen voorspelde profages.

tabel 2
www.frontiersin.org

Tabel 2. Serovar – specifieke genen functionele categorieën.

een minimale Set Serovar – specifieke Genmarkers voor in silico moleculaire Serotypering

voor veel serovars, werden meerdere kandidaat-serovar-specifieke genmarkers of lineage-specifieke genmarkers geïdentificeerd. In deze gevallen, werd één enkel gen geselecteerd dat de laagste Fn en FP tarieven heeft. Een minimum van 131 genmarkers maakt identificatie van de serovars met foutenpercentages van 0 tot 8,33% mogelijk. De verdeling van de genmarkers over alle 106 serovars toont een hoge mate van specificiteit zoals getoond in Figuur 2 waarin de diagonaal de één-op-één relatie van de serovar of afstamming met serovar-specifieke genmarkers toont, terwijl de off-diagonale ruimte weinig verspreide aanwezigheid van deze genen in andere serovars liet zien met gevarieerde percentages die wijzen op een lage FPR. De details van deze genmarkers werden vermeld in aanvullende tabel S4. In het algemeen kunnen 45 serovars worden onderscheiden door hun respectievelijke serovar-specifieke gen en kunnen 61 serovars worden onderscheiden door een combinatie van genmarkers.

figuur 2
www.frontiersin.org

Figuur 2. De verspreiding van een minimale set van 131 serovar-specifieke genen in 106 serovars. De Y-as toont serovar of lijn-specifieke genmarkers en de X-as toont serovars of lijnen. De bijzonderheden zijn vermeld in aanvullende tabel S4. Gray wees op nul genomen die een gen (TN) bevatten. Gen / Genoomparen langs de diagonaal vertegenwoordigen genomen die de serovar-specifieke genmarkers bevatten die overeenkomen met hun serovar (TP). Rood vertegenwoordigt genen die in 100% van genomen voor een bepaalde serovar of afkomst aanwezig zijn. Wanneer een gen in minder dan 100% van een serovar aanwezig is, wordt een gradiënt van lichtblauw (laag percentage) naar donkerblauw (hoog percentage) weergegeven. Blauwe paren langs de diagonaal vertegenwoordigen de aanwezigheid van FN. Paren die buiten de diagonaal blauw of rood zijn, vertegenwoordigen paren die genen bevatten die niet overeenkomen met de voorspelde serovar van het genoom (FP).

we hebben nog eens 1089 genomen getest die behoren tot 106 niet-typhoidale Salmonella serovars om het vermogen van de 131 specifieke genmarkers te evalueren om serovars correct toe te wijzen aan isolaten. Met behulp van de serovar-specifieke genmarkers werden 1038 van de 1089 isolaten (95,3%) met succes toegewezen en 51 faalden (4,7%). Voor SISTR en SeqSero was het aantal Concordante serovar-toewijzingen respectievelijk 1037 (95%) en 905 (82,8%) (aanvullende tabel S3).

Serovar-specifieke Genmarkers voor Serotypering van gemeenschappelijke Serovars

de top 20 serovars die menselijke infectie veroorzaken die in elk continent worden aangetroffen (Hendriksen et al., 2011) werden samengevoegd tot een gecombineerde lijst van 46 serovars (aanvullende tabel S5). Aangezien deze serovars de overgrote meerderheid van de isolaten bevatten die wereldwijd menselijke infecties veroorzaken, beschouwen we ze afzonderlijk om het nut van kandidaat-serovar-specifieke genmarkers voor serotypering van de meest voorkomende serovars in een lokale omgeving te beoordelen. Wanneer alleen deze serovars werden overwogen, konden 18 van de 46 uniek worden geïdentificeerd door een van de serovar-specifieke genmarkers. Om de nauwkeurigheid van de typering in de overige 28 gemeenschappelijke serovars te verhogen waar serovar-specifieke genmarkers FPRs hebben gevarieerd, hebben we onderzocht met behulp van subverzamelingen van de 131 genmarkers (variërend van 2 tot 9 genen per serovar) om potentiële FP te elimineren. De combinatie van Choleraesuis-specifiek gen en Cerro – I-lineage-specifiek gen kan bijvoorbeeld vals-positief isolaat van Cerro uit Choleraesuis elimineren, als beide genen positief zijn, kan het isolaat Cerro worden toegewezen, terwijl als Cerro-I-lineage-specifiek gen negatief is, het isolaat Choleraesuis is.

om mogelijke fouten bij het typen te schatten, hebben we rekening gehouden met de frequentie van de 46 gemeenschappelijke serovars die grote verschillen tussen regio ‘ s vertoonden (Hendriksen et al., 2011). Daarom kunnen verschillende combinaties van genen worden gebruikt om specifiek vals-positieve resultaten van serovars in dat gebied te beperken. In een bepaald gebied werd de specificiteit van gemeenschappelijke kandidaat-serovar-specifieke genmarkers berekend aan de hand van de FP-snelheid en de frequentie van de vals-positieve serovar in dat gebied. De specificiteit van kandidaat-serovar-specifieke genmarkers werd ook berekend met behulp van het FP-percentage (aanvullende tabel S4). Bijvoorbeeld, een panel van 15 genen kan worden gebruikt voor het typen van de 10 meest voorkomende serovars in Australië (NEPSS 2010) (Tabel 3). Wanneer rekening werd gehouden met de Australische regionale frequenties, kunnen de genen in Tabel 3 worden gebruikt als markers voor laboratoriumgebaseerde typering en zal het foutenpercentage minder dan 2,4% zijn.

tabel 3
www.frontiersin.org

Tabel 3. Een panel van serovar-specifieke genen voor het typen van de tien meest voorkomende serovars in Australië.

discussie

Serotypering van Salmonella was essentieel voor diagnose en surveillance. Serovar voorspelling door traditionele serotypering kan worden beperkt door het ontbreken van oppervlakte antigeen expressie of autoagglutinatie eigenschappen (Wattiau et al., 2008). Onlangs, met de ontwikkeling van geheel-genoom het rangschikken technologie, kunnen de relevante genomic gebieden van de RFB-gencluster voor o antigeen, gen fliC en Gen fljB voor H antigenen, en genen die door MLST worden gericht worden geëxtraheerd en voor serovar identificatie worden gebruikt. Verscheidene studies hebben serovar-specifieke genen of DNA-fragmenten voor serotyping door geheel-genoom rangschikkend gebaseerde genomic vergelijking geà dentificeerd (zou et al., 2013, 2016; Laing et al., 2017). Deze serovar-specifieke genen of DNA-fragmenten onderscheiden echter slechts een klein aantal serovars. In deze studie identificeerden we 414 kandidaat-serovar-specifieke of lineage-specifieke genmarkers voor 106 serovars, waaronder 24 polyphyletic serovars en de paraphyletic serovar Enteritidis. Een subset van deze genmarkers werd gevalideerd door onafhankelijke genomen en was in staat om serovars correct toe te wijzen in 95,3% van de gevallen.

de bovenstaande analyse werd gecompliceerd door de aanwezigheid van polyfyletische serovars, die onafhankelijk van afzonderlijke voorouders ontstaan om aparte geslachten te vormen. Daarom was een combinatie van lineage-specifieke genmarkers nodig voor de duidelijke identificatie van de meerderheid van de polyfyletische serovars. Interessant is dat vier polyphyletic serovars, Bredeney, Kottbus, Livingstone en Virchow, elk één kandidaat serovar-specifieke genmarker hadden die aanwezig was in alle isolaten van die serovar. Er werd voorspeld dat het Bredeney serovar-specifieke gen codeert voor een translocase betrokken bij o-antigeenconversie en dat het gelijktijdig kon worden verkregen. De serovar – specifieke genen van de andere drie polyfyletische serovars coderen hypothetische eiwitten met onbekende functie en geen duidelijke verklaring voor hun aanwezigheid in verschillende geslachten van dezelfde serovar.

In tegenstelling tot polyfyletische serovars hebben de drie geslachten (clade A, B en C) van de paraphyletische serovar Enteritidis een recente gemeenschappelijke voorouder. Clade A en C zijn voorouders van Clade B. eerdere studies beschreven dat Enteritidis was geclusterd met serovars Dublin, Berta en Gallinarium die werd genoemd “sectie Enteritidis” (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). Een andere studie toonde aan dat serovar Nitra binnen Enteritidis lijnen werd ingebed door gehele genoomfylogenie (Deng et al., 2014). Er was ook kruisreactiviteit tussen Enteritidis en Nitra volgens Ogunremi ‘ s studie (Ogunremi et al., 2017). In onze studie selecteerden we de isolaten op basis van RST ‘ s, Nitra was niet aanwezig in de Enterobase rMLST database toen deze studie begon en werd dus niet opgenomen in deze studie. Gallinarium is te onderscheiden van Enteritidis met behulp van de aanwezigheid van een 4 bp deletie in het speC gen (Kang et al., 2011). We merkten op dat de gemeenschappelijke voorouders van serovars Dublin, Berta en Gallinarium voortkwamen uit een voorouder tussen Clades B en A/C. Hoewel Dublin afzonderlijk kan worden geïdentificeerd, kunnen we Berta of Gallinarium niet onderscheiden van Enteritidis clade A/C. Deze resultaten wijzen op een beperking van de benadering aangezien serovars voldoende divergent moeten zijn dat ze verschillen door ten minste één uniek gen. Op dezelfde manier waren er 8 andere serovars die niet te onderscheiden waren waarschijnlijk te wijten aan zeer recente gedeelde voorouders met weinig genacquisitie.

Serovar-specifieke kandidaat-genmarkers of lineage-specifieke kandidaat-genmarkers in 69 van de 106 serovars waren aaneengesloten in het genoom met vergelijkbare functies gegroepeerd (gegevens niet getoond). Dit stelt voor dat deze gentellers in serovar genomen samen door horizontale genoverdracht kunnen zijn opgenomen. Inderdaad de zeven Typhimurium specifieke kandidaat gen markers geïdentificeerd in deze studie (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497, en STM4498) werden gevestigd in Typhimurium tRNAleuX integratie van conjugatieve element-gerelateerde regio met inbegrip van genen van STM4488 aan STM4498, die een bekende horizontale gen transfer hotspot (Bishop et al., 2005). Ook vijf Enteritidis specifieke kandidaat gen markers geïdentificeerd (SEN1379, SEN1380, SEN1382, SEN1383, en SEN1383) werden gevestigd in de SDR I Regio (Agron et al., 2001) en de profage-achtige GEI / φSE14 regio (Santiviago et al., 2010). Beide gebieden zijn verbonden met profages, die voorstellen dat deze gebieden in het genoom van een gemeenschappelijke voorouder van globale Enteritidis clade worden geïntegreerd en uit horizontale genoverdracht werden afgeleid.

andere methoden voor de voorspelling van In silico serovar zijn geïmplementeerd in SeqSero (Zhang et al., 2015) en SISTR (Yoshida et al., 2016). Beide methodes onderzoeken genomic gebieden verantwoordelijk voor oppervlakteantigenen terwijl SISTR ook een cgmlst-regeling implementeert om algemene genetische verwantschap te onderzoeken. Bovendien, traditionele 7 gen MLST en eBURST groepen afgeleid van het kan ook worden gebruikt voor in silico serovar bepaling (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Zowel Sistr als SeqSero bieden een hogere discriminerende macht dan de traditionele serovar identificatie (Yachison et al., 2017). Echter, ze hebben een aantal nadelen zoals niet te onderscheiden serovars met dezelfde antigene formule of antigene determinanten niet wordt uitgedrukt (Robertson et al., 2018). In de huidige studie, hebben we onderzocht in silico serovar voorspelling door screening genomen tegen een set van 131 serovar – specifieke gen markers. De benadering leverde serovar voorspelling door het opleveren van” aanwezigheid of afwezigheid ” van individuele serovar-specifieke gen marker of combinatie van Gen markers in een query isolaat. We tonen aan dat serovar-specifieke genmarkers een vergelijkbare nauwkeurigheid hebben als andere in silico serotyping methoden met 91,5% isolaten uit initiële identificatie dataset en 84,8% isolaten uit een validatiedataset toegewezen aan de juiste serovar (zonder FN en FP). 10.5% van de isolaten uit de validatiedataset kan worden toegewezen aan een kleine subset van serovars die de juiste serovar bevatten (met gevarieerde FP). De specificiteit voor in silico serovar voorspellingsbenadering door serovar-specifieke genmarkers was 95,3%, iets hoger dan SISTR (95%) en SeqSero (82,8%) in dezelfde dataset die we hebben getest. Dit resultaat was vergelijkbaar met de specifieke kenmerken van Sistr en SeqSero gerapporteerd door Yachison et al. (2017) die respectievelijk 94,8 en 88,2% waren.

onze serovar-specifieke gen marker gebaseerde methode vereist geen nauwkeurig onderzoek van o-antigeenclusters of sequentievariatie van de H-antigeengenen die problematisch kunnen zijn. Onze methode verlicht ook de behoefte aan de volledige gen of genoomopeenvolging worden geassembleerd die in MLST of cgmlst gebaseerde methodes noodzakelijk is. Daarom kan deze benadering nuttig zijn voor gevallen waar zeer weinig opeenvolging beschikbaar is zoals in metagenomics of cultuur vrij typen evenals het verstrekken van een derde alternatief om andere analyses te bevestigen.

de identificatie van een reeks genmarkers die alle gangbare serovars in een gebied uniek kunnen identificeren, kan ook nuttig zijn bij de ontwikkeling moleculaire assays. Deze analyses zouden nuttig zijn in serotyping isolaten waar culturen niet meer worden verkregen en traditionele serotyping daarom onmogelijk is. Bijvoorbeeld, zou een reeks PCR analyses kunnen worden ontworpen die de gevoelige opsporing van specifieke gentellers zouden toestaan, en daarom voorspelling van serovar, van een klinische steekproef toestaan. Bovendien, door het elimineren van de noodzaak om serovars te detecteren die zeer zelden in een gebied worden waargenomen, kan het aantal van deze genmarkers dat nodig is om alle belangrijke serovars in een gebied te detecteren aanzienlijk worden verminderd waardoor een meer kosteneffectieve analyse mogelijk is.

conclusie

In deze studie identificeerden we kandidaat-serovar-specifieke genmarkers en kandidaat-lineage-specifieke genmarkers voor 106 serovars door de accessoire genomen van een representatieve selectie van 2258 stammen te karakteriseren als potentiële markers voor silico-serotypering. We houden rekening met polyphyletic en paraphyletic serovars om een nieuwe methode te bieden, met behulp van de aanwezigheid of afwezigheid van deze gen markers, om de serovar van een isolaat uit genomische gegevens te voorspellen. De hier geà dentificeerde gentellers kunnen ook worden gebruikt om serotyping analyses in de afwezigheid van een geïsoleerde stam te ontwikkelen die nuttig zal zijn aangezien de diagnose zich aan cultuur onafhankelijke en metagenomic methodes beweegt.

Auteursbijdragen

MP en RL ontwierpen de studie en zorgden voor een kritische herziening van het manuscript. XZ en MP voerden de bioinformatische analyse uit. XZ, MP en RL hebben de resultaten geanalyseerd. XZ heeft het manuscript geschreven.

financiering

Dit werk werd ondersteund door een projectsubsidie van de National Health and Medical Research Council.

belangenconflict verklaring

De auteurs verklaren dat het onderzoek werd uitgevoerd zonder enige commerciële of financiële relatie die als een potentieel belangenconflict kon worden opgevat.

aanvullend materiaal

Het aanvullende materiaal voor dit artikel is online te vinden op: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

figuur S1 | De op SNP gebaseerde fylogenetische boom die door Pastnp is geconstrueerd en die de evolutionaire relaties binnen en tussen serovars toont met behulp van 1344 representatieve isolaten, waaronder 1258 isolaten van 107 serovars die in de studie werden onderzocht en 86 isolaten van serovars met minder dan 5 rst ‘ s die anders van de studie werden uitgesloten.

tabel S1 / De definitieve gegevensverzameling van 2258 genomen van hoge kwaliteit en consistente serovarvoorspelling die 107 serovars vertegenwoordigen.

tabel S2 / in totaal 414 kandidaat-serovar – specifieke genen, waaronder 295 serovar – specifieke genen en 119 geslachtsspecifieke genen.

tabel S3 / An additional 1089 validation isolates with serovar prediction results by sistr, SeqSero and serovar-specific gen markers.

tabel S4 / minimaal 131 genen voor identificatie van 106 serovars.

tabel S5 / een set van 65 genen voor identificatie van 46 gemeenschappelijke serovars.

DATA S1 / sequenties van 131 serovar – specifieke genmarkers.

Afkorting

FN, false negatieven; FP, false positieven; FPR, false positive rate; MLST, multi-locus sequence typing; NEPSS, National Enteric Pathogenes Surveillance Scheme; PPV, positive predictive value; rSTs, ribosomal MLST STs; SISTR, Salmonella in silico typing resource; TN, true negative; TNR, true negative rate; TP, true positieven; TPR, true positive rate.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). Een genomisch overzicht van de populatiestructuur van Salmonella. PLoS Genet. 14: e1007261. doi: 10.1371 / journal.pgen.1007261

PubMed Abstract | CrossRef Full Text/Google Scholar

Allard, M. W., Luo, Y., Strain, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). Over de evolutionaire geschiedenis, populatiegenetica en diversiteit onder isolaten van Salmonella Enteritidis PFGE patroon JEGX01. 0004. PLoS One 8: e55254. doi: 10.1371 / journal.pone.0055254

PubMed Abstract / CrossRef Full Text / Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: een betere, snellere versie van de Phast phage search tool. Nucleïnezuren Res. 44, W16-W21. doi: 10.1093 / nar / gkw387

PubMed Abstract / CrossRef Full Text / Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Powell, D. G., Painset, A., et al. (2016). Identificatie van Salmonella voor toezicht op de volksgezondheid met behulp van volledige genoomsequencing. PeerJ 4: e1752. doi: 10.7717/peerj.1752

PubMed Abstract | CrossRef Full Text/Google Scholar

Aziz, R. K., Bartels, D., Best, A. A., DeJongh, M., Disz, T., Edwards, R. A., et al. (2008). De Rast-Server: snelle annotaties met behulp van subsysteemtechnologie. BMC Genomics 9: 75. doi: 10.1186 / 1471-2164-9-75

PubMed Abstract / CrossRef Full Text / Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., et al. (2012). Schoppen: een nieuw algoritme van de genoomassemblage en zijn toepassingen aan het eencellige rangschikken. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract / CrossRef Full Text / Google Scholar

Bishop, A. L., Baker, S., Jenks, S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Analyse van het hypervariabele gebied van het Salmonella enterica genoom geassocieerd met tRNAleuX. J. Bacteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Het rangschikken van het genoom onthult diversificatie van de inhoud van de virulentiefactor en mogelijke gastheeraanpassing in verschillende subpopulaties van Salmonella enterica. BMC Genomics 12: 425. doi: 10.1186 / 1471-2164-12-425

PubMed Abstract / CrossRef Full Text / Google Scholar

Deng, X., Desai, P. T., den Bakker, H. C., Mikoleit, M., Tolar, B., Trees, E., et al. (2014). Genomic epidemiology of Salmonella enterica serotype Enteritidis based on population structure of prevalent lineages. Emerg. Infecteren. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, op parels gebaseerde suspension array voor moleculaire bepaling van gemeenschappelijke Salmonella serogroepen. J. Clin. Microbiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed Abstract / CrossRef Full Text / Google Scholar

Graham, R. M., Hiley, L., Rathnayake, I. U., And Jennison, A. V. (2018). Comparative genomics identificeert verschillende geslachten van S. Enteritidis uit Queensland, Australië. PLoS One 13: e0191042. doi: 10.1371 / journal.pone.0191042

PubMed Abstract | CrossRef Full Text/Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Ontwikkeling van een DNA microarray voor moleculaire identificatie van alle 46 Salmonella o serogroepen. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

PubMed Abstract / CrossRef Full Text / Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N., and Tesler, G. (2013). QUAST: kwaliteitsbeoordelingsinstrument voor genoomassemblages. Bioinformatica 29, 1072-1075. doi: 10.1093/bioinformatics / btt086

PubMed Abstract / CrossRef Full Text / Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, A. B., et al. (2011). Global monitoring of Salmonella serovar distribution from the world health organization global foodborne infections network country data bank: results of quality assured laboratories from 2001 to 2007. Voedselpathog. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstract | CrossRef Full Text/Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K., et al. (2011). Differentiële identificatie van Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum en Pullorum op basis van polymorfe gebieden van glgC en speC genen. Dierenarts. Microbiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

PubMed Abstract / CrossRef Full Text / Google Scholar

Kingsley, R. A., and Bäumler, A. J. (2000). Gastheeradaptatie en de opkomst van infectieziekten: het Salmonella paradigma. Mol. Microbiol. 36, 1006–1014. doi: 10.1046 / j. 1365-2958. 2000. 01907.x

PubMed Abstract / CrossRef Full Text / Google Scholar

Laing, C. R., Whiteside, M. D., and Gannon, V. P. (2017). Pan-genoom analyses van de soort Salmonella enterica, en identificatie van genomische markers voorspellend voor soorten, ondersoorten, en serovar. Voorkant. Microbiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract / CrossRef Full Text / Google Scholar

Le Minor, L., and Bockemühl, J. (1984). Supplément no XXVII au schéma de Kauffmann-White. Anne. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609 (84)80042-3

CrossRef Full Text | Google Scholar

Le Minor, L., Popoff, M., and Bockemühl, J. (1990). Supplement 1989 (nr. 33) op de Kauffmann-White-regeling. Res.Microbiol. 141, 1173-1177. doi: 10.1016/0923-2508 (90)90090-D

CrossRef Full Text | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F., and Fields, P. I. (2004). Het rangschikken en vergelijkende analyse van flagellingenen fliC, fljB, en flpA van Salmonella. J. Clin. Microbiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Abstract / CrossRef Full Text / Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., Márquez, I. G., Omidi, K., Pope, L., et al. (2017). Evaluatie van een multiplex PCR-test voor de identificatie van Salmonella serovars enteritidis en typhimurium met behulp van retail-en slachtdiermonsters. J. Voedselprot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

PubMed Abstract / CrossRef Full Text / Google Scholar

Page, A. J., Cummins, C. A., Hunt, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: snelle grootschalige prokaryote pan genoomanalyse. Bioinformatics 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Uitgebreide beoordeling van de kwaliteit van de Sequentiegegevens van het gehele genoom van Salmonella die beschikbaar zijn in openbare sequentiedatabanken met behulp van de Salmonella in silico typing resource (SISTR). Microb. Genomics doi: 10.1099/mgen.0.000151 .

PubMed Abstract / CrossRef Full Text / Google Scholar

Santiviago, C. A., Blondel, C. J., Quezada, C. P., Silva, C. A., Tobar, P. M., Porwollik, S., et al. (2010). Spontane excisie van de Salmonella enterica serovar Enteritidis-specifieke defecte profage-achtige element φSE14. J. Bacteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformatics/btu153

PubMed Abstract | CrossRef Full Text/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. W., Strain, E., Barrangou, R., Wehnes, C., et al. (2013). Fylogenetische diversiteit van de enterische pathogeen Salmonella enterica subsp. enterica afgeleid van genoom-brede referentie – vrije SNP karakters. Genome Biol. Evol. 5, 2109–2123. doi: 10.1093 / gbe / evt159

PubMed Abstract / CrossRef Full Text / Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S., and Phillippy, A. M. (2014). De Harvest suite voor snelle core-genome uitlijning en visualisatie van duizenden intraspecifieke microbiële genomen. Genome Biol. 15:524. doi: 10.1186 / s13059-014-0524-x

PubMed Abstract / CrossRef Full Text / Google Scholar

Vernikos, G. S., Thomson, N. R., and Parkhill, J. (2007). Genetische flux in de tijd in de Salmonella lijn. Genome Biol. 8: R100. doi: 10.1186 / gb-2007-8-6-r100

PubMed Abstract / CrossRef Full Text / Google Scholar

Wattiau, P., Boland, C., and Bertrand, S. (2011). Methodologies for Salmonella enterica ssp enterica subtyping: gold standards and alternatives. Appl. Environ. Microbiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

PubMed Abstract / CrossRef Full Text / Google Scholar

Wattiau, P., van Hessche, M., Schlicker, C., Vander Veken, H., and Imberechts, H. J. (2008). Comparison of classical serotyping and PremiTest assay for routine identification of common Salmonella enterica serovars. J. Clin. Microbiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstract / CrossRef Full Text / Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., et al. (2017). De validatie en implicaties van het gebruik van whole genome sequencing als vervanging voor traditionele serotypering voor een nationaal Salmonella referentielaboratorium. Voorkant. Microbiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract / CrossRef Full Text / Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H., et al. (2016). De Salmonella in silico typing resource (Sistr): een open web-toegankelijke tool voor het snel typen en subtypen van concept Salmonella genome assemblies. PLoS One 11: e0147101. doi: 10.1371 / journal.pone.0147101

PubMed Abstract / CrossRef Full Text / Google Scholar

Zhang, S., Yin, Y., Jones, M. B., Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Salmonella serotype bepaling met behulp van high-throughput genoom sequencing gegevens. J. Clin. Microbiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Abstract / CrossRef Full Text / Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R., and Liu, S.-L. (2016). Genotypering van Salmonella met geslachtsspecifieke genen: correlatie met serotypering. Int. J. Infecteren. Dis. 49, 134–140. doi: 10.1016 / j.ijid.2016.05.029

PubMed Abstract / CrossRef Full Text / Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J., and Liu, S.-L. (2013). Identificatie van genen om nauw verwante Salmonellalijnen te onderscheiden. PLoS One 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar