Articles

Frontiers in Microbiology

introduktion

Salmonella orsakar mänsklig salmonellos och infektioner hos varmblodiga djur (Kingsley och B Brasiliumler, 2000). Släktet Salmonella är uppdelat i två arter, S. enterica och S. bongori. serotypning klassificerar vidare Salmonella i över 2600 serotyper (serovarer) genom agglutineringsreaktionen av antisera till tre ytantigener O, H1 och H2 (Le Minor och Bockem Exceptionhl, 1984; Le Minor et al., 1990). Det finns 46 o-antigener som identifierar serogruppen. Tillsammans med 119 H1-och H2-flagellinantigener identifierar o -, H1-och H2-kombinationerna serovarerna. Endast en liten del av serovarerna är ansvariga för majoriteten av de mänskliga Salmonellainfektionerna (Popoff et al., 2004).

Serotypning genom antigen agglutination ersätts med molekylär serotypning (Cai et al., 2005; Wattiau et al., 2011). Detta kan uppnås genom undersökning av sekvensen av O-antigengenkluster, H1-antigenkodande gen fliC och H2-antigenkodande gen fljB (Fitzgerald et al., 2007). O antigengenkluster kan differentieras genom närvaro eller frånvaro av gener medan H1-och H2-antigener differentieras genom sekvensvariation (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). Salmonella serotyper kan också härledas genom MLST (Wattiau et al., 2011; Achtman et al., 2012) som en serotyp kan härledas av dess sekvenstyper. En förutsättning för detta tillvägagångssätt är dock att förkunskaper om motsvarande förhållande mellan serovar och sekvenstyp krävs.

nyligen, med utvecklingen av helgenomsekvensbaserad jämförelse, har flera studier identifierat genommarkörer som en alternativ molekylär metod för serotypning. Zou et al. (2016) identifierade sju gener som ger tillräcklig upplösning för att differentiera 309 Salmonellastammar som representerar 26 serovarer och fann serovarspecifika gener i 13 av 26 serovarer. Laing et al. (2017) identifierade genomiska fragment specifika för Salmonella-arter och underarter genom pan-genomanalys. Dessa specifika gener eller DNA-fragment har använts som molekylära mål för att utveckla flera molekylära analyser för snabb identifiering och detektion av Salmonella på art-och serovarnivå. Dessa specifika gener eller DNA-fragment är emellertid begränsade i sin diskriminerande förmåga på grund av deras förmåga att endast skilja ett mindre antal serovarer.

i denna studie syftade vi till att använda den omfattande offentligt tillgängliga samlingen av Salmonella-genom för att identifiera serovarspecifika genmarkörer för de vanligaste Salmonella-serovarerna. Vi visar potentialen hos dessa serovarspecifika genmarkörer som markörer för molekylär serotypning antingen i silico-typning av genomdata eller för utveckling av laboratoriediagnostiska metoder.

material och metoder

ribosomalt Mlst St-baserat Isolatval

Salmonelladatabasen i Enterobasen (Alikhan et al., 2018) från och med mars 2018 frågades och 118997 isolat undersöktes. Representativa isolat för varje rSTs valdes och extraherades av ett internt python-skript. Endast serovarer med mer än fyra rst inkluderades i denna studie. För de 20 största serovarerna valdes representativa isolat endast slumpmässigt från rSTs med två eller flera isolat. För de återstående serovarerna valdes ett representativt isolat för varje första slumpmässigt. Raw-läsningar för dessa isolat hämtades från ENA (European Nucleotide Archive1) och monterades de novo med SPAdes v3.10.1 assembler med standardinställningar2 (Bankevich et al., 2012). Serovar av de sammansatta genomerna förutspåddes av SISTR (Yoshida et al., 2016) efter att de uppfyllde följande kriterier som definierades av Robertson et al. (2018) med användning av QUAST3 (Gurevich et al., 2013): monteringsstorlek mellan 4 och 6 Mb med antalet contigs mindre än 500, den största contig större än 100 kb, GC-innehåll mellan 50 och 54%, gen förutspådd av glimmer inom kvast mer än 3000. Överensstämmelsen mellan de resulterande SISTR serovar-förutsägelserna och den rapporterade serovar på Enterobasmetadataposten undersöktes och ett litet antal genom avlägsnades från analys på grund av inkonsekventa serovar-förutsägelser. Den slutliga datamängden bestod av 2258 genom av hög kvalitet med konsekvent serovarprediktion som representerar 107 serovarer (kompletterande tabell S1).

identifiering av Salmonella Serovar-specifika Kandidatgenmarkörer

för att bestämma de potentiella serovarspecifika genmarkörerna för 107 serovarer annoterades de 2258 genomerna med PROKKA (Seemann, 2014). Pan-genom och kärngenom analyserades av roary (Page et al., 2015) med en 80% sekvensidentitetströskel. Generna specifika för varje serovar identifierades från pan-genomets tillbehörsgener med ett internt python-skript. I denna studie benämndes antalet genom från en given serovar innehållande en specifik gen för den serovar sant positivt (TP), antalet genom från samma serovar som saknade samma gen benämndes falskt negativt (FN). Antalet genom från andra serovarer innehållande samma serovarspecifika gen benämndes falsk positve (FP). Avslappnade cutoffs (20% FN, 10% FP) användes initialt för att säkerställa att alla serovarer hade kandidatspecifika gener som kunde undersökas ytterligare. Paralogösa gener avlägsnades från analyserna.

utvärdering av potentiella Serovarspecifika Genmarkörer

F1-poängen användes för initialt urval av de potentiella serovarspecifika genmarkörerna. F1-poäng utvärderades baserat på formeln: 2 GHz (PPV + känslighet)/(PPV+känslighet), där PPV definierades som TP/(TP+FP) och känslighet definierades som TP/(TP + FN). F1 varierar från 0 till 1, där 1 betyder den serovarspecifika genen som var närvarande i alla genom av en given serovar och frånvarande i alla genom av andra serovarer. De serovarspecifika genmarkörerna valdes med hjälp av den bästa presterande genen för varje serovar baserat på F1-poäng. Specificiteten definierad som TN / (TN+FP) användes för att utvärdera sann negativ (TN) hastighet av serovarspecifika genmarkörer. Falsk positiv hastighet (FPR) definierades av 1 – TNR.

fylogenetiska analyser

för att bestämma orsakerna till det observerade falska negativa och FPRs i kandidatserovarspecifika genmarkörer undersöktes de fylogenetiska förhållandena hos de involverade serovarerna. Utkastet till sammansättningar av 1258 isolat användes för att generera fylogenetiska träd genom att använda parsnp v1.24 (Treangen et al., 2014) med standardparametrar för att bestämma fylogeni mellan och inom serovarer. Trädet visualiserades av FigTree v1.4. 3 (Schneider et al., 2000).

plats och funktioner för Serovar-specifika Genmarkörer

representativa kompletta genom för varje serovar innehållande genfunktioner laddades ner från NCBI5 och användes för att bestämma platsen för var och en av kandidat serovar-specifik gen av BLASTN med standardinställningar (version 2.2.6, Kompletterande Tabell S2). I serovarer utan representativt fullständigt genom valdes ett representativt genom från isolat monterade i denna studie. Sekvenser av serovarspecifika genmarkörer ingår i kompletterande Data S1. Kluster av gener över genomet användes för att undersöka om de serovarspecifika genmarkörerna potentiellt var en del av ett enda element som en serovar fick i en händelse. Kandidaten serovarspecifika genmarkörer betraktades som ett kluster om de var belägna mindre än 5 kb från varandra.

de funktionella kategorierna av genmarkörer identifierades från RAST annotation6 (Aziz et al., 2008). Profagesekvenserna inom serovars referensgenom identifierades med hjälp av PHASTER för att indikera om de serovarspecifika genmarkörerna kan ha förvärvats tillsammans med profager (Fagsökningsverktyg förbättrad frisättning) (Arndt et al., 2016).

i silico serotyp Förutsägelse Med hjälp av Serovar-specifika Genmarkörer

ytterligare 1089 isolat valdes från Enterobasen med användning av ett internt python-skript med undantag av 2258 isolat som används för den initiala screeningen från samma databas från mars 2018 (kompletterande tabell S3). BLASTN användes för att söka mot de 1089 genom som tillhör 106 Salmonella serovarer för närvaron av någon av de serovarspecifika genmarkörerna. Anpassade python-skript användes sedan för att förutsäga serovar från dessa serovar-uppdrag baserat på det kända gennärvaromönstret för varje serovar. TP klassificerades som det totala antalet korrekt tilldelade serovarer och fall där rätt serovar kallades samt en eller flera FP. Misslyckad tilldelning definierades där inga serovar eller felaktiga serovarer kallades. Serovar förutsägelser jämfördes med SeqSero (Zhang et al., 2015) och SISTR förutsägelser.

beräkning av specificiteten hos Kandidatserovarspecifika Genmarkörer för vanliga serovarer

specificiteten för typfrekvens för vanliga serovarer (Hendriksen et al., 2011) var lika med (1 – potentiell felfrekvens). Den potentiella felfrekvensen för serovar-specifika genmarkörer definierade med formeln: (antal FPs) Bisexuell(frekvensen för den serovar i en given region)/(totalt Genom av den serovar).

resultat

identifiering av Kandidatserovarspecifika Genmarkörer

tillbehörsgenerna från 2258 genom som representerar 107 serovarer screenades för att identifiera potentiella serovarspecifika genmarkörer. Denna initiala screening identifierade 354 potentiella serovarspecifika genmarkörer inom 101 serovarer. Sex serovarer, nämligen Bareilly, Bovismorbificans, Thompson, Reading, Typhi och Saintpaul, hade inga kandidatserovarspecifika genmarkörer som var närvarande i alla linjer i en given serovar. Specificiteten (TNR) och känsligheten (TPR) för 354-kandidaten serovar-specifika genmarkörer undersöktes också och sammanfattades i Figur 1. Fyrtio serovarer innehöll 194 serovarspecifika genmarkörer med 100% specificitet och känslighet (ingen FN eller FP), medan 31 serovarer innehöll 80 kandidat serovarspecifika genmarkörer med 100% känslighet men med mindre än 100% specificitet (varierad FP). Nio serovarer innehöll 27 kandidatserovarspecifika genmarkörer med 100% specificitet men med mindre än 100% känslighet (varierad FN). De återstående 21 serovarerna innehöll 53 kandidatserovarspecifika genmarkörer med både specificitet och känslighet mindre än 100% (varierad FN och FP).

figur 1
www.frontiersin.org

Figur 1. Fördelningen av känslighet och specificitet av 354 potentiella serovarspecifika genmarkörer. TPR, sann positiv ränta; FPR, falsk positiv ränta. Där en gradient från ljusblå (låg procentandel) till mörkblå (hög procentandel) visas.

Vi konstruerade ett fylogenetiskt träd med 1258 representativa isolat från 107 serovarer med palsternacka (kompletterande figur S1). De 1258 isolaten valdes baserat på fylogenetiska förhållanden mellan de initiala 2258 isolaten från vilka vi valde isolat för att representera varje oberoende härstamning. Vi fann att medlemmar av var och en av de 82 serovarerna bildade en monofyletisk härstamning medan 24 serovarer var polyfyletiska med var och en bestående av 2 till 4 linjer. Flera av dessa serovarer är kända för att vara polyfyletiska och är osannolikt att innehålla serovarspecifika genmarkörer (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serovar Enteritidis är parafyletisk med tre andra serovarer (Dublin, Berta och Gallinarium) som härrör från den större Enteritidis clade som i sig består av tre linjer som kallas clade A, B och C (Graham et al., 2018). De fem enteritidis-specifika kandidatgenmarkörerna var negativa för Enteritidis-isolaten som grupperades separat på trädet.intressant för fyra polyfyletiska serovarer, Bredeney, Kottbus, Livingstone och Virchow, var och en hade en kandidat serovarspecifik gen som var närvarande i alla isolat av den serovar. För de återstående 20 polyfyletiska serovarerna och parafyletiska serovar Enteritidis sökte vi efter släktspecifika genmarkörer eftersom varje serovar innehöll mer än en släkt. Om alla linjer innehöll minst en släktspecifik gen, betraktar vi att serovar innehåller serovarspecifika genmarkörer. Totalt identifierades 111 potentiella härstamningsspecifika genmarkörer för 19 polyfyletiska serovarer och parafyletiska serovar Enteritidis, bland vilka 27 härstamningsspecifika genmarkörer identifierades för 5 serovarer med 100% specificitet och känslighet (ingen FN och FP), 76 kandidatlinjespecifika genmarkörer för 14 serovarer med 100% känslighet och mindre än 100% specificitet (varierad FP) och enteritidis innehållande 6 kandidatlinjespecifika genmarkörer med varierad FN och FP (tabell 1).

tabell 1
www.frontiersin.org

tabell 1. Lineage-specifika kandidatgenmarkörer för polyfyletiska serovarer och parafyletisk serovar.

För 11 av de 82 monofyletiska serovarerna som saknade serovarspecifika kandidatgenmarkörer på grund av FN fann vi att FN ofta berodde på isolat som är grupperade på en gren och divergerade tidigare från de andra isolaten. För sådana grupper sökte vi efter släktspecifika genmarkörer. Därför kan två eller flera genmarkörer användas för att identifiera en serovar och sådana serovarer ansågs också innehålla serovarspecifika genmarkörer, liknande polyfyletiska serovarer. Tre serovarer, Paratyphi A, Heidelberg och Muenchen kunde identifieras av de kombinerade släktspecifika genmarkörerna.

totalt 414 kandidatserovarspecifika genmarkörer inklusive 295 serovarspecifika genmarkörer och 119 släktspecifika genmarkörer sammanfattas i kompletterande tabell S2. Totalt innehöll 106 av 107 serovarer en eller flera genmarkörer, 33 serovarer innehöll en specifik gen medan 73 innehöll två eller flera genmarkörer. Det fanns inga kandidatserovarspecifika genmarkörer som hittades för monofyletisk Typhi och inga potentiella härstamningsspecifika genmarkörer som hittades för härstamning III av Stanleyville som endast innehöll ett isolat.

funktionella kategorier av Serovarspecifika Genmarkörer

funktionell karakterisering av alla 414 genmarkörer identifierade för de 106 serovarerna med RAST fann att 197 hade kända funktioner och 217 kodade hypotetiska proteiner med okända funktioner. Endast 46 gener med anteckningar kan grupperas i funktionella kategorier medan 151 gener med funktioner inte var i RAST funktionella kategorier (Tabell 2). Använda PHASTER. 45 kandidat serovar-specifika genmarkörer lokaliserades inom förutsagda profager.

tabell 2
www.frontiersin.org

tabell 2. Serovar-specifika gener funktionella kategorier.

en Minimal uppsättning Serovarspecifika Genmarkörer för in silico Molekylär Serotypning

För många serovarer identifierades flera kandidatserovarspecifika genmarkörer eller släktspecifika genmarkörer. I dessa fall valdes en enda gen som har de lägsta FN-och FP-hastigheterna. Minst 131 genmarkörer möjliggör identifiering av serovarerna med felfrekvenser från 0 till 8,33%. Fördelningen av genmarkörerna över alla 106 serovarer visar hög grad av specificitet som visas i Figur 2 där diagonalen visar förhållandet mellan serovar eller härstamning med serovarspecifika genmarkörer medan det diagonala utrymmet visade gles spridd närvaro av dessa gener i andra serovarer med varierande procentsatser som indikerar en låg FPR. Detaljerna för dessa genmarkörer listades i kompletterande tabell S4. Sammantaget kan 45 serovarer särskiljas av deras respektive serovarspecifika gen och 61 serovarer kan differentieras med en kombination av genmarkörer.

figur 2
www.frontiersin.org

Figur 2. Fördelningen av en minimal uppsättning av 131 serovarspecifika gener i 106 serovarer. Y-axeln visar serovar-eller linjespecifika genmarkörer och X-axeln visar serovarer eller linjer. Uppgifterna anges i Tilläggstabell S4. Grå indikerade nollgenom som innehåller en gen (TN). Gen / Genompar längs diagonalen representerar genom som innehåller de serovarspecifika genmarkörerna som matchar deras serovar (TP). Rött representerar gener som finns i 100% av genomerna för en given serovar eller härstamning. Där en gen är närvarande i mindre än 100% av en serovar visas en gradient från ljusblå (låg procentandel) till mörkblå (hög procentandel). Blå par längs diagonalen representerar närvaron av FN. Par som är blå eller röda utanför diagonalen representerar par som innehåller gener som inte matchar genomets förutsagda serovar (FP).

Vi testade ytterligare 1089 genom som tillhör 106 icke-tyfoidala Salmonella serovarer för att utvärdera förmågan hos de 131 specifika genmarkörerna att korrekt tilldela serovarer till isolat. Med hjälp av de serovarspecifika genmarkörerna tilldelades 1038 av de 1089 isolaten (95,3%) framgångsrikt och 51 misslyckades (4,7%). För SISTR och SeqSero var antalet konkordanta serovaruppdrag 1037 (95%) respektive 905 (82,8%) (Tilläggstabell S3).

Serovar-specifika Genmarkörer för Serotypning av vanliga serovarer

de 20 bästa serovarerna som orsakar mänsklig infektion som finns på varje kontinent (Hendriksen et al., 2011) kollapsade i en kombinerad lista med 46 serovarer (kompletterande tabell S5). Eftersom dessa serovarer innehöll de allra flesta isolat som orsakar mänskliga infektioner globalt, anser vi dem separat för att bedöma nyttan av kandidatserovarspecifika genmarkörer för serotypning av de vanligaste serovarerna i en lokal miljö. När endast dessa serovarer övervägdes kunde 18 av 46 identifieras unikt av en av de serovarspecifika genmarkörerna. För att öka noggrannheten att skriva i de återstående 28 vanliga serovarerna där serovarspecifika genmarkörer har varierat FPRs, undersökte vi med hjälp av delmängder av 131-genmarkörerna (från 2 till 9 gener per serovar) för att eliminera potentiell FP. Till exempel kan kombinationen av Choleraesuis-specifik gen och Cerro-i-släktspecifik gen eliminera falskt positivt isolat av Cerro från Choleraesuis, om båda generna är positiva kan isolatet tilldelas Cerro medan om Cerro-i-släktspecifik gen är negativ är isolatet Choleraesuis.

för att uppskatta potentiella fel vid typning tog vi hänsyn till frekvensen för de 46 vanliga serovarerna som visade stora skillnader mellan regioner (Hendriksen et al., 2011). Därför kan olika kombinationer av gener användas för att specifikt begränsa falska positiva resultat från serovarer närvarande i den regionen. I en given region beräknades specificiteten hos vanliga kandidatserovarspecifika genmarkörer med användning av hastigheten för FP och frekvensen för den falska positiva serovar i den regionen. Specificiteten hos kandidatserovarspecifika genmarkörer beräknades också med användning av FP-hastigheten (kompletterande tabell S4). Till exempel kan en panel med 15 gener användas för att skriva de 10 vanligaste serovarerna i Australien (NEPSS 2010) (tabell 3). När Australiensiska regionala frekvenser beaktades kan generna som anges i tabell 3 användas som markörer för laboratoriebaserad typning och felfrekvensen blir mindre än 2,4%.

tabell 3
www.frontiersin.org

tabell 3. En panel av serovar-specifika gener för att skriva de tio vanligaste serovarerna i Australien.

diskussion

Salmonellaserotypning har varit avgörande för diagnos och övervakning. Serovar förutsägelse genom traditionell serotypning kan begränsas av bristen på ytantigenuttryck eller autoagglutinationsegenskaper (Wattiau et al., 2008). Nyligen, med utvecklingen av helgenomsekvenseringsteknik, kan de relevanta genomiska regionerna i rfb-genklustret för O-antigen, genflic och genfljb för H-antigener och gener riktade av MLST extraheras och användas för serovaridentifiering. Flera studier har identifierat serovarspecifika gener eller DNA-fragment för serotypning genom sekvenseringsbaserad genomisk jämförelse (Zou et al., 2013, 2016; Laing et al., 2017). Dessa serovarspecifika gener eller DNA-fragment skilde emellertid bara ett litet antal serovarer. I denna studie identifierade vi 414 kandidat serovarspecifika eller släktspecifika genmarkörer för 106 serovarer som inkluderar 24 polyfyletiska serovarer och parafyletiska serovar Enteritidis. En delmängd av dessa genmarkörer validerades av oberoende genom och kunde tilldela serovar korrekt i 95,3% av fallen.

ovanstående analys komplicerades av närvaron av polyfyletiska serovarer, som uppstår oberoende av separata förfäder för att bilda separata linjer. Därför krävdes en kombination av linjespecifika genmarkörer för tydlig identifiering av majoriteten av de polyfyletiska serovarerna. Intressant fyra polyfyletiska serovarer, Bredeney, Kottbus, Livingstone och Virchow, var och en hade en kandidat serovarspecifik genmarkör som var närvarande i alla isolat av den serovar. Den Bredeney serovar-specifika genen förutspåddes att koda ett translokas involverat i O-antigenomvandling och kunde ha uppnåtts parallellt. De serovarspecifika generna hos de andra tre polyfyletiska serovarerna kodar hypotetiska proteiner med okänd funktion och ingen uppenbar förklaring till deras närvaro i olika linjer av samma serovar.

Till skillnad från polyfyletiska serovarer delar de tre linjerna (clade A, B och C) av parafyletiska serovar Enteritidis en ny gemensam förfader. Clade A och C är förfäder till Clade B. tidigare studier beskrev att Enteritidis var grupperad med Serovars Dublin, Berta och Gallinarium som kallades ”avsnitt Enteritidis” (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). En annan studie visade att serovar Nitra var inbäddad i Enteritidis-linjer genom att använda helgenom fylogeni (Deng et al., 2014). Det fanns också korsreaktivitet mellan Enteritidis och Nitra enligt Ogunremis studie (Ogunremi et al., 2017). I vår studie valde vi isolaten baserat på rSTs, Nitra var inte närvarande i Enterobase rMLST-databasen när denna studie påbörjades och inkluderades därför inte i denna studie. Gallinarium kan särskiljas från Enteritidis med användning av närvaron av en 4 bp-deletion i speC-genen (kang et al., 2011). Vi observerade att de gemensamma förfäderna till serovarer Dublin, Berta och Gallinarium uppstod från en förfader mellan Clades B och A/C. Medan Dublin kan identifieras separat kan vi inte skilja Berta eller Gallinarium från Enteritidis clade A/C. Dessa resultat belyser en begränsning av tillvägagångssättet eftersom serovarer måste vara tillräckligt divergerande att de skiljer sig åt med minst en unik gen. På samma sätt fanns det 8 andra serovarer som inte kunde särskiljas troligen på grund av mycket nyligen delat anor med lite genförvärv.

Serovar-specifika kandidatgenmarkörer eller linjespecifika kandidatgenmarkörer hos 69 av 106 serovarer var sammanhängande i genomet med liknande funktioner grupperade tillsammans (data visas inte). Detta tyder på att dessa genmarkörer kan ha införlivats i serovar genomer tillsammans genom horisontell genöverföring. Faktum är att de sju Typhimuriumspecifika kandidatgenmarkörerna som identifierades i denna studie (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497 och STM4498) lokaliserades i Typhimurium tRNAleuX som integrerar konjugativ elementrelaterad region inklusive gener från STM4488 till STM4498, vilket är en känd horisontell genöverföringshotspot (Bishop et al., 2005). På samma sätt identifierades fem Enteritidis-specifika kandidatgenmarkörer (SEN1379, SEN1380, SEN1382, SEN1383 och SEN1383) i SDR I-regionen (Agron et al., 2001) och den profage-liknande gei/kazakse14-regionen (Santiviago et al., 2010). Båda dessa regioner är kopplade till profager, vilket antyder att dessa regioner integrerades i genomet av en gemensam förfader till den globala Enteritidis-kladen och härleddes från horisontell genöverföring.

andra metoder för in silico serovar förutsägelse implementeras i SeqSero (Zhang et al., 2015) och SISTR (Yoshida et al., 2016). Båda dessa metoder undersöker genomiska regioner som är ansvariga för ytantigener medan SISTR också implementerar ett cgMLST-schema för att undersöka övergripande genetisk släktskap. Dessutom kan traditionella 7 gen MLST-och eburstgrupper härledda från den också användas för bestämning av silico serovar (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Både SISTR och SeqSero ger högre diskriminerande kraft än traditionell serovaridentifiering (Yachison et al., 2017). De har emellertid ett antal nackdelar såsom oskiljbara serovarer som har samma antigena formel eller antigena determinanter som inte uttrycks (Robertson et al., 2018). I den aktuella studien undersökte vi i silico serovar förutsägelse genom att screena genom mot en uppsättning 131 serovarspecifika genmarkörer. Tillvägagångssättet gav serovar förutsägelse genom att ge” närvaro eller frånvaro ” av individuell serovar-specifik genmarkör eller kombination av genmarkörer i ett frågeisolat. Vi visar att serovarspecifika genmarkörer har jämförbar noggrannhet med andra in silico-serotypningsmetoder med 91,5% isolat från initial identifieringsdataset och 84,8% isolat från en valideringsdataset tilldelad rätt serovar (utan FN och FP). 10.5% av isolaten från valideringsdataset kan tilldelas en liten delmängd av serovarer som innehåller rätt serovar (med varierad FP). Specificiteten för in silico serovar prediction approach av serovar-specifika genmarkörer var 95.3%, något högre än SISTR (95%) och SeqSero (82.8%) i samma dataset som vi testade. Detta resultat liknade de särdrag som SISTR och SeqSero rapporterade av Yachison et al. (2017) som var 94,8 respektive 88,2%.

vår serovar-specifika genmarkörbaserad metod kräver inte noggrann undersökning av O-antigengenkluster eller sekvensvariation av H-antigengenerna som kan vara problematiska. Vår metod lindrar också behovet av hela genen eller genomsekvensen monteras vilket är nödvändigt i mlst-eller cgMLST-baserade metoder. Därför kan detta tillvägagångssätt vara användbart för fall där mycket liten sekvens är tillgänglig, t.ex. i metagenomik eller kulturfri typning samt att tillhandahålla ett tredje alternativ för att bekräfta andra analyser.

identifieringen av en uppsättning genmarkörer som kan identifiera alla vanliga serovarer i en region kan också vara användbara i utvecklingsmolekylanalyserna. Dessa analyser skulle vara användbara vid serotypning av isolat där kulturer inte längre erhålls och traditionell serotypning är därför omöjlig. Till exempel kan en uppsättning PCR-analyser utformas som skulle möjliggöra känslig detektion av specifika genmarkörer och därför tillåta förutsägelse av serovar, från ett kliniskt prov. Dessutom, genom att eliminera behovet av att detektera serovarer som mycket sällan observeras i en region kan antalet av dessa genmarkörer som krävs för att detektera alla större serovarer i en region minskas avsevärt vilket möjliggör en mer kostnadseffektiv analys.

slutsats

i denna studie identifierade vi kandidatserovarspecifika genmarkörer och kandidatlinjespecifika genmarkörer för 106 serovarer genom att karakterisera tillbehörsgenomerna för ett representativt urval av 2258 stammar som potentiella markörer för in silico serotypning. Vi redogör för polyfyletiska och parafyletiska serovarer för att tillhandahålla en ny metod, med användning av närvaron eller frånvaron av dessa genmarkörer, för att förutsäga serovar av ett isolat från genomiska data. Genmarkörerna som identifieras här kan också användas för att utveckla serotypningsanalyser i frånvaro av en isolerad stam som kommer att vara användbar när diagnosen flyttar till odlingsoberoende och metagenomiska metoder.

Författarbidrag

MP och RL utformade studien och gav kritisk revision av manuskriptet. XZ och MP utförde den bioinformatiska analysen. XZ, MP och RL analyserade resultaten. XZ utarbetade manuskriptet.

finansiering

detta arbete stöddes ett projektbidrag från National Health and Medical Research Council.

intressekonflikt uttalande

författarna förklarar att forskningen genomfördes i avsaknad av kommersiella eller finansiella relationer som kan tolkas som en potentiell intressekonflikt.

tilläggsmaterial

Tilläggsmaterialet för denna artikel finns online på: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

figur S1 | det SNP-baserade fylogenetiska trädet konstruerat av ParSNP som visar de evolutionära förhållandena inom och mellan serovarer med 1344 representativa isolat inklusive 1258 isolat från 107 serovarer undersökta i studien och 86 isolat från serovarer med mindre än 5 rst som annars uteslutits från studien.

tabell S1 / den slutliga datamängden av 2258 högkvalitativa och konsekventa serovarprediktions genom som representerar 107 serovarer.

tabell S2 / totalt 414 kandidatserovarspecifika gener inklusive 295 serovarspecifika gener och 119 släktspecifika gener.

tabell S3 / ytterligare 1089 valideringsisolat med serovar prediktionsresultat av SISTR, SeqSero och serovar-specifika genmarkörer.

tabell S4 / minst 131 gener för identifiering av 106 serovarer.

tabell S5 / en uppsättning av 65 gener för identifiering av 46 vanliga serovarer.

DATA S1 / sekvenser av 131 serovarspecifika genmarkörer.

förkortning

FN, falska negativ; FP, falska positiva; FPR, falsk positiv hastighet; MLST, multi-locus sekvens typning; NEPSS, nationella enteriska patogener övervakningssystem; PPV, positivt prediktivt värde; rSTs, ribosomal MLST STs; SISTR, Salmonella in silico skriva resurs; TN, sanna negativa; TNR, sann negativ; TP, sanna positiva; TPR, sann positiv hastighet.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). En genomisk översikt över Populationsstrukturen för Salmonella. PLoS Genet. 14: e1007261. doi: 10.1371 / tidskrift.pgen.1007261

PubMed Abstrakt / CrossRef fulltext / Google Scholar

Allard, MW, Luo, Y., stam, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). På den evolutionära historien, populationsgenetik och mångfald bland isolat av Salmonella Enteritidis pfge mönster JEGX01. 0004. PLoS en 8: e55254. doi: 10.1371 / tidskrift.pone.0055254

PubMed Abstract / CrossRef fulltext/Google Scholar

Arndt, D., Grant, Jr, Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: en bättre, snabbare version av phast FAG sökverktyg. Nukleinsyror Res. 44, W16-W21. doi: 10.1093 / nar / gkw387

PubMed Abstrakt | CrossRef fulltext | Google Scholar

Ashton, PM, Nair, S., Peters, TM, Bale, J. A., Powell, dg, Painset, A., et al. (2016). Identifiering av Salmonella för folkhälsoövervakning med hjälp av sekvensering av hela genomet. PeerJ 4: e1752. doi: 10.7717/peerj.1752

PubMed Abstract / CrossRef fulltext/Google Scholar

Aziz, rk, Bartels, D., Best, AA, DeJongh, M., Disz, T., Edwards, R. A., et al. (2008). RAST-servern: snabba anteckningar med hjälp av subsystems-teknik. BMC Genomics 9: 75. doi: 10.1186 / 1471-2164-9-75

PubMed Abstrakt / CrossRef fulltext / Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., et al. (2012). Spader: en ny genommonteringsalgoritm och dess tillämpningar på encellig sekvensering. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract / CrossRef fulltext/Google Scholar

biskop, A. L., Baker, S., Jenks, S., Fookes, M., Gaora, P. Cambodia, Pickard, D., et al. (2005). Analys av den hypervariabla regionen av Salmonella enterica-genomet associerat med tRNAleuX. J. Bakteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Genomsekvensering avslöjar diversifiering av virulensfaktorinnehåll och möjlig värdanpassning i distinkta subpopulationer av Salmonella enterica. BMC Genomics 12:425. doi: 10.1186 | 1471-2164-12-425

PubMed Abstrakt/CrossRef fulltext/Google Scholar

Deng, X., Desai, pt, den Bakker, HC, Mikoleit, M., Tolar, B., träd, E., et al. (2014). Genomisk epidemiologi av Salmonella enterica serotyp Enteritidis baserat på befolkningsstrukturen hos vanliga släkter. Emerg. Infektera. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, pärlbaserad suspensionsuppsättning för molekylär bestämning av vanliga Salmonellaserogrupper. J. Clin. Mikrobiol. 45, 3323–3334. doi: 10.1128/JCM.00025-07

PubMed Abstract / CrossRef fulltext/Google Scholar

Graham, RM, Hiley, L., Rathnayake, iu och Jennison, A. V. (2018). Jämförande genomik identifierar distinkta linjer av S. Enteritidis från Queensland, Australien. PLoS En 13: e0191042. doi: 10.1371 / tidskrift.pone.0191042

PubMed Abstract / CrossRef fulltext / Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Utveckling av en DNA-mikroarray för molekylär identifiering av alla 46 Salmonella O-serogrupper. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

PubMed Abstract / CrossRef fulltext / Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N. och Tesler, G. (2013). QUAST: kvalitetsbedömningsverktyg för genomaggregat. Bioinformatik 29, 1072-1075. doi: 10.1093 / bioinformatik / btt086

PubMed Abstract / CrossRef fulltext/Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, A. B., et al. (2011). Global övervakning av Salmonella serovar distribution från Världshälsoorganisationen global foodborne infections network land databank: resultat av kvalitetssäkrade laboratorier från 2001 till 2007. Matburen Pathog. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstract / CrossRef fulltext / Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K., et al. (2011). Differentiell identifiering av Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum och Pullorum baserat på polymorfa regioner av glgC-och speC-gener. Veterinär. Mikrobiol. 147, 181–185. doi: 10.1016/j.vetmic.2010.05.039

PubMed Abstract / CrossRef fulltext / Google Scholar

Kingsley, ra, och B Jacobumler, aj (2000). Värd anpassning och uppkomsten av infektionssjukdomar: Salmonella paradigm. Mol. Mikrobiol. 36, 1006–1014. doi: 10.1046 / j. 1365-2958. 2000.01907.X

PubMed Abstract / CrossRef fulltext / Google Scholar

Laing, Cr, Whiteside, MD och Gannon, VP (2017). Pan-genom analyser av arten Salmonella enterica, och identifiering av genomiska markörer prediktiva för arter, underarter, och serovar. Front. Mikrobiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract / CrossRef fulltext / Google Scholar

Le Minor, L., Och Bockem Borihl, J. (1984). Suppl aucturiment nr XXVII au schcturima de Kauffmann-Vit. Ann. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609 (84) 80042-3

CrossRef fulltext | Google Scholar

Le Minor, L., Popoff, M., och Bockem Jacobhl, J. (1990). Supplement 1989 (n 33 oz.) till systemet Kauffmann-White. Res. Mikrobiol. 141, 1173-1177. doi: 10.1016/0923-2508(90)90090-D

CrossRef fulltext | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F. Och Fields, P. I. (2004). Sekvensering och jämförande analys av flagellingener fliC, fljB och flpA från Salmonella. J. Clin. Mikrobiol. 42, 1923–1932. doi: 10.1128/JCM.42.5.1923-1932.2004

PubMed Abstract | CrossRef fulltext/Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., M Jacobrquez, I. G., Omidi, K., Pope, L., et al. (2017). Utvärdering av en multiplex PCR-analys för identifiering av Salmonella serovars enteritidis och typhimurium med användning av detaljhandelsprover och slakteriprover. J. Mat Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

PubMed Abstrakt | CrossRef fulltext | Google Scholar

sida, aj, Cummins, ca, Hunt, M., Wong, Vk, Reuter, S., Holden, M. T., et al. (2015). Roary: snabb storskalig prokaryot pan genomanalys. Bioinformatik 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Omfattande bedömning av kvaliteten på Salmonella-sekvensdata som finns tillgängliga i offentliga sekvensdatabaser med hjälp av Salmonella in silico typing resource (SISTR). Mikrob. Genomics doi: 10.1099 / mgen.0.000151 .

PubMed Abstract / CrossRef fulltext/Google Scholar

Santiviago, ca, Blondel, CJ, Quezada, CP, Silva, ca, Tobar, PM, Porwollik, S., et al. (2010). Spontan excision av Salmonella enterica serovar Enteritidis-specifikt defekt profage-liknande element askorbse14. J. Bakteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093 / bioinformatik / btu153

PubMed Abstract / CrossRef fulltext/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, MW, Strain, E., Barrangou, R., Wehnes, C., et al. (2013). Fylogenetisk mångfald av den enteriska patogenen Salmonella enterica subsp. enterica härleddes från genomomfattande referensfria SNP-tecken. Genome Biol. Evol. 5, 2109–2123. doi: 10.1093 / gbe / evt159

PubMed Abstrakt / CrossRef fulltext / Google Scholar

Treangen, tj, Ondov, BD, Koren, S. och Phillippy, A. M. (2014). Harvest suite för snabb kärngenominriktning och visualisering av tusentals intraspecifika mikrobiella genom. Genome Biol. 15:524. doi: 10.1186 / s13059-014-0524-X

PubMed Abstract / CrossRef fulltext / Google Scholar

Vernikos, G. S., Thomson, N. R. och Parkhill, J. (2007). Genetiskt flöde över tiden i Salmonella-linjen. Genome Biol. 8: R100. doi: 10.1186 / gb-2007-8-6-r100

PubMed Abstract / CrossRef fulltext / Google Scholar

Wattiau, P., Boland, C. och Bertrand, S. (2011). Metoder för Salmonella enterica ssp enterica subtyping: guldstandarder och alternativ. Appl. Miljö. Mikrobiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

PubMed Abstract / CrossRef fulltext / Google Scholar

Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H. och Imberechts, hj (2008). Jämförelse av klassisk serotypning och PremiTest-analys för rutinmässig identifiering av vanliga Salmonella enterica serovarer. J. Clin. Mikrobiol. 46, 4037–4040. doi: 10.1128/JCM.01405-08

PubMed Abstract / CrossRef fulltext/Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., et al. (2017). Validering och konsekvenser av att använda hela genomsekvensering som ersättning för traditionell serotypning för ett nationellt referenslaboratorium för Salmonella. Front. Mikrobiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract / CrossRef fulltext/Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J. Han är en av de mest kända i världen. (2016). Salmonella in silico typing resource( SISTR): ett öppet webbåtkomligt verktyg för att snabbt skriva och subtypa utkast till Salmonella-genomaggregat. PLoS En 11: e0147101. doi: 10.1371 / tidskrift.pone.0147101

PubMed Abstract / CrossRef fulltext/Google Scholar

Zhang, S., Yin, Y., Jones, M. B., Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Bestämning av Salmonella-serotyp med hjälp av sekvenseringsdata med hög genomströmning. J. Clin. Mikrobiol. 53, 1685–1692. doi: 10.1128/JCM.00323-15

PubMed Abstract / CrossRef fulltext / Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R. och Liu, S.-L. (2016). Genotypning av Salmonella med släktspecifika gener: korrelation med serotypning. Int. J. Infektera. Dis. 49, 134–140. doi: 10.1016/j.ijid.2016.05.029

PubMed Abstract / CrossRef fulltext / Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J. och Liu, S.-L. (2013). Identifiering av gener för att differentiera närbesläktade Salmonella-linjer. PLoS en 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar