Articles

Hranic, v Mikrobiologii

Úvod

Salmonely způsobuje salmonelózy u lidí a infekcí z teplokrevných zvířat (Kingsley a Bäumler, 2000). Rod Salmonella je rozdělen na dva druhy, s.enterica a s. bongori. sérotypizace dále klasifikuje Salmonel do více než 2600 sérotypy (sérovary) prostřednictvím aglutinace reakce antiséra tři povrchových antigenů O, H1 a H2 (Le Minor a Bockemühl, 1984; Le Minor et al., 1990). Existují 46 O antigeny, které identifikují séroskupinu. Spolu se 119 antigeny H1 a H2 flagelinu identifikují kombinace o, H1 a H2 serovary. Pouze malá část serovarů je zodpovědná za většinu lidských infekcí salmonelou (Popoff et al ., 2004).

Sérotypizace antigenní aglutinací je nahrazena molekulárním sérotypizací (Cai et al., 2005; Wattiau et al., 2011). Toho lze dosáhnout vyšetřením sekvence klastru genu O antigenu, genu fliC kódujícího antigen H1 a genu fljB kódujícího antigen h2 (Fitzgerald et al ., 2007). O klastry genů antigenu mohou být diferencovány přítomností nebo nepřítomností genů, zatímco antigeny H1 a H2 jsou diferencovány variací sekvence (McQuiston et al ., 2004; Guo et al., 2013; Zhang et al., 2015). Sérotypy salmonel lze také odvodit pomocí MLST (Wattiau et al ., 2011; Achtman a kol., 2012) jako sérotyp lze odvodit jeho typy sekvencí. Nicméně, předpokladem pro tento přístup je, že předchozí znalosti odpovídající vztah sérovar sekvence typu je nutná.

v Poslední době, s vývojem whole-genom-na základě srovnání několika studií identifikovali genomické markery jako alternativa molekulární metody typizace. Zou et al. (2016) identifikováno sedm genů, které poskytují dostatečné rozlišení k rozlišení 309 kmeny Salmonely což představuje 26 sérovarů a nalézt sérovar-specifických genů ve 13 z 26 sérovarů. Laing et al. (2017) identifikovali genomické fragmenty specifické pro druhy a poddruhy salmonel prostřednictvím analýzy pan-genomu. Tyto specifické geny nebo DNA fragmenty byly použity jako molekulární cíle rozvíjet více molekulární testy pro rychlou identifikaci a detekci Salmonely u druhů a sérovar úrovni. Tyto specifické geny nebo fragmenty DNA jsou však omezeny svou diskriminační schopností kvůli jejich schopnosti rozlišit pouze menší počet serovarů.

V této studii jsme se zaměřili na využití rozsáhlé veřejně dostupné kolekce Salmonella genomů k identifikaci sérovaru-specifické genové markery pro nejčastější sérovary Salmonel. Ukazujeme potenciál těchto sérovar-specifických genových markerů jako markerů pro molekulární sérotypizaci buď v siliko typizaci genomických dat, nebo pro vývoj laboratorních diagnostických metod.

Materiály a Metody

Ribozomální MLST ST Založena Izolovat Výběr

Salmonel databáze v Enterobase (Alikhan et al., 2018) k březnu 2018 byl dotazován a 118997 izolát byl zkoumán. Reprezentativní izoláty pro každý RST byly vybrány a extrahovány interním skriptem python. Do této studie byly zahrnuty pouze serovary s více než čtyřmi RST. Pro 20 největší izoláty serovarů byly náhodně vybrány pouze z RST se dvěma nebo více izoláty. Pro zbývající serovary byl náhodně vybrán jeden reprezentativní izolát pro každý rST. Syrové čte pro tyto izoláty byly získány z ENA (European Nukleotidů Archive1) a jsou de novo sestaven pomocí Rýče v3.10.1 assembler s default settings2 (Bankevich et al., 2012). Sérovar sestavených genomů předpověděl SISTR (Yoshida et al., 2016) poté, co splnili následující kritéria, která byla definována Robertsonem a kol. (2018) pomocí QUAST3 (Gurevich et al., 2013): montážní velikosti mezi 4 a 6 Mb s počtem contigs méně než 500, největší contig větší než 100 kb, GC obsahu mezi 50 a 54%, gene předpovídal záblesk v QUAST více než 3000. Shoda mezi výsledný SISTR sérovar předpovědi a oznámil, sérovar na Enterobase metadatového záznamu byly zkoumány a malý počet genomy byly odstraněny z analýzy vzhledem k nekonzistentní sérovar předpovědi. Konečný soubor dat sestával z 2258 vysoce kvalitních genomů s konzistentní predikcí sérovaru představující 107 serovarů (doplňková tabulka S1).

Identifikace Salmonella Sérovar-Konkrétní Kandidát Genových Markerů

určit potenciální sérovar-specifické genové markery pro 107 sérovarů, 2258 genomy byly anotovány pomocí PROKKA (Seemann, 2014). Pan-genom a jádro-genom byly analyzovány roary (Page et al ., 2015) s použitím prahu identity sekvence 80%. Geny specifické pro každý sérovar byly identifikovány z doplňkových genů pan-genomu pomocí interního skriptu Pythonu. V této studii, počet genomů z daného sérovar obsahující konkrétní gen, který sérovar byl nazván pravdivě pozitivní (TP), počet genomů ze stejné sérovar chybí stejný gen byl nazván falešně negativní (FN). Počet genomů z jiných serovarů obsahujících stejný sérovar-specifický gen byl nazván false positve (FP). Uvolněná šortky (20% PP, 10% FP) byl původně použit k zajištění, že všechny sérovary měl kandidát specifických genů, které by mohly být dále zkoumány. Paralogické geny byly z analýz odstraněny.

hodnocení potenciálních markerů specifických pro Sérovar

skóre F1 bylo použito pro počáteční výběr potenciálních markerů specifických pro serovar. F1 skóre byla hodnocena na základě vzorce: 2 × (PPV × Citlivost)/(PPV + Citlivost), kde PPV byla definována jako TP/(TP+FP) a citlivost byla definována jako TP/(TP+FN). F1 se pohybuje v rozmezí od 0 do 1, kde 1 znamená, sérovar-specifický gen, který byl přítomen ve všech genomů dané sérovar a chybí ve všech genomů jiných sérovarů. Markery genu specifické pro sérovar byly vybrány za použití genu s nejlepším výkonem pro každý sérovar na základě skóre F1. Specificita definovaná jako TN / (TN+FP) byla použita k vyhodnocení skutečné negativní (TN) rychlosti sérovar-specifických genových markerů. Falešně pozitivní míra (FPR) byla definována pomocí 1 – TNR.

Fylogenetických Analýz

aby bylo možné určit příčiny pozorovány falešně negativní a FPRs v kandidátských sérovar-specifické genové markery, fylogenetické vztahy sérovary byly zkoumány. Návrhy sestav 1258 izolátů byly použity ke generování fylogenetických stromů pomocí parsnp v1.24 (Treangen et al., 2014) s výchozími parametry pro stanovení fylogeneze mezi serovary a uvnitř nich. Strom byl vizualizován FigTree v1. 4. 3 (Schneider et al., 2000).

Umístění a Funkce Sérovar-Specifické Genové Markery

Reprezentativní kompletní genomy pro každý sérovar obsahující gen rysy byly stažené z NCBI5 a byly použity k určení umístění každého kandidáta sérovar-konkrétní gen pomocí BLASTN s výchozí nastavení (verze 2.2.6, Doplňková Tabulka S2). U serovarů bez reprezentativního kompletního genomu byl z izolátů sestavených v této studii vybrán reprezentativní genom. Sekvence sérovar-specifických genových markerů jsou zahrnuty v doplňkových datech S1. Shlukování genů celého genomu byla použita, aby prošetřila, zda sérovar-specifické genové markery byly potenciálně část jednoho prvku získal sérovar v jednom případě. Kandidátské genové markery specifické pro serovar byly považovány za shluk, pokud byly umístěny méně než 5 kb od sebe.

funkční Kategorie genových markerů byly identifikovány z anotace RAST6 (Aziz et al ., 2008). Na prophage sekvence v rámci sérovarů referenční genomy byly identifikovány pomocí PHASTER uvést, zda sérovar-specifické genové markery, může být získána spolu s prophages (PHAge Nástroj pro Vyhledávání, Rozšířené Vydání) (Arndt et al., 2016).

In silico Sérotyp Predikce Pomocí Sérovar-Specifické Genové Markery

další 1089 izoláty byly vybrány z Enterobase pomocí in-house python skript s výjimkou 2258 izoláty použité pro počáteční screening ze stejné databáze jako v Březnu 2018 (Doplňující Tabulka S3). BLASTN byl použit k hledání proti 1089 genomy patří k 106 sérovary Salmonel na přítomnost některého z sérovar specifických genových markerů. Vlastní skripty Pythonu byly poté použity k předpovědi sérovaru z těchto přiřazení serovaru na základě známého vzorce přítomnosti genů pro každý sérovar. TP byl klasifikován jako celkový počet správně přiřazených sérovarů a případy, kdy správné sérovar jmenovala stejně jako jeden nebo více FP. Neúspěšné přiřazení bylo definováno tam, kde nebyly volány žádné sérovary nebo nesprávné serovary. Sérovar předpovědi byly porovnány s SeqSero (Zhang et al ., 2015) a předpovědi SISTR.

Výpočet Specifičnost Kandidáta Sérovar-Specifické Genové Markery pro Běžné Sérovarů

specifičnost psaní sazba pro běžné sérovarů (Hendriksenová et al., 2011) byla rovna (1-potenciální chybovost). Potenciální chybovost sérovar-specifických genových markerů definovaných vzorcem: (počet FPs)∗(frekvence tohoto sérovaru v dané oblasti)/(celkem genomů tohoto sérovaru).

Výsledky

Identifikace Kandidáta Sérovar-Specifické Genové Markery

příslušenství geny z 2258 genomů což představuje 107 sérovary byly testovány, aby identifikovat potenciální sérovar specifických genových markerů. Tento počáteční screening identifikoval 354 potenciálních markerů specifických pro serovar v rámci 101 serovarů. Šest sérovarů a to, Bareilly, Bovismorbificans, Thompson, Čtení, Typhi, a Saintpaul neměl žádný kandidát sérovar-specifické genové markery, které byly přítomny ve všech linií daného sérovar. Specifičnost (TNR) a citlivost (TPR) 354 kandidáta sérovar-specifické genové markery byly také zkoumány a shrnuty na Obrázku 1. Čtyřicet sérovarů obsažené 194 sérovar-specifické genové markery s 100% specificitu a citlivost (č. FN nebo FP), zatímco 31 sérovarů obsažené 80 kandidáta sérovar-specifické genové markery s 100% citlivost, ale s méně než 100% specificitu (pestrá FP). Devět sérovarů obsahoval 27 kandidáta sérovar-specifické genové markery se 100% specificitou, ale s méně než 100% citlivost (pestrá FN). Zbývajících 21 sérovarů obsažené 53 kandidáta sérovar-specifické genové markery s oběma specifičnost a citlivost menší než 100% (pestrá FN a FP).

obrázek 1
www.frontiersin.org

Obrázek 1. Distribuce citlivosti a specificity 354 potenciálních markerů genů specifických pro serovar. TPR, true positive rate; FPR, false positive rate. Kde je zobrazen přechod ze světle modré (nízké procento) na tmavě modrou (vysoké procento).

vytvořili jsme fylogenetický strom s použitím 1258 reprezentativních izolátů ze 107 serovarů pomocí ParSNP (Doplňkový obrázek S1). 1258 izolátů bylo vybráno na základě fylogenetických vztahů počátečních 2258 izolátů, ze kterých jsme vybrali izoláty, které reprezentují každou nezávislou linii. Zjistili jsme, že členové každé z 82 sérovarů tvořil monophyletic linie, zatímco 24 sérovary byly polyphyletic se každý skládá ze 2 na 4 linií. Několik z těchto sérovarů je známo, že být polyphyletic a je nepravděpodobné, že obsahují sérovar specifických genových markerů (Falush et al., 2006; den Bakker et al., 2011; Achtman a kol., 2012; Timme a kol., 2013). Sérovar Enteritidis je paraphyletic s dalšími třemi sérovarů (Dublin, Berta, a Gallinarium) vyplývající ze ve větší Enteritidis clade, která je sama o sobě skládá ze tří linií známý jako klad A, B a C (Graham et al., 2018). Pět kandidátských genových markerů specifických pro Enteritidis bylo negativních na izoláty Enteritidis, které se seskupily Samostatně na stromě.

Zajímavé je na čtyři polyphyletic sérovarů, Bredeney, Kottbus, Livingstone a Virchow, každý měl jednoho kandidáta sérovar-specifický gen, který byl přítomen ve všech izolátů, že sérovar. Pro zbývajících 20 polyphyletic sérovarů a paraphyletic sérovar Enteritidis, hledali jsme původ-specifické genové markery jako každý sérovar obsahoval více než jeden řádků. Pokud všechny linie obsahovaly alespoň jeden gen specifický pro linii, považujeme tento sérovar za obsahující markery genu specifické pro sérovar. Celkem 111 potenciální linie-specifické genové markery byly identifikovány u 19 polyphyletic sérovarů a paraphyletic sérovar Enteritidis, mezi které, 27 lineage-specifické genové markery byly identifikovány pro 5 sérovarů s 100% specificitu a citlivost (č. FN a FP), 76 kandidáta lineage-specifické genové markery pro 14 sérovarů s 100% citlivost a méně než 100% specificitu (pestrá FP), a Enteritidis obsahující 6 kandidát lineage-specifické genové markery s pestrou FN a FP (Tabulka 1).

tabulka 1
www.frontiersin.org

Tabulka 1. Genové markery specifické pro linii pro polyfyletické serovary a parafyletický sérovar.

Pro 11 82 monophyletic sérovary, které postrádaly sérovar-konkrétní kandidát genových markerů vzhledem k FN, zjistili jsme, že FN byla často kvůli izoláty, které jsou seskupeny na jedné větvi a rozcházely dříve od ostatních izolátů. Pro takové skupiny, hledali jsme genové markery specifické pro linii. Proto dvě nebo více genových markerů mohou být použity k identifikaci sérovaru a tyto sérovary byly také za to, že obsahují sérovar specifických genových markerů, podobně polyphyletic sérovarů. Tři serovary, Paratyphi A, Heidelberg a Muenchen lze identifikovat pomocí kombinovaných genových markerů specifických pro linii.

v doplňkové tabulce S2 je shrnuto celkem 414 kandidátních genových markerů specifických pro sérovar, včetně 295 genových markerů specifických pro sérovar a 119 genových markerů specifických pro linii. Celkem 106 107 sérovarů obsahovalo jeden nebo více genových markerů, 33 sérovarů obsažené jeden konkrétní gen, zatímco 73 obsahoval dvě nebo více genových markerů. Tam byl žádný kandidát sérovar specifických genových markerů zjištěné pro monophyletic Typhi a žádné potenciální linie-specifických genových markerů zjištěné pro lineage III Stanleyville, který obsahoval pouze jeden izolát.

Funkční Kategorie Sérovar-Specifické Genové Markery

Funkční charakterizace všech 414 genových markerů zjištěné pro 106 sérovarů pomocí RAST zjistil, že 197 věděla, funkce a 217 kódované hypotetické proteiny s neznámou funkcí. Pouze 46 genů s anotacemi lze seskupit do funkčních kategorií, zatímco 151 genů s funkcemi nebylo ve funkčních kategoriích RAST (Tabulka 2). Pomocí PHASTER. 45 kandidátních genových markerů specifických pro sérovar bylo umístěno v předpovězených prophages.

tabulka 2
www.frontiersin.org

Tabulka 2. Sérovar specifické geny funkční Kategorie.

Minimální Sadu Sérovar-Specifické Genové Markery pro in silico Molekulární Sérotypizace

Pro mnoho sérovarů, více kandidáta sérovar-specifické genové markery nebo lineage-specifické genové markery byly identifikovány. V těchto případech byl vybrán jediný gen, který má nejnižší míru FN a FP. Minimálně 131 genových markerů umožňuje identifikaci serovarů s chybovostí od 0 do 8,33%. Rozdělení genových markerů napříč všemi 106 sérovarů ukazuje vysoký stupeň specifičnosti, jak je znázorněno na Obrázku 2, ve kterém úhlopříčka zobrazuje jeden na jednoho vztahu sérovar nebo lineage s sérovar-specifické genové markery, zatímco mimo-diagonální prostoru ukázal, řídké rozptýlené přítomnosti těchto genů v jiných sérovarů pestrá procenta, přičemž nízké FPR. Podrobnosti o těchto genových markerech byly uvedeny v doplňkové tabulce S4. Celkově 45 sérovary mohou být rozlišeny podle jejich sérovar-specifický gen a 61 sérovary mohou být rozlišeny pomocí kombinace genových markerů.

obrázek 2
www.frontiersin.org

Obrázek 2. Distribuce minimální sady 131 genů specifických pro serovar ve 106 serovarech. Osa Y ukazuje serovar nebo genové markery specifické pro linii a osa X ukazuje serovary nebo linie. Podrobnosti byly uvedeny v doplňkové tabulce S4. Gray indikoval nulové genomy obsahující Gen (TN). Páry genu / genomu podél diagonály představují genomy obsahující genové markery specifické pro sérovar, které odpovídají jejich sérovaru (TP). Červená představuje geny, které jsou přítomny ve 100% genomů pro daný sérovar nebo linii. Pokud je gen přítomen v méně než 100% sérovaru, zobrazí se gradient od světle modré (nízké procento) k tmavě modré (vysoké procento). Modré páry podél úhlopříčky představují přítomnost FN. Páry, které jsou modré nebo červené mimo diagonální, představují páry obsahující geny, které neodpovídají předpokládanému sérovaru genomu (FP).

testovali Jsme další 1089 genomy patří k 106 non-typhoidal sérovary Salmonel vyhodnotit schopnost 131 specifických genových markerů správně přiřadit sérovarů na izolátů. Za použití genových markerů specifických pro serovar bylo úspěšně přiděleno 1038 z 1089 izolátů (95,3%) a 51 selhalo (4,7%). Pro SISTR a SeqSero, počet souhlasících sérovar úkoly byly 1037 (95%) a 905 (82.8%), respektive (Doplňující Tabulka S3).

Sérovar-Specifické Genové Markery pro Sérotypizaci Společné Sérovarů

top 20 sérovarů způsobující lidské infekce nalézt na každém kontinentu (Hendriksenová et al., 2011) byly rozděleny do kombinovaného seznamu 46 serovarů (doplňková tabulka S5). Protože tyto sérovary obsažené drtivá většina izolátů, což způsobuje lidské infekce po celém světě, považujeme je odděleně posoudit užitečnost kandidáta sérovar-specifické genové markery pro sérotypizaci nejčastější sérovary v místní nastavení. Pokud byly zvažovány pouze tyto serovary, 18 ze 46 mohlo být jednoznačně identifikováno jedním ze sérovar-specifických genových markerů. Pro zvýšení přesnosti psaní ve zbývajících 28 společné sérovarů, kde sérovar-specifické genové markery mají různé FPRs, jsme zkoumali pomocí podskupin 131 genových markerů (v rozmezí od 2 do 9 genů za sérovar), aby eliminovat potenciální FP. Například, kombinace Choleraesuis konkrétní gen a Cerro-jsem lineage-specifický gen může eliminovat falešně pozitivní izolovat Cerro od Choleraesuis, pokud jsou oba geny jsou pozitivní, izolovat by mohla být přiřazena Cerro zatímco pokud Cerro-jsem lineage-specifického genu je negativní, izolovat je Choleraesuis.

odhadnout potenciální chyby v psaní, vzali jsme v úvahu četnost 46 společné sérovary, které ukázaly velké rozdíly mezi regiony (Hendriksenová et al., 2011). Proto mohou být použity různé kombinace genů ke specifickému omezení falešně pozitivních výsledků ze serovarů přítomných v této oblasti. V dané oblasti byla specificita společných kandidátských genových markerů specifických pro sérovar vypočtena pomocí rychlosti FP a frekvence falešně pozitivního sérovaru v této oblasti. Specificita kandidátních genových markerů specifických pro serovar byla také vypočtena pomocí rychlosti FP (doplňková tabulka S4). Například panel 15 genů by mohl být použit pro psaní 10 nejčastějších serovarů v Austrálii (NEPSS 2010) (Tabulka 3). Při zohlednění australských regionálních frekvencí lze geny uvedené v tabulce 3 Použít jako markery pro laboratorní typizaci a chybovost bude menší než 2, 4%.

tabulka 3
www.frontiersin.org

Tabulka 3. Panel genů specifických pro serovar pro psaní deseti nejčastějších serovarů v Austrálii.

diskuse

sérotypizace salmonel byla nezbytná pro diagnostiku a sledování. Predikce sérovaru tradičním sérotypováním může být omezena nedostatkem exprese povrchového antigenu nebo autoaglutinačními vlastnostmi (Wattiau et al ., 2008). V poslední době, s vývojem whole-genome sequencing technology, příslušné genomové regiony rfb genů pro O antigen gene fliC a gene fljB pro H antigeny, a geny, na něž MLST mohou být extrahovány a použity pro sérovar identifikace. Několik studií identifikovalo geny specifické pro sérovar nebo fragmenty DNA pro sérotypizaci pomocí genomického srovnání založeného na sekvenování celého genomu (Zou et al ., 2013, 2016; Laing et al., 2017). Tyto geny specifické pro sérovar nebo fragmenty DNA však rozlišovaly pouze malý počet serovarů. V této studii jsme identifikovali 414 kandidáta sérovar-specifické nebo lineage-specifické genové markery pro 106 sérovary, které zahrnují 24 polyphyletic sérovarů a paraphyletic sérovar Enteritidis. Podskupina těchto genových markerů byla validována nezávislými genomy a byla schopna správně přiřadit serovary v 95,3% případů.

výše uvedené analýzy bylo komplikováno přítomností polyphyletic sérovary, které vznikají nezávisle z různých předků tvoří samostatné linie. Proto byla pro jasnou identifikaci většiny polyfyletických serovarů vyžadována kombinace genových markerů specifických pro linii. Zajímavé je čtyři polyphyletic sérovarů, Bredeney, Kottbus, Livingstone, a Virchow, každý měl jednoho kandidáta sérovar gen specifický marker, který byl přítomen ve všech izolátů, že sérovar. V Bredeney sérovar-specifické genové bylo předpovězeno, že se kódovat translocase podílí O antigen konverze a mohl získané paralelně. Na sérovar-specifické geny pro další tři polyphyletic sérovarů kódovat hypotetické proteiny s neznámou funkcí a bez zjevného vysvětlení pro jejich přítomnost v různé linie stejných sérovar.

na Rozdíl od polyphyletic sérovarů, tři linie (clade A, B, a C) paraphyletic sérovar Enteritidis sdílet nedávného společného předka. Clade a a C jsou rodový Clade B. Předchozích studiích je popsáno, že Enteritidis byl clustery s sérovarů Dublin, Berta, a Gallinarium který byl nazýván „Sekce Enteritidis“ (Vernikos et al., 2007; Achtman a kol., 2012; Allard a kol., 2013; Timme a kol., 2013). Další studie ukázala, že sérovar Nitra byl vložen do linií Enteritidis pomocí fylogeneze celého genomu (Deng et al ., 2014). Podle Ogunremiho studie byla také zkřížená reaktivita mezi Enteritidis a Nitra (Ogunremi et al ., 2017). V naší studii, vybrali jsme izoláty na základě rSTs, Nitra nebyla přítomna v databázi Enterobázy rMLST při zahájení této studie, a proto nebyla zahrnuta do této studie. Gallinarium je odlišitelné od Enteritidis pomocí přítomnosti delece 4 bp v genu speC (Kang et al ., 2011). Pozorovali jsme, že společné předky sérovarů Dublin, Berta, a Gallinarium, vznikla z předka, mezi Clades B a A/C. Při Dublin mohou být odděleně, nemůžeme rozlišit, Berta nebo Gallinarium z Enteritidis clade A/C. Tyto výsledky zdůrazňují omezení přístupu jako sérovarů musí být dostatečně odlišné, že se liší alespoň o jeden unikátní gen. Podobně, existovaly 8 další serovary, které nebyly rozlišitelné pravděpodobně kvůli velmi nedávnému sdílenému původu s malou akvizicí genů.

Sérovar-konkrétní kandidát genových markerů nebo lineage-specific kandidáta genových markerů v 69 z 106 sérovary byly spojité v genomu s podobnými funkcemi seskupeny dohromady (údaje nejsou uvedeny). To naznačuje, že tyto genové markery, může být začleněna do sérovar genomů společně prostřednictvím horizontálního přenosu genů. Opravdu sedmi Typhimurium konkrétní kandidát genových markerů identifikovaných v této studii (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497, a STM4498) byly umístěny v Typhimurium tRNAleuX integrace conjugative prvek týkající se regionu, včetně genů z STM4488 na STM4498, které je známo, že horizontální přenos genů hotspot (Bishop et al., 2005). Podobně pět Enteritidis konkrétní kandidát genové markery identifikovány (SEN1379, SEN1380, SEN1382, SEN1383, a SEN1383) byly umístěny v Sdr já region (Agron et al., 2001) a prophage-like Gei/φSE14 region (Santiviago et al., 2010). Obě tyto oblasti jsou spojeny s proroky, což naznačuje, že tyto oblasti jsou integrovány do genomu společného předka globálního Enteritidis clade a byly odvozeny z horizontálního přenosu genů.

Další metody pro predikci sérovaru in silico jsou implementovány v SeqSero (Zhang et al ., 2015) a SISTR (Yoshida et al., 2016). Obě tyto metody zkoumat genomové regiony odpovědné za povrchové antigeny, zatímco SISTR také implementuje cgMLST schéma zkoumat celkové genetické příbuznosti. Kromě toho mohou být tradiční 7 genové MLST a eBURST skupiny odvozené z něj také použity pro stanovení sérovaru v silico (Achtman et al ., 2012; Ashton a kol., 2016; Robertson a kol., 2018). SISTR i SeqSero poskytují vyšší diskriminační sílu než tradiční identifikace sérovaru (Yachison et al ., 2017). Mají však řadu nevýhod, jako jsou k nerozeznání sérovary mají stejnou antigenní formule nebo antigenní determinanty nejsou vyjádřeny (Robertson et al., 2018). V současné studii jsme zkoumali v predikci sérovaru silico screeningem genomů proti sadě 131 sérovar specifických genových markerů. Přístup za předpokladu, sérovar předpověď dávat „přítomnost nebo nepřítomnost“ jednotlivých sérovar gen specifický marker nebo kombinace genových markerů v dotazu izolovat. Ukázali jsme, že sérovar-specifické genové markery mají srovnatelnou přesnost s jinými in silico sérotypizace metody s 91,5% izolátů od počáteční identifikace údajů a 84.8% izolátů z validace údajů přiřazeny do správné sérovar (bez FN a FP). 10.5% izolátů z validační datové sady lze přiřadit k malé podskupině serovarů obsahujících správný sérovar (s různým FP). Specifičnost pro in silico sérovar předpověď přístup sérovar-specifické genové markery 95,3%, mírně vyšší než SISTR (95%) a SeqSero (82.8%) ve stejném souboru dat, které jsme testovali. Tento výsledek byl podobný zvláštnostem SISTR a SeqSero, které uvedli Yachison et al. (2017), které činily 94,8 a 88,2%.

naše metoda založená na genových markerech specifických pro sérovar nevyžaduje přesné vyšetření shluků genů O antigenu nebo variací sekvencí genů H antigenu, což může být problematické. Naše metoda také zmírňuje potřebu sestavení celé genové nebo genomové sekvence, což je nezbytné v metodách založených na MLST nebo cgMLST. Proto, tento přístup může být užitečný pro případy, kdy je k dispozici velmi málo sekvencí, jako je metagenomika nebo psaní bez kultury, jakož i poskytnutí třetí alternativy k potvrzení jiných analýz.

identifikace sady genových markerů schopni jednoznačně identifikovat převládající sérovarů v regionu může být také užitečné ve vývoji molekulární testy. Tyto testy by byly užitečné při sérotypizaci izolátů, kde kultury již nejsou získávány, a tradiční sérotypizace je proto nemožná. Například by mohla být navržena sada PCR testů, která by umožnila citlivou detekci specifických genových markerů, a proto umožnila predikci sérovaru z klinického vzorku. Navíc, tím, že eliminuje potřebu odhalit sérovarů, které jsou velmi vzácně pozorovány v regionu počet těchto genových markerů nutné ke zjištění všech významných sérovarů v regionu, může být významně snížena, což umožňuje nákladově efektivní test.

Závěr

V této studii jsme identifikovali kandidáta sérovar-specifické genové markery a kandidát lineage-specifické genové markery pro 106 sérovarů tím, charakterizující příslušenství genomů reprezentativního výběru 2258 kmeny jako potenciální markery pro in silico sérotypizace. Jsme účet pro polyphyletic a paraphyletic sérovarů poskytnout novou metodu, pomocí přítomnosti nebo absence těchto genových markerů, předvídat sérovar z izolátu z genomických dat. Genové markery identifikovány zde může být také použit k vytvoření sérotypizace testy v nepřítomnosti izolovaný kmen, který bude užitečné, jako diagnóza se pohybuje na kultuře nezávislých a metagenomic metody.

autorské příspěvky

MP a RL navrhly studii a poskytly kritickou revizi rukopisu. XZ a MP provedli bioinformatickou analýzu. XZ, MP a RL analyzovaly výsledky. XZ vypracoval rukopis.

financování

tato práce byla podpořena grantem Národní rady pro zdraví a lékařský výzkum.

Prohlášení o střetu zájmů

autoři prohlašují, že výzkum byl proveden bez jakýchkoli obchodních nebo finančních vztahů, které by mohly být vykládány jako potenciální střet zájmů.

doplňkový materiál

doplňkový materiál k tomuto článku naleznete online na adrese: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

OBRÁZEK S1 | SNP na základě fylogenetický strom postavené ParSNP ukazující evoluční vztahy v rámci a mezi sérovary pomocí 1344 reprezentativní izoláty včetně 1258 izolátů z 107 sérovarů zkoumané ve studii a 86 izolátů z sérovarů s méně než 5 rSTs, které jsou jinak vyloučeny ze studie.

tabulka S1 / konečný datový soubor 2258 vysoce kvalitních a konzistentních genomů predikce sérovarů představujících 107 serovarů.

tabulka s2 / celkem 414 kandidátních genů specifických pro sérovar, včetně 295 genů specifických pro sérovar a 119 genů specifických pro linii.

tabulka S3 / an dalších 1089 validačních izolátů s výsledky predikce sérovaru pomocí genových markerů specifických pro sistr, SeqSero a sérovar.

tabulka S4 / minimálně 131 genů pro identifikaci 106 serovarů.

tabulka S5 / sada 65 genů pro identifikaci 46 běžných serovarů.

údaje S1 / sekvence 131 sérovar-specifických genových markerů.

zkratka

FN, falešně negativní; FP, falešně pozitivní; FPR, falešně pozitivní míra; MLST, multi-locus sequence typing; NEPSS, Národní Střevními Patogeny Dozor; PPV, pozitivní prediktivní hodnota; rSTs, ribozomální MLST STs; SISTR, Salmonella in silico psaní zdroj, TN, pravda, negativy; TNR, pravda, negativní sazby; TP, skutečné pozitiva; TPR, pravda, pozitivní kurz.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). Genomický přehled populační struktury salmonel. PLoS Genet. 14: e1007261. doi: 10.1371 / deník.pgene.1007261

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Allard, M. W., Luo, Y., Kmen, E., Pettengilla, J., Timme, R., Wang, C., et al. (2013). O evoluční historii, populační genetice a rozmanitosti mezi izoláty Salmonella Enteritidis PFGE vzor JEGX01. 0004. PLoS One 8: e55254. doi: 10.1371 / deník.pone.0055254

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: lepší a rychlejší verze nástroje pro vyhledávání phast phage. Nukleové Kyseliny Rez.44, W16–W21. doi: 10.1093/nar/gkw387

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Balík, J. a., Powell, D. G., Painset, A., et al. (2016). Identifikace salmonel pro dohled nad veřejným zdravím pomocí sekvenování celého genomu. PeerJ 4: e1752. doi: 10.7717/peerj.1752

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Azizi, R. K., Bartels, D., Best, a. a., DeJongh, M., Disz, T., Edwards, R. a., et al. (2008). Rast Server: rychlé anotace pomocí subsystémové technologie. BMC Genomics 9: 75. doi: 10.1186/1471-2164-9-75

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevič, a. a., Dvorkin, m., Kulikov, A. S., et al. (2012). SPAdes: nový algoritmus sestavení genomu a jeho aplikace pro sekvenování jednotlivých buněk. J. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Biskup, A. L., Baker, S., Jenks, a. S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Analýza hypervariabilní oblasti genomu Salmonella enterica spojené s tRNAleuX. J. Bacteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Sekvenování genomu odhaluje diverzifikaci obsahu faktoru virulence a možnou adaptaci hostitele v odlišných subpopulacích Salmonella enterica. BMC Genomics 12: 425. doi: 10.1186/1471-2164-12-425

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Deng, X, Desai, P. T., den Bakker, H. C., Mikoleit, M., Tolar, B., Stromy, E., et al. (2014). Genomická epidemiologie Salmonella enterica sérotyp Enteritidis na základě populační struktury převládajících linií. Emergu. Infikovat. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, perličkové suspenzní pole pro molekulární stanovení běžných séroskupin salmonel. J. Clin. Mikrobiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Graham, R. M., Hiley, L., Rathnayake, I. U., a Jennison, a. V. (2018). Srovnávací genomika identifikuje odlišné linie s. Enteritidis z Queenslandu, Austrálie. PLoS One 13: e0191042. doi: 10.1371 / deník.pone.0191042

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Vývoj DNA microarray pro molekulární identifikaci všech 46 séroskupin Salmonella O. AEM 79, 3392-3399. doi: 10.1128/AEM.00225-13

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Gurevič, A., Saveliev, V., Vyahhi, N., a Tesler, G. (2013). QUAST: nástroj pro hodnocení kvality sestav genomu. Bioinformatika 29, 1072-1075. doi: 10.1093/bioinformatika/btt086

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Hendriksenová, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, a. B., et al. (2011). Globální monitoring Salmonella sérovar distribuci od světové zdravotnické organizace globální alimentárních infekcí, síť, země, data bank: výsledky kvalita zajištěna laboratoří od roku 2001 do roku 2007. Potravinový Patogen. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, s. A., Lee, K.-M., An, B.-K., et al. (2011). Diferenciální identifikace Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum a Pullorum na bázi polymorfních oblastí glgc a speC genů. Veterinář. Mikrobiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Kingsley, R. a., a Bäumler, a. J. (2000). Adaptace hostitele a vznik infekčních onemocnění: paradigma salmonely. Molo. Mikrobiol. 36, 1006–1014. doi: 10.1046 / j. 1365-2958. 2000. 01907.x

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Laing, C. R., Whiteside, M. D., a Gannon, V. P. (2017). Pan-genomové analýzy druhu Salmonella enterica, a identifikace genomických markerů prediktivních pro druhy, poddruh, a sérovar. Před. Mikrobiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract | CrossRef Full Text/Google Scholar

Le Minor, L., and Bockemluhl, J. (1984). Suppl Madagascar no XXVII au Sch Madagascar de Kauffmann-White. Ann. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609(84)80042-3

CrossRef Full Text | Google Scholar

Le Minor, L., Popoff, m., and Bockenmehl, J. (1990). Dodatek z roku 1989 (n Madagascar 33) ke Kauffmann-White scheme. Res. Microbiol. 141, 1173-1177. doi: 10.1016/0923-2508(90)90090-D

CrossRef Plný Text | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F., a Pole, P. I. (2004). Sekvenování a srovnávací analýza flagellinových genů fliC, fljB a flpA ze salmonely. J. Clin. Mikrobiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, a. a., Márquez, I. G., Omidi, K., Papež, L., et al. (2017). Hodnocení multiplex PCR test pro určení sérovarů Salmonella enteritidis a typhimurium pomocí maloobchodní a jatka vzorky. J.Food Prot. 80, 295–301. doi: 10.4315/0362-028X.JLP-16-167,

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Stránku, a. J., Cummins, C. a., Hunt, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: rychlá analýza genomu prokaryote pan ve velkém měřítku. Bioinformatika 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Komplexní hodnocení kvality údajů o sekvenci celého genomu salmonely dostupných ve veřejných databázích sekvencí pomocí zdroje pro psaní Salmonella in silico (SISTR). Microb. Genomika doi: 10.1099 / mgen.0.000151 .

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Santiviago, C. a., Blondel, C. J., Quezada, C. P., Silva, C. a., Tobar, P. M., Porwollik, S., et al. (2010). Spontánní excize defektního prvku podobného profágu φSE14 specifického pro Salmonella enterica serovar Enteritidis. J. Bacteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformatika/btu153

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Timme, R. E., Pettengilla, J. B., Allard, M. W., Kmen, E., Barrangou, R., Wehnes, C., et al. (2013). Fylogenetická rozmanitost enterického patogenu Salmonella enterica subsp. enterica odvozená z genomových znaků SNP bez referencí. Genom Biol. Evol. 5, 2109–2123. doi: 10.1093/gbe/evt159

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S., a Phillippy, A. M. (2014). Harvest suite pro rychlé zarovnání jádra a genomu a vizualizaci tisíců intraspecifických mikrobiálních genomů. Genom Biol. 15:524. doi: 10.1186/s13059-014-0524-x

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Vernikos, G. S., Thomson, N. R., a Parkhill, J. (2007). Genetický tok v průběhu času v linii salmonel. Genom Biol. 8: 100. doi: 10.1186/gb-2007-8-6-r100

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Wattiau, P., Boland, C., a Bertrand, S. (2011). Metodiky pro subtyp Salmonella enterica ssp enterica: zlaté standardy a alternativy. Appl. Environ. Mikrobiol. 77, 7877–7885. doi: 10.1128/AEM.05527-11

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Wattiau, P., Van Hessche, M., Atlanta, C., van der Veken, H., a Imberechts, H. J. (2008). Srovnání klasické sérotypizace a předběžného testu pro rutinní identifikaci běžných serovarů Salmonella enterica. J. Clin. Mikrobiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Yachison, C. a., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., et al. (2017). Validace a důsledky použití sekvenování celého genomu jako náhrady za tradiční sérotypizaci pro národní referenční laboratoř pro salmonely. Před. Mikrobiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, v. P., Nash, J. H., et al. (2016). Salmonella in silico typing resource (SISTR): otevřený webový nástroj pro rychlé psaní a podtypování sestav genomu salmonel. PLoS One 11: e0147101. doi: 10.1371 / deník.pone.0147101

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Zhang, S., Yin, Y., Jones, M. B., Zhang, Z., Kaiser, B. L. D., Dinsmore, B. a., et al. (2015). Stanovení sérotypu salmonely s využitím vysoce výkonných údajů o sekvenování genomu. J. Clin. Mikrobiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Zou, Q-H, Li, R.-Q., Liu, G.-R., a Liu, S.-L. (2016). Genotypizace salmonel s geny specifickými pro linii: korelace se sérotypizací. Int. J. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

PubMed Abstraktní | CrossRef Plný Text | Google Scholar

Zou, Q-H, Li, R.-Q., Wang, Y.-J., a Liu, S.-L. (2013). Identifikace genů pro diferenciaci blízce příbuzných linií salmonel. PLoS One 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar