Articles

frontiere în Microbiologie

Introducere

Salmonella provoacă salmoneloză umană și infecții ale animalelor cu sânge cald (Kingsley și B-X. O. C., 2000). Genul Salmonella este împărțit în două specii, S. enterica și S. bongori. serotipizarea clasifică în continuare Salmonella în peste 2.600 de serotipuri (serovari) prin reacția de aglutinare a antiserurilor la trei antigene de suprafață o, H1 și H2 (le Minor și Bockem Oluxhl, 1984; le Minor și colab., 1990). Există 46 O antigeni, care identifică serogrupul. Împreună cu 119 antigene de flagelină H1 și H2, combinațiile O, H1 și H2 identifică serovarii. Doar o mică parte din serovari sunt responsabili pentru majoritatea infecțiilor cu Salmonella umană (Popoff și colab., 2004).

Serotiparea prin aglutinare antigenică este înlocuită cu serotiparea moleculară (Cai și colab., 2005; Wattiau și colab., 2011). Acest lucru poate fi realizat prin examinarea secvenței clusterului de gene antigen o, a genei de codificare a antigenului h1 fliC și a genei de codificare a antigenului H2 fljB (Fitzgerald și colab., 2007). O grupurile de gene antigenice pot fi diferențiate prin prezența sau absența genelor, în timp ce antigenele H1 și H2 sunt diferențiate prin variația secvenței (McQuiston și colab., 2004; Guo și colab., 2013; Zhang și colab., 2015). Serotipurile de Salmonella pot fi, de asemenea, deduse prin MLST (Wattiau și colab., 2011; Achtman și colab., 2012) ca serotip poate fi dedus prin tipurile sale de secvențe. Cu toate acestea, o condiție prealabilă pentru această abordare este aceea că este necesară cunoașterea prealabilă a relației corespunzătoare a serovarului cu tipul de secvență.

recent, odată cu dezvoltarea comparației bazate pe secvența întregului genom, mai multe studii au identificat markerii genomici ca o metodă moleculară alternativă pentru serotipare. Zou și colab. (2016) au identificat șapte gene care oferă o rezoluție suficientă pentru a diferenția 309 tulpini de Salmonella reprezentând 26 de serovari și au găsit gene specifice serovarilor în 13 din 26 de serovari. Laing și colab. (2017) au identificat fragmente genomice specifice speciilor și subspeciilor Salmonella prin analiza pan-genomului. Aceste gene specifice sau fragmente de ADN au fost utilizate ca ținte moleculare pentru a dezvolta teste moleculare multiple pentru identificarea și detectarea rapidă a salmonelei la nivel de specie și serovar. Cu toate acestea, aceste gene specifice sau fragmente de ADN sunt limitate în capacitatea lor discriminatorie datorită capacității lor de a distinge doar un număr mai mic de serovari.

în acest studiu, ne-am propus să folosim colecția extinsă disponibilă publicului de genomi de Salmonella pentru a identifica markerii genici specifici serovarilor pentru cei mai frecvenți serovari de Salmonella. Prezentăm potențialul acestor markeri genici specifici serovari ca markeri pentru serotipizarea moleculară fie în silico typing de date genomice, fie pentru dezvoltarea metodelor de diagnostic de laborator.

materiale și metode

selectarea izolatului ribozomal MLST ST

baza de date Salmonella în Enterobază (Alikhan și colab., 2018) din martie 2018 a fost interogat și au fost examinate 118997 izolate. Izolatele reprezentative pentru fiecare rSTs au fost selectate și extrase printr-un script python intern. Numai serovarii cu mai mult de patru rst au fost incluși în acest studiu. Pentru cele mai mari 20 de serovari, izolatele reprezentative au fost selectate aleatoriu doar din rst cu două sau mai multe izolate. Pentru serovarii rămași, un izolat reprezentativ pentru fiecare prim a fost selectat aleatoriu. Citirile brute pentru aceste izolate au fost preluate din Ena (European Nucleotide Archive1) și au fost asamblate de novo folosind asamblorul SPAdes v3.10.1 cu setări implicite2 (Bankevich și colab., 2012). Serovarul genomilor asamblați a fost prezis de SISTR (Yoshida și colab., 2016) după ce au îndeplinit următoarele criterii care au fost definite de Robertson și colab. (2018) folosind QUAST3 (Gurevich și colab., 2013): dimensiunea ansamblului între 4 și 6 Mb cu numărul de contiguri mai mic de 500, cel mai mare contig mai mare de 100 kb, conținutul GC între 50 și 54%, gena prezisă de licărire în QUAST mai mult de 3000. Concordanța dintre predicțiile SEROVARE SISTR rezultate și serovarul raportat pe înregistrarea metadatelor Enterobase a fost examinată și un număr mic de genomi au fost eliminați din analiză din cauza predicțiilor serovare inconsistente. Setul final de date a constat din 2258 genomi de înaltă calitate, cu predicție serovară consecventă reprezentând 107 serovari (tabelul suplimentar S1).

identificarea markerilor genei Candidate specifici Salmonella Serovar

pentru a determina potențialii markeri genici specifici serovarilor pentru 107 serovari, cele 2258 genomuri au fost adnotate folosind PROKKA (Seemann, 2014). Pan-genomul și genomul de bază au fost analizate de roary (Page și colab., 2015) folosind un prag de identitate de secvență de 80%. Genele specifice fiecărui serovar au fost identificate din genele accesorii ale pan-genomului cu un script python intern. În acest studiu, numărul de genomi dintr-un serovar dat care conține o genă specifică pentru acel serovar a fost denumit adevărat pozitiv (TP), numărul de genomi din același serovar lipsit de aceeași genă a fost denumit fals negativ (FN). Numărul de genomi din alte serovare care conțin aceeași genă specifică serovarului a fost denumit fals positve (FP). Cutoffs relaxate (20% FN, 10% FP) au fost utilizate inițial pentru a se asigura că toți serovarii aveau gene specifice candidatului care ar putea fi investigate în continuare. Genele paraloge au fost eliminate din analize.

evaluarea potențialilor markeri Genici serovari specifici

scorul F1 a fost utilizat pentru selectarea inițială a markerilor genici serovari specifici potențiali. Scorul F1 a fost evaluat pe baza formulei: 2 (sensibilitatea PPV-ului)/(sensibilitatea PPV+), unde PPV a fost definit ca TP/(TP+FP) și sensibilitatea a fost definită ca TP/(TP+FN). F1 variază de la 0 la 1, unde 1 înseamnă gena specifică serovarului care a fost prezentă în toate genomii unui serovar dat și absentă în toate genomii altor serovari. Markerii genei specifice serovarului au fost selectați utilizând gena cea mai performantă pentru fiecare serovar pe baza scorului F1. Specificitatea definită ca TN / (TN+FP) a fost utilizată pentru a evalua rata reală negativă (TN) a markerilor genici serovari specifici. Rata fals pozitivă (FPR) a fost definită de 1 – TNR.

analize filogenetice

pentru a determina cauzele fals negativ și FPRs observate în markerii genici specifici serovarilor candidați, au fost investigate relațiile filogenetice ale serovarilor implicați. Ansamblurile de tiraj de 1258 de izolate au fost utilizate pentru a genera arbori filogenetici folosind parsnp v1 .24 (Treangen și colab., 2014) cu parametrii impliciți pentru a determina filogenia dintre și în serovari. Arborele a fost vizualizat de FigTree v1.4.3 (Schneider și colab., 2000).

localizarea și funcțiile markerilor Genici specifici Serovarilor

genomii compleți reprezentativi pentru fiecare serovar care conține caracteristici genetice au fost descărcați de la NCBI5 și au fost utilizați pentru a determina locația fiecărei gene specifice serovarului candidat prin BLASTN cu setări implicite (versiunea 2.2.6, Tabelul Suplimentar S2). La serovari fără genom complet reprezentativ a fost selectat un genom reprezentativ din izolatele asamblate în acest studiu. Secvențele markerilor genici specifici serovari sunt incluse în datele suplimentare S1. Gruparea genelor de-a lungul genomului a fost utilizată pentru a investiga dacă markerii genei specifice serovarului au fost potențial parte a unui singur element câștigat de un serovar într-un singur eveniment. Markerii genici specifici serovarului candidat au fost considerați ca un cluster dacă au fost localizați la mai puțin de 5 kb unul de celălalt.

categoriile funcționale ale markerilor genici au fost identificate din adnotarea RAST6 (Aziz și colab., 2008). Secvențele de profage din genomii de referință ai serovarilor au fost identificate folosind faster pentru a indica dacă markerii genici specifici serovarilor ar fi putut fi Dobândiți împreună cu profagii (PHAge Search Tool Enhanced Release) (Arndt și colab., 2016).

Predicția serotipului in silico folosind markeri Genici specifici serovari

au fost selectate 1089 de izolate suplimentare din Enterobază folosind un script python intern, cu excluderea a 2258 de izolate utilizate pentru screeningul inițial din aceeași bază de date din martie 2018 (Tabelul suplimentar S3). BLASTN a fost folosit pentru a căuta împotriva celor 1089 genomi aparținând A 106 serovari de Salmonella pentru prezența oricăruia dintre markerii genei specifice serovarului. Scripturile python personalizate au fost apoi folosite pentru a prezice serovarul din aceste sarcini serovare pe baza modelului cunoscut de prezență a genei pentru fiecare serovar. TP a fost clasificat ca numărul total de serovare atribuite corect și cazurile în care a fost apelat serovarul corect, precum și unul sau mai multe FP. Atribuirea eșuată a fost definită acolo unde nu au fost chemați serovari sau serovari incorecți. Predicțiile serovare au fost comparate cu SeqSero (Zhang și colab., 2015) și predicții SISTR.

calculul specificității markerilor Genici specifici Serovarului candidat pentru Serovarii comuni

specificitatea ratei de tastare pentru serovarii comuni (Hendriksen și colab., 2011) a fost egal cu (1 – Rata de eroare potențială). Rata potențială de eroare a markerilor genici specifici serovarului definită prin formula: (numărul de FPs) (frecvența serovarului respectiv într-o anumită regiune)/(totalul genomilor serovarului respectiv).

rezultate

identificarea markerilor Genici specifici Serovarilor candidați

genele accesorii din 2258 genomi reprezentând 107 serovari au fost analizate pentru a identifica markeri genici specifici serovari potențiali. Acest screening inițial a identificat 354 potențiali markeri genici specifici serovarilor în cadrul a 101 serovari. Șase serovari și anume, Bareilly, Bovismorbificans, Thompson, Reading, Typhi și Saintpaul nu aveau markeri genici specifici serovarului candidat care să fie prezenți în toate liniile unui serovar dat. Specificitatea (TNR) și sensibilitatea (TPR) a celor 354 markeri genici specifici serovari candidați au fost, de asemenea, examinați și rezumați în Figura 1. Patruzeci de serovari conțineau 194 de markeri genici specifici serovarilor cu specificitate și sensibilitate 100% (fără FN sau FP), în timp ce 31 de serovari conțineau 80 de markeri genici specifici serovarilor candidați cu sensibilitate 100%, dar cu specificitate mai mică de 100% (FP variat). Nouă serovari conțineau 27 de markeri genici specifici serovarilor candidați cu specificitate 100%, dar cu sensibilitate mai mică de 100% (FN variat). Restul de 21 de serovari conțineau 53 de markeri genici specifici serovarilor candidați, atât cu specificitate, cât și cu sensibilitate mai mică de 100% (Fn și FP variate).

figura 1
www.frontiersin.org

Figura 1. Distribuția sensibilității și specificității a 354 potențiali markeri genici serovari specifici. TPR, rata reală pozitivă; FPR, rata falsă pozitivă. Unde este afișat un gradient de la albastru deschis (procent redus) la albastru închis (procent ridicat).

am construit un arbore filogenetic folosind 1258 izolate reprezentative din 107 serovari folosind ParSNP (figura suplimentară S1). Cele 1258 de izolate au fost selectate pe baza relațiilor filogenetice ale celor 2258 izolate inițiale din care am selectat izolate pentru a reprezenta fiecare linie independentă. Am constatat că membrii fiecăruia dintre cei 82 de serovari au format o descendență monofiletică, în timp ce 24 de serovari au fost polifiletici, fiecare format din 2 până la 4 descendențe. Mai multe dintre aceste serovare sunt cunoscute a fi polifiletice și este puțin probabil să conțină markeri genici specifici serovarilor (Falush și colab., 2006; den Bakker și colab., 2011; Achtman și colab., 2012; Timme și colab., 2013). Serovar Enteritidis este parafiletic cu alte trei serovari (Dublin, Berta, și Gallinarium) care rezultă din interiorul Cladei Enteritidis mai mari, care este ea însăși alcătuită din trei linii cunoscute sub numele de clada A, B și C (Graham și colab., 2018). Cei cinci markeri genici candidati specifici Enteritidis au fost negativi pentru izolatele Enteritidis care s-au grupat separat pe copac.

interesant pentru patru serovari polifiletici, Bredeney, Kottbus, Livingstone și Virchow, fiecare avea o genă specifică serovarului candidat care era prezentă în toate izolatele acelui serovar. Pentru restul de 20 de serovari polifiletici și Enteritidis serovar parafiletic, am căutat markeri genici specifici liniei, deoarece fiecare serovar conținea mai multe linii. Dacă toate descendențele conțineau cel puțin o genă specifică liniei, considerăm că serovarul conține markeri genici specifici serovarului. Un total de 111 markeri genici potențiali specifici liniei au fost identificați pentru 19 serovari polifiletici și Enteritidis serovar parafiletic, dintre care 27 markeri genici specifici liniei au fost identificați pentru 5 serovari cu specificitate și sensibilitate 100% (fără FN și FP), 76 markeri genici specifici liniei candidate pentru 14 serovari cu sensibilitate 100% și specificitate mai mică de 100% (FP variat) și Enteritidis conținând 6 markeri genici specifici liniei Fn și FP (tabelul 1).

tabelul 1
www.frontiersin.org

Tabelul 1. Markeri genici specifici genei candidate pentru serovari polifiletici și serovari parafiletici.

pentru cei 11 din cei 82 de serovari monofiletici care nu aveau markeri genici specifici serovari din cauza FN, am constatat că FN s-a datorat adesea izolatelor care sunt grupate pe o ramură și divergente mai devreme de celelalte izolate. Pentru astfel de grupuri, am căutat markeri genici specifici liniei. Prin urmare, doi sau mai mulți markeri genici pot fi utilizați pentru a identifica un serovar și astfel de serovari au fost, de asemenea, considerați că conțin markeri genici specifici serovarilor, similari cu serovarii polifiletici. Trei serovari, Paratyphi A, Heidelberg și Muenchen ar putea fi identificați prin markerii genei specifici liniei combinate.

Un total de 414 markeri genici specifici serovarilor candidați, inclusiv 295 markeri genici specifici serovarilor și 119 markeri genici specifici liniei sunt rezumați în tabelul suplimentar s2. În total, 106 din 107 serovari conțineau unul sau mai mulți markeri genici, 33 serovari conțineau o genă specifică, în timp ce 73 conțineau doi sau mai mulți markeri genici. Nu au fost găsiți markeri genici specifici serovarilor candidați pentru Tifi monofiletici și nu s-au găsit markeri genici specifici descendenței pentru linia III din Stanleyville care conținea un singur izolat.

categorii funcționale de markeri Genici specifici Serovarilor

caracterizarea funcțională a tuturor celor 414 markeri genici identificați pentru cei 106 serovari folosind RAST a constatat că 197 aveau funcții cunoscute și 217 proteine ipotetice codificate cu funcții necunoscute. Doar 46 de gene cu adnotări pot fi grupate în categorii funcționale, în timp ce 151 de gene cu funcții nu au fost în categorii funcționale RAST (Tabelul 2). Folosind PHASTER. 45 de markeri genici specifici serovarilor candidați au fost localizați în profagele prezise.

tabelul 2
www.frontiersin.org

Tabelul 2. Serovar-gene specifice categorii funcționale.

un Set minim de markeri Genici specifici serovari pentru Serotiparea moleculară in silico

pentru mulți serovari, au fost identificați markeri genici specifici serovari multipli candidați sau markeri genici specifici liniei. În aceste cazuri, a fost selectată o singură genă care are cele mai mici rate de FN și FP. Un minim de 131 de markeri genici permite identificarea serovarilor cu rate de eroare de la 0 la 8,33%. Distribuția markerilor genici pe toți cei 106 serovari demonstrează un grad ridicat de specificitate, așa cum se arată în Figura 2, în care diagonala afișează relația unu la unu a serovarului sau descendenței cu markeri genici specifici serovarilor, în timp ce spațiul off-diagonal a arătat o prezență împrăștiată rară a acestor gene în alte serovare cu procente variate care indică un FPR scăzut. Detaliile acestor markeri genici au fost enumerate în tabelul suplimentar S4. În general, 45 de serovari se pot distinge prin gena lor specifică serovarului respectiv, iar 61 de serovari pot fi diferențiați printr-o combinație de markeri genici.

figura 2
www.frontiersin.org

Figura 2. Distribuția unui set minim de 131 de gene specifice serovarilor în 106 serovari. Axa Y prezintă markeri genici serovari sau specifici liniei, iar axa X prezintă serovari sau linii. Detaliile au fost enumerate în tabelul suplimentar S4. Gray a indicat zero genomi care conțin o genă (TN). Perechile genă / genom de-a lungul diagonalei reprezintă genomi care conțin markeri genici specifici serovarului care se potrivesc cu serovarul lor (TP). Roșul reprezintă gene care sunt prezente în 100% din genomi pentru un anumit serovar sau descendență. În cazul în care o genă este prezentă în mai puțin de 100% dintr-un serovar, este afișat un gradient de la albastru deschis (procent scăzut) la albastru închis (procent ridicat). Perechile albastre de-a lungul diagonalei reprezintă prezența FN. Perechile care sunt albastre sau roșii în afara diagonalei reprezintă perechi care conțin gene care nu se potrivesc cu serovarul prezis al genomului (FP).

am testat încă 1089 de genomi aparținând a 106 serovari de Salmonella non-tifoidali pentru a evalua capacitatea celor 131 de markeri genici specifici de a atribui corect serovarii izolatelor. Folosind markerii genici specifici serovari, 1038 din cele 1089 izolate (95,3%) au fost atribuite cu succes și 51 au eșuat (4,7%). Pentru SISTR și SeqSero, numărul de alocări serovare concordante a fost de 1037 (95%) și, respectiv, 905 (82,8%) (tabelul suplimentar S3).

markeri Genici specifici Serovarilor pentru Serotipizarea Serovarilor comuni

primele 20 de serovari care provoacă infecții umane găsite pe fiecare continent (Hendriksen și colab., 2011) au fost prăbușite într-o listă combinată de 46 de serovari (tabelul suplimentar S5). Deoarece aceste serovare conțineau marea majoritate a izolatelor care provoacă infecții umane la nivel global, le considerăm separat pentru a evalua utilitatea markerilor genici specifici serovarului candidat pentru serotipizarea serovarelor cele mai răspândite într-un cadru local. Când au fost luați în considerare numai acești serovari, 18 din 46 ar putea fi identificați în mod unic de unul dintre markerii genei specifice serovarului. Pentru a crește acuratețea tastării în restul de 28 de serovari obișnuiți în care markerii genici specifici serovarilor au FPR-uri variate, am examinat folosind subseturi ale celor 131 markeri genici (variind de la 2 la 9 gene per serovar) pentru a elimina potențialul FP. De exemplu, combinația dintre gena specifică Choleraesuis și gena specifică liniei Cerro-i poate elimina izolatul fals pozitiv al Cerro din Choleraesuis, dacă ambele gene sunt pozitive, izolatul ar putea fi atribuit Cerro în timp ce dacă gena specifică liniei Cerro-i este negativă, izolatul este Choleraesuis.

pentru a estima erorile potențiale la tastare, am luat în considerare frecvența celor 46 de serovari comuni care au arătat diferențe mari între regiuni (Hendriksen și colab., 2011). Prin urmare, pot fi utilizate diferite combinații de gene pentru a limita în mod specific rezultatele fals pozitive din serovarii prezenți în acea regiune. Într-o anumită regiune, specificitatea markerilor genici specifici serovarului candidat comun a fost calculată folosind rata FP și frecvența serovarului fals pozitiv în acea regiune. Specificitatea markerilor genici specifici serovarului candidat a fost, de asemenea, calculată utilizând rata FP (tabelul suplimentar S4). De exemplu, un grup de 15 gene ar putea fi utilizat pentru tastarea celor mai frecvente 10 serovari din Australia (NEPSS 2010) (Tabelul 3). Când au fost luate în considerare frecvențele regionale australiene, genele enumerate în tabelul 3 pot fi utilizate ca markeri pentru tastarea pe bază de laborator, iar rata de eroare va fi mai mică de 2,4%.

tabelul 3
www.frontiersin.org

Tabelul 3. Un grup de gene specifice serovarilor pentru tastarea celor mai frecvente zece serovari din Australia.

discuție

Serotiparea salmonelei a fost vitală pentru diagnostic și supraveghere. Predicția serovară prin serotipare tradițională poate fi limitată de lipsa expresiei antigenului de suprafață sau a proprietăților de autoaglutinare (Wattiau și colab., 2008). Recent, odată cu dezvoltarea tehnologiei de secvențiere a genomului întreg, regiunile genomice relevante ale clusterului de gene rfb pentru antigenul o, gena Flic și gena fljb pentru antigenele H și genele vizate de MLST pot fi extrase și utilizate pentru identificarea serovară. Mai multe studii au identificat gene specifice serovarului sau fragmente de ADN pentru serotipare prin comparație genomică bazată pe secvențierea întregului genom (Zou și colab., 2013, 2016; Laing și colab., 2017). Cu toate acestea, aceste gene specifice serovarului sau fragmente de ADN au distins doar un număr mic de serovari. În acest studiu, am identificat 414 markeri genici specifici serovari sau specifici liniei pentru 106 serovari care includ 24 serovari polifiletici și enteritidis serovar parafiletic. Un subset al acestor markeri genici au fost validați de genomi independenți și au fost capabili să atribuie serovari corect în 95,3% din cazuri.analiza de mai sus a fost complicată de prezența serovarilor polifiletici, care apar independent de strămoșii separați pentru a forma linii separate. Prin urmare, a fost necesară o combinație de markeri genici specifici liniei pentru identificarea clară a majorității serovarilor polifiletici. Interesant este că patru serovari polifiletici, Bredeney, Kottbus, Livingstone și Virchow, au avut fiecare un marker genetic specific serovarului candidat, care era prezent în toate izolatele acelui serovar. S-a prezis că gena specifică serovarului Bredeney va codifica o translocază implicată în conversia antigenului O și ar fi putut fi obținută în paralel. Genele specifice serovarului celorlalte trei serovare polifiletice codifică proteine ipotetice cu funcție necunoscută și fără explicații aparente pentru prezența lor în diferite linii ale aceluiași serovar.spre deosebire de serovarele polifiletice, cele trei linii (clada A, B și C) ale serovarului parafiletic Enteritidis au un strămoș comun recent. Clada a și C sunt ancestrale Cladei B. studiile anterioare au descris că Enteritidis a fost grupat cu serovari Dublin, Berta, și Gallinarium care a fost numit „secțiunea Enteritidis” (Vernikos și colab., 2007; Achtman și colab., 2012; Allard și colab., 2013; Timme și colab., 2013). Un alt studiu a arătat că serovar Nitra a fost încorporat în liniile Enteritidis prin utilizarea filogeniei genomului întreg (Deng și colab., 2014). De asemenea, a existat reactivitate încrucișată între Enteritidis și Nitra conform studiului lui Ogunremi (Ogunremi și colab., 2017). În studiul nostru, am selectat izolatele pe baza rst – urilor, Nitra nu a fost prezentă în baza de date rMLST Enterobază la începutul acestui studiu și deci nu a fost inclusă în acest studiu. Gallinarium se distinge de Enteritidis folosind prezența unei deleții de 4 bp în gena speC (Kang și colab., 2011). Am observat că strămoșii comuni ai serovarilor Dublin, Berta și Gallinarium au apărut dintr-un strămoș între Cladele B și A/C. Deși Dublin poate fi identificat separat, nu putem distinge Berta sau Gallinarium de Enteritidis clade A/C. Aceste rezultate evidențiază o limitare a abordării, deoarece serovarii trebuie să fie suficient de Divergenți încât să difere cu cel puțin o genă unică. În mod similar, au existat alți 8 serovari care nu se distingeau probabil din cauza strămoșilor foarte recenți, cu o mică achiziție de gene.

markerii genei candidate specifice Serovarului sau markerii genei candidate specifice liniei în 69 Din 106 serovari au fost contigue în genom cu funcții similare grupate împreună (datele nu sunt prezentate). Acest lucru sugerează că acești markeri genici ar fi putut fi încorporați în genomul serovar împreună prin transferul orizontal de gene. Într-adevăr, cei șapte markeri genici specifici Typhimurium identificați în acest studiu (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497 și STM4498) au fost localizați în Typhimurium tRNAleuX integrând Regiunea legată de elemente conjugative, inclusiv genele de la STM4488 la STM4498, care este un hotspot de transfer orizontal de gene cunoscut (Bishop și colab., 2005). În mod similar, cinci markeri genici specifici Enteritidis identificați (SEN1379, SEN1380, SEN1382, SEN1383 și SEN1383) au fost localizați în regiunea DST I (Agron și colab., 2001) și regiunea gei/xvse14 asemănătoare profagiei (Santiviago și colab., 2010). Ambele regiuni sunt legate de profage, ceea ce sugerează că aceste regiuni s-au integrat în genomul unui strămoș comun al Cladei globale Enteritidis și au fost derivate din transferul orizontal de gene.

alte metode de predicție serovară in silico sunt implementate în SeqSero (Zhang și colab., 2015) și SISTR (Yoshida și colab., 2016). Ambele metode examinează regiunile genomice responsabile de antigenele de suprafață, în timp ce SISTR implementează, de asemenea, o schemă cgMLST pentru a examina legătura genetică generală. În plus, grupurile tradiționale de 7 gene MLST și eBURST derivate din acesta pot fi utilizate și pentru determinarea serovarului in silico (Achtman și colab., 2012; Ashton și colab., 2016; Robertson și colab., 2018). Atât SISTR, cât și SeqSero oferă o putere discriminatorie mai mare decât identificarea tradițională serovară (Yachison și colab., 2017). Cu toate acestea, au o serie de dezavantaje, cum ar fi serovarii indistinguizabili care au aceeași formulă antigenică sau determinanții antigenici care nu sunt exprimați (Robertson și colab., 2018). În studiul actual, am examinat predicția serovară in silico prin screening-ul genomilor împotriva unui set de 131 de markeri genici specifici serovarilor. Abordarea a oferit predicție serovară prin obținerea „prezenței sau absenței” unui marker genic specific serovar individual sau a unei combinații de markeri genici într-un izolat de interogare. Arătăm că markerii genici specifici serovarilor au o precizie comparabilă cu alte metode de serotipare in silico cu 91,5% izolate din setul de date de identificare inițială și 84,8% izolate dintr-un set de date de validare atribuit serovarului corect (fără FN și FP). 10.5% din izolatele din setul de date de validare pot fi atribuite unui mic subset de serovari care conțin serovarul corect (cu FP variat). Specificitatea pentru abordarea de predicție serovară in silico prin markeri genici specifici serovari a fost de 95,3%, ușor mai mare decât SISTR (95%) și SeqSero (82,8%) în același set de date pe care l-am testat. Acest rezultat a fost similar cu particularitățile SISTR și SeqSero raportate de Yachison și colab. (2017) care au fost de 94,8 și, respectiv, 88,2%.

metoda noastră bazată pe markeri genici specifici serovari nu necesită examinarea exactă a grupurilor de gene ale antigenului o sau variația secvenței genelor antigenului H care poate fi problematică. Metoda noastră atenuează, de asemenea, necesitatea asamblării întregii gene sau a secvenței genomului, care este necesară în metodele bazate pe MLST sau cgMLST. Prin urmare, această abordare poate fi utilă pentru cazurile în care este disponibilă o secvență foarte mică, cum ar fi în metagenomică sau tastarea gratuită a culturii, precum și furnizarea unei a treia alternative pentru confirmarea altor analize.

identificarea unui set de markeri genici capabili să identifice în mod unic toate serovarele predominante dintr-o regiune poate fi, de asemenea, utilă în testele moleculare de dezvoltare. Aceste teste ar fi utile în izolatele de serotipare în care culturile nu mai sunt obținute și, prin urmare, serotiparea tradițională este imposibilă. De exemplu, ar putea fi proiectat un set de teste PCR care să permită detectarea sensibilă a markerilor genici specifici și, prin urmare, să permită predicția serovarului, dintr-un eșantion clinic. În plus, prin eliminarea necesității de a detecta serovari care sunt foarte rar observați într-o regiune, numărul acestor markeri genici necesari pentru detectarea tuturor serovarilor majori dintr-o regiune poate fi redus semnificativ, permițând o analiză mai rentabilă.

concluzie

în acest studiu am identificat markeri genici specifici serovarului candidat și markeri genetici specifici liniei candidate pentru 106 serovari prin caracterizarea genomului accesoriu al unei selecții reprezentative de 2258 tulpini ca markeri potențiali pentru serotipizarea in silico. Luăm în considerare serovarele polifiletice și parafiletice pentru a oferi o nouă metodă, folosind prezența sau absența acestor markeri genici, pentru a prezice serovarul unui izolat din datele genomice. Markerii genici identificați aici pot fi, de asemenea, utilizați pentru a dezvolta teste serotipice în absența unei tulpini izolate care va fi utilă pe măsură ce diagnosticul trece la metode independente de cultură și metagenomice.

contribuțiile autorului

MP și RL au conceput studiul și au oferit revizuirea critică a manuscrisului. XZ și MP au efectuat analiza bioinformatică. XZ, MP și RL au analizat rezultatele. XZ a redactat manuscrisul.

finanțare

această lucrare a fost susținută de un grant de proiect al Consiliului Național de sănătate și Cercetare Medicală.

Declarație privind conflictul de interese

autorii declară că cercetarea a fost realizată în absența oricăror relații comerciale sau financiare care ar putea fi interpretate ca un potențial conflict de interese.

material suplimentar

materialul suplimentar pentru acest articol poate fi găsit online la: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

figura S1 | arborele filogenetic bazat pe SNP construit de ParSNP care prezintă relațiile evolutive în interiorul și între serovari folosind 1344 izolate reprezentative, inclusiv 1258 izolate din 107 serovari examinați în studiu și 86 izolate din serovari cu mai puțin de 5 rst care altfel au fost excluse din studiu.

tabelul S1 / setul de date finale a 2258 de genomi de predicție serovari de înaltă calitate și consecvenți reprezentând 107 serovari.

tabelul S2 / un total de 414 gene specifice serovarului candidat, inclusiv 295 gene specifice serovarului și 119 gene specifice descendenței.

tabelul S3 / alte 1089 izolate de validare cu rezultate de predicție serovară prin markeri genici specifici SISTR, SeqSero și serovar.

tabelul S4 / un minim de 131 de gene pentru identificarea A 106 serovari.

tabelul S5 / un set de 65 de gene pentru identificarea a 46 de serovari comuni.

date S1 / secvențe de 131 markeri genici specifici serovari.

abreviere

FN, fals negative; FP, fals pozitive; FPR, rata fals pozitivă; MLST, tastarea secvenței multi-locus; NEPSS, Schema națională de Supraveghere a agenților patogeni Enteric; PPV, valoare predictivă pozitivă; rSTs, STS ribozomale mlst; SISTR, Salmonella in silico resursă de tastare; TN, true negative; TNR, true negative rate; TP, true positive; TPR, true positive rate.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). O prezentare generală genomică a structurii populației de Salmonella. PLoS Genet. 14: e1007261. doi: 10.1371/jurnal.pgen.1007261

PubMed Abstract | CrossRef Full Text/Google Scholar

Allard, M. W., Luo, Y., tulpina, E., Pettengill, J., Timme, R., Wang, C., și colab. (2013). Pe istoria evolutivă, genetica populației și diversitatea dintre izolatele de Salmonella Enteritidis PFGE model JEGX01. 0004. PLoS Unul 8: e55254. doi: 10.1371/jurnal.pone.0055254

PubMed Abstract | CrossRef Full Text/Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y. și colab. (2016). PHASTER: o versiune mai bună și mai rapidă a instrumentului de căutare phast phage. Acizi Nucleici Res. 44, W16-W21. doi: 10.1093/nar/gkw387

PubMed Abstract | CrossRef Full Text | Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Powell, D. G., Painset, A. și colab. (2016). Identificarea salmonelei pentru supravegherea sănătății publice utilizând secvențierea întregului genom. PeerJ 4: e1752. doi: 10.7717 / peerj.1752

PubMed Abstract | CrossRef Full Text/Google Scholar

Aziz, R. K., Bartels, D., Best, A. A., DeJongh, M., Disz, T., Edwards, R. A. și colab. (2008). Serverul RAST: adnotări rapide folosind tehnologia subsistemelor. Genomica BMC 9: 75. doi: 10.1186/1471-2164-9-75

PubMed Abstract | CrossRef Full Text | Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S. și colab. (2012). SPAdes: un nou algoritm de asamblare a genomului și aplicațiile sale la secvențierea cu o singură celulă. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract | CrossRef Full Text/Google Scholar

Bishop, A. L., Baker, S., Jenks, S., Fookes, M., Gaora, P. (2005). Analiza regiunii hipervariabile a genomului Salmonella enterica asociată cu tRNAleuX. J. Bacteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Secvențierea genomului relevă diversificarea conținutului factorului de virulență și posibila adaptare a gazdei în subpopulații distincte de Salmonella enterica. Genomica BMC 12: 425. doi: 10.1186 / 1471-2164-12-425

PubMed Abstract | CrossRef Full Text/Google Scholar

Deng, X., Desai, P. T., den Bakker, H. C., Mikoleit, M., Tolar, B., copaci, E., și colab. (2014). Epidemiologia genomică a serotipului Salmonella enterica Enteritidis se bazează pe structura populației de linii predominante. Emerg. Infecta. Dis. 20, 1481–1489. doi: 10.3201 / eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, matrice de suspensie pe bază de mărgele pentru determinarea moleculară a serogrupurilor comune de Salmonella. J. Clin. Microbiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed Abstract | CrossRef Full Text/Google Scholar

Graham, R. M., Hiley, L., Rathnayake, I. U. și Jennison, A. V. (2018). Genomica comparativă identifică linii distincte de S. Enteritidis din Queensland, Australia. PLoS Unul 13: e0191042. doi: 10.1371/jurnal.pone.0191042

PubMed Abstract | CrossRef Full Text/Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X. și colab. (2013). Dezvoltarea unui microarray ADN pentru identificarea moleculară a tuturor celor 46 de serogrupuri Salmonella O. AEM 79, 3392-3399. doi: 10.1128 / AEM.00225-13

PubMed Abstract | CrossRef Full Text/Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N. și Tesler, G. (2013). QUAST: instrument de evaluare a calității pentru ansamblurile genomului. Bioinformatica 29, 1072-1075. doi: 10.1093 / bioinformatică / btt086

PubMed Abstract | CrossRef Full Text/Google Scholar

Hendriksen, R. S., Vieira, A. R., Karlsmose, S., Lo, Fo Wong, D. M., Jensen, A. B. și colab. (2011). Monitorizarea globală a distribuției Salmonella serovar de la Organizația Mondială a sănătății rețeaua globală de infecții alimentare banca de date a țării: rezultatele laboratoarelor asigurate de calitate din 2001 până în 2007. Pathog Foodborne. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Abstract | CrossRef Full Text/Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K. și colab. (2011). Identificarea diferențială a Salmonella enterica subsp. enterica serovar Gallinarum biovars Gallinarum și Pullorum pe baza regiunilor polimorfe ale genelor glgC și speC. Veterinar. Microbiol. 147, 181–185. doi: 10.1016 / j. vetmic.2010.05.039

PubMed Abstract | CrossRef Full Text/Google Scholar

Kingsley, R. A., și B Inktumler, A. J. (2000). Adaptarea gazdei și apariția bolilor infecțioase: paradigma Salmonella. Mol. Microbiol. 36, 1006–1014. doi: 10.1046 / j. 1365-2958.2000. 01907.x

PubMed Abstract | CrossRef Full Text/Google Scholar

Laing, C. R., Whiteside, MD și Gannon, V. P. (2017). Analiza Pan-genomului speciei Salmonella enterica și identificarea markerilor genomici predictivi pentru specii, subspecii și serovari. În față. Microbiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract / CrossRef Full Text/Google Scholar

le Minor, L., și Bockem Unktihl, J. (1984). Suplimentul nr. Ann. Institutul Pasteur Microbiol. 135, 45-51. doi: 10.1016 / S0769-2609 (84)80042-3

CrossRef Full Text | Google Scholar

le Minor, L., Popoff, M., și Bockem Unktihl, J. (1990). Suplimentul din 1989 (N. 33) la schema Kauffmann-White. Microbiol. 141, 1173-1177. doi: 10.1016/0923-2508 (90)90090-D

CrossRef Full Text | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, F. și Fields, pi (2004). Secvențierea și analiza comparativă a genelor flagelinei fliC, fljB și flpA din Salmonella. J. Clin. Microbiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Abstract | CrossRef Full Text/Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., M Unustrquez, I. G., Omidi, K., Pope, L., și colab. (2017). Evaluarea unui test multiplex PCR pentru identificarea Salmonella serovars enteritidis și typhimurium utilizând probe de vânzare cu amănuntul și abator. J. Alimente Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

PubMed Abstract | CrossRef Full Text | Google Scholar

Page, A. J., Cummins, C. A., Hunt, M., Wong, V. K., Reuter, S., Holden, M. T., și colab. (2015). Roary: analiza rapidă a genomului Pan procariot la scară largă. Bioinformatica 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Evaluarea cuprinzătoare a calității datelor privind secvența genomului întreg de Salmonella disponibile în bazele de date publice de secvență utilizând resursa de tastare Salmonella in silico (SISTR). Microbul. Genomica doi: 10.1099 / mgen.0.000151 .

PubMed Abstract | CrossRef Full Text/Google Scholar

Santiviago, C. A., Blondel, C. J., Quezada, C. P., Silva, C. A., Tobar, P. M., Porwollik, S. și colab. (2010). Excizia spontană a elementului de tip profagic defect specific Salmonella enterica serovar Enteritidis, precum și a elementului de tip profagic specific pentru Salmonella enterica 14. J. Bacteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093 / Bioinformatica / btu153

PubMed Abstract | CrossRef Full Text/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. W., tulpina, E., Barrangou, R., Wehnes, C., și colab. (2013). Diversitatea filogenetică a agentului patogen enteric Salmonella enterica subsp. enterica dedusă din caractere SNP fără referință la nivel de genom. Biol Genomului. Evol. 5, 2109–2123. doi: 10.1093/gbe/evt159

PubMed Abstract | CrossRef Full Text | Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S., și Phillippy, A. M. (2014). Suita de recoltare pentru alinierea rapidă a genomului de bază și vizualizarea a mii de genomi microbieni intraspecifici. Biol Genomului. 15:524. doi: 10.1186 / s13059-014-0524-x

PubMed Abstract | CrossRef Full Text/Google Scholar

Vernikos, G. S., Thomson, N. R. și Parkhill, J. (2007). Flux Genetic în timp în linia Salmonella. Biol Genomului. 8: R100. doi: 10.1186 / gb-2007-8-6-r100

PubMed Abstract | CrossRef Full Text/Google Scholar

Wattiau, P., Boland, C. și Bertrand, S. (2011). Metodologii pentru Subtiparea Salmonella enterica ssp enterica: standarde și alternative de aur. Appl. Environ. Microbiol. 77, 7877–7885. doi: 10.1128 / AEM.05527-11

PubMed Abstract | CrossRef Full Text/Google Scholar

Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H. și Imberechts, H. J. (2008). Compararea serotipării clasice și a testului PremiTest pentru identificarea de rutină a serovarelor comune Salmonella enterica. J. Clin. Microbiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Abstract | CrossRef Full Text/Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N. și colab. (2017). Validarea și implicațiile utilizării secvențierii întregului genom ca înlocuitor pentru serotiparea tradițională pentru un laborator național de referință pentru Salmonella. În față. Microbiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Abstract / CrossRef Full Text / Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H. și colab. (2016). Salmonella in silico typing resource( SISTR): un instrument deschis accesibil pe web pentru tastarea rapidă și subtiparea ansamblurilor genomului Salmonella. PLoS Unul 11: e0147101. doi: 10.1371/jurnal.pone.0147101

PubMed Abstract | CrossRef Full Text/Google Scholar

Zhang, S., Yin, Y., Jones, Mb, Zhang, Z., Kaiser, B. L. D., Dinsmore, Ba, și colab. (2015). Determinarea serotipului Salmonella utilizând date de secvențiere a genomului cu randament ridicat. J. Clin. Microbiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Abstract | CrossRef Full Text/Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R. și Liu, S.-L. (2016). Genotiparea salmonelei cu gene specifice liniei: corelație cu serotiparea. Int. J. Infecta. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

PubMed Abstract | CrossRef Full Text/Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J. și Liu, S.-L. (2013). Identificarea genelor pentru a diferenția liniile de Salmonella strâns legate. PLoS Unul 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar