Articles

Frontiers in Microbiology

wprowadzenie

Salmonella powoduje ludzką salmonellozę i infekcje zwierząt ciepłokrwistych (Kingsley and Bäumler, 2000). Rodzaj Salmonella dzieli się na dwa gatunki, S. enterica i S. bongori. serotypowanie dalej klasyfikuje salmonellę na ponad 2600 serotypów (serotypów) poprzez reakcję aglutynacji antysurowic na trzy antygeny powierzchniowe O, H1 i H2 (Le Minor and Bockemühl, 1984; Le Minor et al., 1990). Istnieje 46 antygenów O, które identyfikują serogrupę. Razem z 119 antygenami flagelliny H1 i H2, kombinacje O, H1 i H2 identyfikują serowary. Tylko niewielka część serotypów jest odpowiedzialna za większość zakażeń salmonellą u ludzi (Popoff et al., 2004).

Serotypowanie przez aglutynację antygenową jest zastępowane przez serotypowanie molekularne (Cai et al., 2005; Wattiau et al., 2011). Można to osiągnąć poprzez badanie sekwencji klastra genowego antygenu o, genu kodującego antygen H1 fliC i genu kodującego antygen H2 fljB (Fitzgerald i wsp ., 2007). Klastry genów antygenu O mogą być zróżnicowane na podstawie obecności lub braku genów, podczas gdy antygeny H1 i H2 są zróżnicowane na podstawie zmian sekwencji (McQuiston et al., 2004; Guo et al., 2013; Zhang et al., 2015). Serotypy salmonelli można również wywnioskować za pomocą MLST (Wattiau et al., 2011; Achtman et al., 2012) jako serotyp można wywnioskować z jego typów sekwencji. Jednakże warunkiem wstępnym takiego podejścia jest wymagana wcześniejsza znajomość odpowiedniego związku seroowaru z typem sekwencji.

Ostatnio, wraz z rozwojem porównań opartych na sekwencji całego genomu, kilka badań zidentyfikowało markery genomowe jako alternatywną metodę molekularną do serotypowania. Zou i in. (2016) zidentyfikował siedem genów, które zapewniają wystarczającą rozdzielczość do odróżnienia 309 szczepów salmonelli reprezentujących 26 seroowarów i znalazł geny specyficzne dla seroowarów w 13 z 26 seroowarów. Laing et al. (2017) zidentyfikowano fragmenty genomu specyficzne dla gatunków i podgatunków salmonelli poprzez analizę pan-genomu. Te specyficzne geny lub fragmenty DNA zostały wykorzystane jako cele molekularne do opracowania wielu testów molekularnych do szybkiej identyfikacji i wykrywania salmonelli na poziomie gatunków i seroowarów. Jednak te specyficzne geny lub fragmenty DNA są ograniczone w ich zdolności rozróżniania ze względu na ich zdolność do odróżniania tylko mniejszej liczby serokowarów.

w tym badaniu staraliśmy się wykorzystać obszerną publicznie dostępną kolekcję genomów salmonelli do identyfikacji markerów genów serologicznych dla najczęstszych serotypów salmonelli. Pokazujemy potencjał tych serotypowych markerów genowych jako markerów do molekularnego serotypowania danych genomowych metodą in silico lub do opracowania laboratoryjnych metod diagnostycznych.

materiały i metody

wybór izolatu opartego na rybosomalnym MLST

baza danych dotycząca salmonelli w Enterobazie (Alikhan et al., 2018) według stanu na Marzec 2018 zbadano 118997 izolatów. Reprezentatywne Izolaty dla każdego RST zostały wybrane i wyodrębnione przez wewnętrzny skrypt Pythona. W badaniu tym uwzględniono tylko serokowary z więcej niż czterema RST. W przypadku 20 największych serotypów reprezentatywnych Izolaty były wybierane losowo z RST z dwoma lub więcej izolatami. W przypadku pozostałych serowarów losowo wybrano po jednym reprezentatywnym izolacie dla każdego rST. Surowe odczyty tych izolatów zostały pobrane z ENA (European nucleotide Archive1) i zostały De novo zmontowane przy użyciu asemblera SPAdes v3.10.1 z domyślnymi ustawieniami 2 (Bankevich et al., 2012). Serovar zmontowanych genomów przewidywał SISTR (Yoshida et al., 2016) po spełnieniu następujących kryteriów, które zostały określone przez Robertsona et al. (2018) za pomocą QUAST3 (Gurevich et al., 2013): wielkość zespołu od 4 do 6 Mb z liczbą contigów mniejszą niż 500, największy contig większy niż 100 kb, zawartość GC między 50 a 54%, Gen przewidywany przez glimmera w QUAST ponad 3000. Zbadano zgodność między uzyskanymi przewidywaniami serologicznymi SISTR i zgłoszonymi serologicznymi w zapisie metadanych Enterobazy i usunięto niewielką liczbę genomów z analizy z powodu niespójnych przewidywań serologicznych. Ostateczny zestaw danych składał się z 2258 wysokiej jakości genomów ze spójną prognozą serologiczną reprezentującą 107 serotypów (tabela uzupełniająca S1).

Identyfikacja markerów genów specyficznych dla salmonelli serowar

aby określić potencjalne markery genów specyficznych dla serowarów dla 107 serowarów, 2258 genomów opatrzono adnotacją za pomocą PROKKA (Seemann, 2014). Pan-Genom i core-Genom były analizowane przez roary ’ ego (Page et al., 2015) stosując próg identyfikacji sekwencji 80%. Geny specyficzne dla każdego seroowaru zostały zidentyfikowane na podstawie dodatkowych genów pan-genomu za pomocą wewnętrznego skryptu Pythona. W badaniu tym liczbę genomów z danego seroowaru zawierającego specyficzny gen dla tego seroowaru określano jako true positive (TP), liczbę genomów z tego samego seroowaru pozbawionego tego samego genu określano jako false negative (FN). Liczbę genomów z innych serotypów zawierających ten sam serotypowy Gen określano jako fałszywy pozytw (ang. false positve, FP). Początkowo stosowano złagodzone odcięcia (20% FN, 10% FP) w celu zapewnienia, że wszystkie seroowary mają geny specyficzne dla kandydata, które można dalej badać. Z analiz usunięto geny paralogiczne.

ocena potencjalnych markerów genów serologicznych

punktacja F1 została wykorzystana do wstępnej selekcji potencjalnych markerów genów serologicznych. Wynik F1 oceniano na podstawie wzoru: 2 × (PPV × czułość)/(PPV + czułość), gdzie PPV zdefiniowano jako TP/(TP+FP), a czułość jako TP / (TP+FN). F1 waha się od 0 do 1, Gdzie 1 oznacza Gen serologicznie specyficzny, który był obecny we wszystkich genomach danego serologicznie i nieobecny we wszystkich genomach innych serologicznie. Markery genów serologicznie specyficznych zostały dobrane przy użyciu najbardziej wydajnego genu dla każdego serologicznie na podstawie wyniku F1. Swoistość zdefiniowana jako TN/(TN+FP) została wykorzystana do oceny rzeczywistej ujemnej (TN) szybkości markerów genów serologicznie specyficznych. Współczynnik fałszywie dodatni (FPR) był definiowany przez 1 – TNR.

analizy filogenetyczne

w celu określenia przyczyn obserwowanych fałszywie ujemnych i FPRs w markerach genów serologicznych kandydatów zbadano relacje filogenetyczne zaangażowanych serowarów. Szkice 1258 izolatów wykorzystano do wygenerowania drzew filogenetycznych przy użyciu pasternaku v1 .24 (Treangen et al., 2014) with default parameters to determine the phylogeny between and within serovars. Drzewo zostało zwizualizowane przez FigTree v1.4.3 (Schneider et al., 2000).

lokalizacja i funkcje markerów genów serologicznych

reprezentatywne kompletne genomy dla każdego serologicznego genu zawierającego cechy zostały pobrane z NCBI5 i zostały wykorzystane do określenia lokalizacji każdego z kandydujących genów serologicznych przez BLASTN z ustawieniami domyślnymi (Wersja 2.2.6, Tabela Uzupełniająca S2). W surowicach bez reprezentatywnego pełnego genomu wybrano reprezentatywny Genom z izolatów zebranych w tym badaniu. Sekwencje serologicznie specyficznych markerów genowych są zawarte w danych uzupełniających S1. Grupowanie genów w obrębie genomu zostało wykorzystane do zbadania, czy serowar specyficzne markery genowe były potencjalnie częścią pojedynczego elementu uzyskanego przez serowar w jednym przypadku. Markery genów specyficznych dla serowaru były uważane za klaster, jeśli znajdowały się mniej niż 5 kb od siebie.

funkcjonalne kategorie markerów genowych zidentyfikowano na podstawie adnotacji RAST6 (Aziz et al., 2008). Sekwencje profagowe w genomach referencyjnych serowarów zidentyfikowano za pomocą PHASTER, aby wskazać, czy markery genowe specyficzne dla serowarów mogły zostać nabyte wraz z profagami (Phage Search Tool Enhanced Release) (Arndt et al., 2016).

In silico serotyp Prediction Using serovar-Specific Gene Markers

wybrano dodatkowe 1089 izolatów z Enterobazy przy użyciu własnego skryptu Pythona z wyłączeniem 2258 izolatów używanych do wstępnego badania przesiewowego z tej samej bazy danych w marcu 2018 r. (tabela uzupełniająca S3). BLASTN został użyty do wyszukiwania genomów 1089 należących do 106 serowarów salmonelli pod kątem obecności markerów genów specyficznych dla serowarów. Niestandardowe skrypty Pythona były następnie używane do przewidywania seroowarów z tych przydziałów seroowarów w oparciu o znany wzorzec obecności genów dla każdego seroowaru. TP była klasyfikowana jako całkowita liczba prawidłowo przypisanych serowarów i przypadków, w których wywoływano prawidłowy serowar, a także jeden lub więcej FP. Zdefiniowano nieudane przyporządkowanie, w którym nie wywoływano serowarów lub nieprawidłowych serowarów. Prognozy Serovar porównano do SeqSero (Zhang et al., 2015) i SISTR.

Obliczanie swoistości markerów genów Serotypowych dla serotypów pospolitych

swoistość szybkości pisania dla serotypów pospolitych (Hendriksen et al., 2011) był równy (1 – potencjalny poziom błędu). Potencjalny poziom błędu markerów genowych serowaru określonych wzorem: (Liczba FPs)∗(częstotliwość tego serowaru w danym regionie)/(suma genomów tego serowaru).

wyniki

Identyfikacja markerów genów serologicznie specyficznych

geny pomocnicze z 2258 genomów reprezentujących 107 serologicznie zostały przebadane w celu identyfikacji potencjalnych markerów genów serologicznie specyficznych. W tym wstępnym badaniu przesiewowym zidentyfikowano 354 potencjalne markery genów serologicznie specyficznych w obrębie 101 serotypów. Sześć serovars mianowicie, Bareilly, Bovismorbificans, Thompson, Reading, Typhi, i Saintpaul miał żadny kandydat serovar-specyficznych genów markery które byli obecni w wszystkie lineages dany serovar. Swoistość (TNR) i czułość (TPR) markerów genowych specyficznych dla serowarów 354 również zostały zbadane i podsumowane na fig.1. 40 serowarów zawierało 194 serowary swoiste dla genów o 100% swoistości i czułości (bez FN lub FP), podczas gdy 31 serowarów zawierało 80 serowarów specyficznych dla genów o 100% czułości, ale o mniej niż 100% swoistości (zróżnicowane FP). Dziewięć serowarów zawierało 27 markerów genowych specyficznych dla serowarów o 100% swoistości, ale o mniej niż 100% czułości (zróżnicowane FN). Pozostałe 21 serowarów zawierało 53 markery genów serologicznie specyficznych, charakteryzujące się zarówno swoistością, jak i czułością mniejszą niż 100% (różne FN i FP).

rysunek 1
www.frontiersin.org

Rysunek 1. Rozkład czułości i swoistości 354 potencjalnych markerów genowych serologicznie specyficznych. TPR, true positive rate; FPR, false positive rate. Gdzie wyświetlany jest gradient od jasnoniebieskiego (niski procent) do ciemnoniebieskiego (wysoki procent).

skonstruowaliśmy drzewo filogenetyczne z wykorzystaniem 1258 reprezentatywnych izolatów od 107 serologicznych przy użyciu pasternaku (rysunek uzupełniający S1). 1258 izolatów wybrano na podstawie relacji filogenetycznych początkowych 2258 izolatów, z których wybraliśmy Izolaty reprezentujące każdą niezależną linię. Odkryliśmy, że członkowie każdego z 82 serotypów tworzyli monofiletyczną linię, podczas gdy 24 serotypów było polifiletycznych, z których każdy składał się z 2 do 4 linii. Kilka z tych serotypów jest polifiletycznych i jest mało prawdopodobne, aby zawierały serotypowe markery genowe (Falush et al., 2006; den Bakker et al., 2011; Achtman et al., 2012; Timme et al., 2013). Serowar Enteritidis jest parafiletyczny z trzema innymi serowarami (Dublin, Berta i Gallinarium) powstałymi w ramach większego kladu Enteritidis, który sam składa się z trzech linii znanych jako klad A, B I C (Graham et al., 2018). Pięć markerów genów specyficznych dla Enteritidis było ujemnych dla izolatów Enteritidis, które gromadziły się oddzielnie na drzewie.

Co ciekawe, w przypadku czterech polifiletycznych serowarów, Bredeney 'a, Kottbusa, Livingstone’ a i Virchow ’ a, każdy z nich miał JEDEN kandydujący Gen specyficzny dla serowaru, który był obecny we wszystkich izolatach tego serowaru. W przypadku pozostałych 20 serowarów polifiletycznych i serowarów parafiletycznych Enteritidis szukaliśmy markerów genów specyficznych dla linii, ponieważ każdy serowar zawierał więcej niż jedną linię. Jeśli wszystkie linie zawierały co najmniej jeden gen specyficzny dla danej linii, uważamy, że serowar zawiera markery genowe specyficzne dla tej linii. Łącznie zidentyfikowano 111 potencjalnych markerów genowych specyficznych dla 19 serotypów polifiletycznych i parafiletycznych Enteritidis, wśród których zidentyfikowano 27 markerów genowych specyficznych dla 5 serotypów o 100% swoistości i czułości (bez FN i FP), 76 markerów genowych specyficznych dla 14 serotypów o 100% czułości i mniejszej niż 100% swoistości (zróżnicowane FP), A Enteritidis zawierający 6 markerów genowych specyficznych dla FP (tabela 1).

tabela 1
www.frontiersin.org

Tabela 1. Genowe markery genowe dla serotypów polifiletycznych i serotypów parafiletycznych.

w przypadku 11 z 82 monofiletycznych serotypów, w których brakowało specyficznych dla serotypów markerów genowych z powodu FN, odkryliśmy, że FN często jest wynikiem izolatów zgrupowanych na jednej gałęzi i odbiegających wcześniej od innych izolatów. Dla takich grup szukaliśmy markerów genowych specyficznych dla linii. W związku z tym, dwa lub więcej markerów genowych można wykorzystać do identyfikacji seroowaru i takie seroowary były również uważane za zawierające specyficzne dla seroowarów markery genowe, podobne do polifiletycznych seroowarów. Trzy seroowary, Paratyphi a, Heidelberg i Muenchen mogą być identyfikowane przez połączone markery genów specyficznych dla linii.

w tabeli uzupełniającej S2 podsumowano łącznie 414 markerów genów serologicznych, w tym 295 markerów genów serologicznych i 119 markerów genów specyficznych dla linii. W sumie 106 ze 107 serowarów zawierało jeden lub więcej markerów genowych, 33 serowary zawierały jeden specyficzny gen, podczas gdy 73 zawierały dwa lub więcej markerów genowych. Nie znaleziono kandydujących markerów genów serologicznie specyficznych dla Typhi monofiletycznego i nie znaleziono potencjalnych markerów genów specyficznych dla linii III Stanleyville ’ a, które zawierały tylko jeden izolat.

kategorie funkcjonalne markerów genowych Seroowarów

charakterystyka funkcjonalna wszystkich 414 markerów genowych zidentyfikowanych dla 106 seroowarów wykorzystujących RAST wykazała, że 197 miało znane funkcje, a 217 zakodowanych hipotetycznych białek o nieznanych funkcjach. Tylko 46 genów z adnotacjami można pogrupować w kategorie funkcjonalne, podczas gdy 151 genów z funkcjami nie było w kategoriach funkcjonalnych RAST(Tabela 2). Za pomocą PHASTERA. W przewidywanym prorokowaniu zlokalizowano 45 markerów genów serologicznie specyficznych.

tabela 2
www.frontiersin.org

Tabela 2. Serokowar-specyficzne kategorie funkcjonalne genów.

minimalny zestaw serotypów genowych serotypu In silico

dla wielu serotypów zidentyfikowano wiele kandydujących serotypów genowych lub markerów genowych specyficznych dla linii. W tych przypadkach wybrano pojedynczy gen, który ma najniższe wskaźniki FN i FP. Minimum 131 markerów genowych pozwala na identyfikację serotypów z częstością błędów od 0 do 8,33%. Rozkład markerów genowych we wszystkich 106 serowarach wykazuje wysoki stopień swoistości, jak pokazano na fig. 2, w którym przekątna pokazuje zależność między serowarem lub rodowodem z serowarowymi markerami genowymi, podczas gdy przestrzeń poza przekątną wykazała rzadką rozproszoną obecność tych genów w innych serowarach o różnych wartościach procentowych wskazujących na niski FPR. Szczegóły dotyczące tych markerów genowych wymieniono w dodatkowej tabeli S4. Ogólnie rzecz biorąc, 45 serowarów można odróżnić na podstawie odpowiednich genów serologicznych, a 61 serowarów można odróżnić na podstawie kombinacji markerów genowych.

rysunek 2
www.frontiersin.org

Rysunek 2. Dystrybucja minimalnego zestawu 131 genów serologicznie specyficznych w 106 serologicznie. Oś Y pokazuje seroowary lub markery genów specyficznych dla linii, a oś X pokazuje seroowary lub linie. Szczegóły zostały wymienione w dodatkowej tabeli S4. Gray wskazywał na zero genomów zawierających Gen (TN). Pary genów / genomów wzdłuż przekątnej reprezentują genomy zawierające markery genów serologicznych, które pasują do ich serologicznych (TP). Czerwony reprezentuje geny, które są obecne w 100% genomów dla danego seroowaru lub linii. Jeśli gen jest obecny w mniej niż 100% seroowaru, wyświetlany jest gradient od jasnoniebieskiego (niski procent) do ciemnoniebieskiego (wysoki procent). Niebieskie pary wzdłuż przekątnej reprezentują obecność FN. Pary, które są niebieskie lub czerwone poza przekątną reprezentują pary zawierające geny, które nie pasują do przewidywanego seroowaru genomu (FP).

przetestowaliśmy dodatkowe 1089 genomów należących do 106 nietyfoidalnych serowarów salmonelli, aby ocenić zdolność 131 specyficznych markerów genowych do prawidłowego przypisania serowarów do izolatów. Stosując markery genów serologicznych, 1038 z 1089 izolatów (95,3%) zostało pomyślnie przypisanych, a 51 nie powiodło się (4,7%). W przypadku SISTR i SeqSero liczba zgodnych przydziałów serologicznych wynosiła odpowiednio 1037 (95%) i 905 (82,8%) (tabela uzupełniająca S3).

Serotypowe markery genowe do Serotypowania wspólnych serotypów

20 najlepszych serotypów powodujących infekcję u ludzi znalezionych na każdym kontynencie (Hendriksen et al., 2011) zostały podzielone na łączną listę 46 serowarów (tabela uzupełniająca S5). Ponieważ surowice te zawierały zdecydowaną większość izolatów powodujących infekcje u ludzi na całym świecie, rozważamy je Oddzielnie, aby ocenić przydatność markerów genowych specyficznych dla serotypu dla najbardziej rozpowszechnionych serotypów w warunkach lokalnych. Gdy tylko te seroowary były brane pod uwagę, 18 z 46 mogło zostać jednoznacznie zidentyfikowanych przez jeden z markerów genowych seroowarów. Aby zwiększyć dokładność wpisywania pozostałych 28 seroowarów, w których markery genów specyficznych dla seroowarów różnią się FPRs, zbadaliśmy przy użyciu podzbiorów 131 markerów genowych (od 2 do 9 genów na seroowar) w celu wyeliminowania potencjalnego FP. Na przykład, połączenie genu specyficznego dla Choleraesuis i genu specyficznego dla linii Cerro-I może wyeliminować fałszywie dodatni izolat Cerro z Choleraesuis, jeśli oba geny są dodatnie, izolat można przypisać Cerro, podczas gdy jeśli geny specyficzne dla linii Cerro-I są ujemne, izolatem jest Choleraesuis.

aby oszacować potencjalne błędy w typowaniu, wzięliśmy pod uwagę częstotliwość 46 wspólnych seroowarów, które wykazały duże różnice między regionami (Hendriksen et al., 2011). W związku z tym, różne kombinacje genów mogą być stosowane w celu specyficznego ograniczenia fałszywie dodatnich wyników z serotypów obecnych w tym regionie. W danym regionie, specyficzność wspólnych markerów genów serologicznych specyficznych dla kandydata obliczono na podstawie szybkości FP i częstości fałszywie dodatnich serologicznych w tym regionie. Specyficzność markerów genowych specyficznych dla serowarów również obliczono przy użyciu szybkości FP (tabela uzupełniająca S4). Na przykład panel 15 genów może być użyty do wpisania 10 najczęstszych serotypów w Australii (NEPSS 2010) (Tabela 3). Biorąc pod uwagę regionalne częstości występowania w Australii, geny wymienione w tabeli 3 mogą być użyte jako markery laboratoryjnego typowania, a wskaźnik błędu będzie mniejszy niż 2,4%.

tabela 3
www.frontiersin.org

Tabela 3. Panel genów serologicznych do wpisania dziesięciu najczęstszych serotypów w Australii.

dyskusja

serotypowanie salmonelli ma kluczowe znaczenie dla diagnostyki i nadzoru. Przewidywanie serotypów za pomocą tradycyjnego serotypowania może być ograniczone przez brak ekspresji antygenu powierzchniowego lub właściwości autoaglutynacji (Wattiau et al., 2008). W ostatnim czasie, wraz z rozwojem technologii sekwencjonowania całego genomu, odpowiednie regiony genomowe klastra genów rfb dla antygenu O, Gen fliC i gen fljB dla antygenów H oraz geny celowane przez MLST mogą być ekstrahowane i wykorzystywane do identyfikacji serologicznej. W kilku badaniach zidentyfikowano geny serologiczne lub fragmenty DNA do serotypowania poprzez porównanie genomu oparte na sekwencjonowaniu całego genomu(Zou et al., 2013, 2016; Laing et al., 2017). Jednak te geny serologicznie specyficzne lub fragmenty DNA odróżniały tylko niewielką liczbę serologicznie. W tym badaniu zidentyfikowaliśmy 414 kandydujących markerów genów serologicznych lub genów specyficznych dla linii dla 106 serotypów, które obejmują 24 serotypów polifiletycznych i Parafiletycznego Enteritidis. Podzbiór tych markerów genowych został zwalidowany przez niezależne genomy i był w stanie prawidłowo przypisać seroowary w 95,3% przypadków.

powyższą analizę skomplikowała obecność polifiletycznych serowarów, które powstają niezależnie od odrębnych przodków, tworząc osobne linie genealogiczne. W związku z tym do jednoznacznej identyfikacji większości polifiletycznych serowarów wymagane było połączenie markerów genowych specyficznych dla linii. Co ciekawe, cztery polifiletyczne serowary, Bredeney, Kottbus, Livingstone i Virchow, miały po jednym markerze genowym specyficznym dla serowaru, który był obecny we wszystkich izolatach tego serowaru. Przewidywano, że geny serologiczne Bredeneya kodują translokazę biorącą udział w konwersji antygenu O i mogły być uzyskiwane równolegle. Geny serowarów specyficzne dla pozostałych trzech polifiletycznych serowarów kodują hipotetyczne białka o nieznanej funkcji i brak wyraźnego wyjaśnienia ich obecności w różnych liniach tego samego serowaru.

w przeciwieństwie do polifiletycznych serowarów, trzy linie (Klad A, B I C) parafiletycznych serowarów Enteritidis mają wspólnego przodka. Clade a i C są przodkami Clade B. wcześniejsze badania opisywały, że Enteritidis był klastrowany z serowarami Dublin, Berta i Gallinarium, który został nazwany „sekcją Enteritidis” (Vernikos et al., 2007; Achtman et al., 2012; Allard et al., 2013; Timme et al., 2013). Inne badania wykazały, że serovar Nitra został osadzony w obrębie linii Enteritidis przy użyciu całej filogenezy genomu (Deng et al., 2014). Stwierdzono również reaktywność krzyżową między Enteritidis i Nitra zgodnie z badaniem Ogunremiego(Ogunremi et al., 2017). W naszym badaniu wybraliśmy Izolaty oparte na rSTs, Nitra nie była obecna w bazie Enterobazy Rmlst, kiedy to badanie się rozpoczęło, a więc nie została uwzględniona w tym badaniu. Gallinarium odróżnia się od Enteritidis obecnością delecji 4 bp w genie speC (Kang et al., 2011). Zaobserwowaliśmy, że wspólni przodkowie serowarów Dublin, Berta i Gallinarium, wywodzili się od przodka między kladami B I A/C. Chociaż Dublin można oddzielnie zidentyfikować, nie możemy odróżnić Berta lub Gallinarium od Enteritidis clade A/C. Wyniki te podkreślają ograniczenie podejścia, ponieważ serowary muszą być wystarczająco rozbieżne, aby różniły się co najmniej jednym unikalnym genem. Podobnie, było 8 innych seroowarów, które nie były rozróżnialne prawdopodobnie ze względu na bardzo niedawne wspólne pochodzenie z niewielką akwizycją genów.

kandydujące markery genów serologicznych lub kandydujące markery genów specyficznych dla linii u 69 ze 106 serologicznych były przylegające do genomu z podobnymi funkcjami zgrupowanymi razem (DANE Nie pokazane). Sugeruje to, że te markery genowe mogły zostać włączone do genomów serologicznych razem poprzez poziomy transfer genów. W rzeczywistości siedem typhimurium specyficznych markerów genu zidentyfikowanych w tym badaniu (STM4492, STM4493, STM4494, STM4495, STM4496, STM4497 i STM4498) zlokalizowano w Typhimurium trnaleux integrując region związany z pierwiastkiem sprzężonym, w tym geny od STM4488 do STM4498, który jest znanym poziomym punktem transferu genów (Bishop et al., 2005). Podobnie pięć zidentyfikowanych markerów genów specyficznych dla Enteritidis (SEN1379, SEN1380, SEN1382, SEN1383 i SEN1383) znajdowało się w regionie Sdr I (Agron et al., 2001) i region Gei/φSE14 (Santiviago et al., 2010). Oba te regiony są powiązane z profagami, co sugeruje, że regiony te zostały włączone do genomu wspólnego przodka globalnego kladu Enteritidis i pochodzą z poziomego transferu genów.

Inne metody predykcji in silico serovar są implementowane w SeqSero (Zhang et al., 2015) i SISTR (Yoshida et al., 2016). Obie te metody badają regiony genomowe odpowiedzialne za antygeny powierzchniowe, podczas gdy SISTR wdraża również schemat cgMLST w celu zbadania ogólnej zależności genetycznej. Dodatkowo, tradycyjne 7 genów MLST i pochodzące z niego grupy eBURST mogą być również stosowane do oznaczania serovara in silico (Achtman et al., 2012; Ashton et al., 2016; Robertson et al., 2018). Zarówno sistr, jak i SeqSero zapewniają większą siłę dyskryminacyjną niż tradycyjna identyfikacja serovar(Yachison et al., 2017). Jednak mają one szereg wad, takich jak nieodróżnialne serowary o tym samym wzorze antygenowym lub determinanty antygenowe, które nie są wyrażone (Robertson et al., 2018). W obecnym badaniu zbadaliśmy predykcję serologiczną in silico poprzez przesiewanie genomów w stosunku do zestawu 131 markerów genów serologicznych. Podejście to zapewniało przewidywanie serologiczne poprzez uzyskanie „obecności lub nieobecności” poszczególnych serologicznie specyficznych markerów genowych lub kombinacji markerów genowych w izolacie kwerendy. Wykazujemy, że markery genów serologicznych mają porównywalną dokładność do innych metod serotypowania in silico z 91,5% izolatami z wstępnego zestawu danych identyfikacyjnych i 84,8% izolatami z zestawu danych walidacyjnych przypisanych do właściwego serotypu (bez FN i FP). 10.5% izolatów ze zbioru danych walidacyjnych można przypisać do małego podzbioru serowarów zawierających prawidłowy serowar (ze zróżnicowanym FP). Swoistość dla podejścia in silico serowar prediction przez serowar swoistych markerów genowych wynosiła 95,3%, nieco wyższa niż SISTR (95%) i SeqSero (82,8%) w tym samym zestawie danych, który badaliśmy. Wynik ten był podobny do specyfiki SISTR i SeqSero zgłoszonych przez Yachison et al. (2017), które stanowiły odpowiednio 94,8 i 88,2%.

nasza metoda oparta na markerze genów serologicznych nie wymaga dokładnego badania klastrów genów antygenu o lub zmiany sekwencji genów antygenu h, co może być problematyczne. Nasza metoda zmniejsza również potrzebę zmontowania całego genu lub sekwencji genomu, co jest konieczne w metodach opartych na MLST lub cgMLST. Dlatego takie podejście może być przydatne w przypadkach, w których dostępna jest bardzo mała Sekwencja, taka jak w metagenomice lub wolnym typowaniu kulturowym, a także zapewnia trzecią alternatywę dla potwierdzenia innych analiz.

identyfikacja zestawu markerów genowych zdolnych jednoznacznie zidentyfikować wszystkie rozpowszechnione seroowary w danym regionie może być również przydatna w badaniach molekularnych. Testy te byłyby przydatne w serotypowaniu izolatów, w których hodowle nie są już uzyskiwane, a zatem tradycyjne serotypowanie jest niemożliwe. Na przykład można zaprojektować zestaw testów PCR, które umożliwiłyby czułe wykrywanie określonych markerów genowych, a tym samym umożliwiłyby przewidywanie seroowaru z próbki klinicznej. Dodatkowo, eliminując potrzebę wykrywania seroowarów, które są bardzo rzadko obserwowane w danym regionie, można znacznie zmniejszyć liczbę tych markerów genowych wymaganych do wykrycia wszystkich głównych seroowarów w danym regionie, co pozwala na bardziej opłacalny test.

wnioski

w tym badaniu zidentyfikowaliśmy markery genów serotypowych i markery genów specyficznych dla 106 serotypów przez scharakteryzowanie dodatkowych genomów reprezentatywnej selekcji 2258 szczepów jako potencjalnych markerów do serotypowania in silico. Rozważamy polifiletyczną i parafiletyczną surowicę, aby dostarczyć nową metodę, wykorzystującą obecność lub brak tych markerów genowych, do przewidywania serologicznego izolatu na podstawie danych genomowych. Markery genowe zidentyfikowane tutaj mogą być również wykorzystane do opracowania testów serotypowania w przypadku braku izolowanego szczepu, które będą przydatne, ponieważ diagnoza przenosi się do metod niezależnych od kultury i metagenomicznych.

wkład autora

MP i RL zaprojektowały opracowanie i dostarczyły krytycznej rewizji rękopisu. XZ i MP przeprowadziły analizę bioinformatyczną. Wyniki analizowały XZ, MP i RL. XZ sporządził rękopis.

finansowanie

praca ta była wspierana przez grant projektowy National Health and Medical Research Council.

Oświadczenie o konflikcie interesów

autorzy oświadczają, że badanie zostało przeprowadzone przy braku jakichkolwiek relacji handlowych lub finansowych, które mogłyby być interpretowane jako potencjalny konflikt interesów.

Materiały uzupełniające

Materiały uzupełniające do tego artykułu można znaleźć w Internecie pod adresem: https://www.frontiersin.org/articles/10.3389/fmicb.2019.00835/full#supplementary-material

rysunek S1 | drzewo filogenetyczne oparte na SNP skonstruowane przez Pasternp pokazujące ewolucyjne relacje w obrębie i między serowarami z wykorzystaniem 1344 reprezentatywnych izolatów, w tym 1258 izolatów od 107 serowarów zbadanych w badaniu i 86 izolatów od serowarów o mniej niż 5 RST, które w przeciwnym razie zostały wyłączone z badania.

tabela S1 / końcowy zestaw danych zawierający 2258 wysokiej jakości i spójnych genomów predykcyjnych serotypów reprezentujących 107 serotypów.

tabela S2 / w sumie 414 genów serologicznie specyficznych, w tym 295 genów serologicznie specyficznych i 119 genów specyficznych dla linii.

tabela S3 / dodatkowe 1089 Izolaty walidacyjne z wynikami predykcji serologicznej przez markery genowe sistr, SeqSero i serologicznie specyficzne.

tabela S4 | a minimum 131 genów do identyfikacji 106 serotypów.

tabela S5 | zestaw 65 genów do identyfikacji 46 serotypów pospolitych.

dane S1 | sekwencje 131 serologicznych markerów genowych.

Fn, false negatives; FP, false positives; FPR, false positives rate; MLST, multi-locus Sequence typing; NEPSS, National Enteric pathogen Surveillance Scheme; PPV, positive predictive value; rsts, ribosomal MLST STs; sistr, Salmonella in silico typing resource; TN, true negatives; TNR, true negative rate; TP, true positive; TPR, true positive rate.

Footnotes

  1. ^ https://www.ebi.ac.uk/ena
  2. ^ http://bioinf.spbau.ru/spades
  3. ^ http://bioinf.spbau.ru/quast
  4. ^ http://github.com/marbl/harvest
  5. ^ https://www.ncbi.nlm.nih.gov/
  6. ^ http://rast.theseed.org/FIG/rast.cgi

Achtman, M., Wain, J., Weill, F.-X., Nair, S., Zhou, Z., Sangal, V., et al. (2012). Multilocus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathog. 8:e1002776. doi: 10.1371/journal.ppat.1002776

PubMed Abstract | CrossRef Full Text | Google Scholar

Agron, P. G., Walker, R. L., Kinde, H., Sawyer, S. J., Hayes, D. C., Wollard, J., et al. (2001). Identification by subtractive hybridization of sequences specific for Salmonella enterica serovar Enteritidis. Appl. Environ. Microbiol. 67, 4984–4991. doi: 10.1128/AEM.67.11.4984-4991.2001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alikhan, N.-F., Zhou, Z., Sergeant, M. J., and Achtman, M. (2018). A genomic overview of the population structure of Salmonella. PLoS Genet. 14: e1007261 doi: 10.1371 / dziennik.pgen.1007261

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Allard, M. W., Luo, Y., Strain, E., Pettengill, J., Timme, R., Wang, C., et al. (2013). On the evolutionary history, population genetics and diversity among isolates of Salmonella Enteritidis PFGE pattern JEGX01. 0004. PLoS One 8: e55254. doi: 10.1371 / dziennik.pone.0055254

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Arndt, D., Grant, J. R., Marcu, A., Sajed, T., Pon, A., Liang, Y., et al. (2016). PHASTER: lepsza, szybsza wersja narzędzia do wyszukiwania Phast phage. Kwasy Nukleinowe Res. 44, W16–W21. doi: 10.1093/nar/gkw387

PubMed Abstract | CrossRef Full Text/Google Scholar

Ashton, P. M., Nair, S., Peters, T. M., Bale, J. A., Powell, D. G., Painset, A., et al. (2016). Identyfikacja salmonelli do celów nadzoru zdrowia publicznego przy użyciu sekwencjonowania całego genomu. PeerJ 4: e1752. doi: 10.7717 / peerj.1752

PubMed Abstract | CrossRef Full Text | Google Scholar

Aziz, R. K., Bartels, D., Best, A. A., DeJongh, M., Disz, T., Edwards, R. A., et al. (2008). Serwer RAST: szybkie adnotacje z wykorzystaniem technologii podsystemów. BMC Genomics 9: 75. doi: 10.1186/1471-2164-9-75

PubMed Abstract | CrossRef Full Text/Google Scholar

Bankevich, A., Nurk, S., Antipov, D., Gurevich, A. A., Dvorkin, M., Kulikov, A. S., et al. (2012). Pik: a new genome assembly algorithm and its applications to single-cell sequencing. J. Computat. Biol. 19, 455–477. doi: 10.1089 / cmb.2012.0021

PubMed Abstract | CrossRef Full Text | Google Scholar

Bishop, A. L., Baker, S., Jenks, S., Fookes, M., Gaora, P. Ó, Pickard, D., et al. (2005). Analiza nadmiennego regionu genomu Salmonella enterica związanego z tRNAleuX. J. Bakteriol. 187, 2469–2482. doi: 10.1128 / JB.187.7.2469-2482.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

Cai, H., Lu, L., Muckle, C., Prescott, J., and Chen, S. (2005). Development of a novel protein microarray method for serotyping Salmonella enterica strains. J. Clin. Microbiol. 43, 3427–3430. doi: 10.1128/JCM.43.7.3427-3430.2005

PubMed Abstract | CrossRef Full Text | Google Scholar

den Bakker, H. C., Switt, A. I. M., Govoni, G., Cummings, C. A., Ranieri, M. L., Degoricija, L., et al. (2011). Sekwencjonowanie genomu ujawnia dywersyfikację zawartości czynnika zjadliwości i możliwą adaptację gospodarza w odrębnych subpopulacjach Salmonella enterica. BMC Genomics 12: 425. doi: 10.1186/1471-2164-12-425

PubMed Streszczenie | CrossRef Pełny tekst/Google Scholar

Deng, X., Desai, P. T., den Bakker, H. C., Mikoleit, M., Tolar, B., drzewa, E., et al. (2014). Genomic epidemiology of Salmonella enterica serotyp Enteritidis based on population structure of prevalent lineages. Emerg. Zarazić. Dis. 20, 1481–1489. doi: 10.3201/eid2009.131095

PubMed Abstract | CrossRef Full Text | Google Scholar

Falush, D., Torpdahl, M., Didelot, X., Conrad, D. F., Wilson, D. J., and Achtman, M. (2006). Mismatch induced speciation in Salmonella: model and data. Philos. Trans. R. Soc. Lond. B Biol. Sci. 361, 2045–2053. doi: 10.1098/rstb.2006.1925

PubMed Abstract | CrossRef Full Text | Google Scholar

Fitzgerald, C., Collins, M., van Duyne, S., Mikoleit, M., Brown, T., and Fields, P. (2007). Multiplex, Bead-based suspension array for molecular determination of common Salmonella serogroups. J. Clin. Mikrobiol. 45, 3323–3334. doi: 10.1128 / JCM.00025-07

PubMed Streszczenie | CrossRef Pełny tekst/Google Scholar

Graham, R. M., Hiley, L., Rathnayake, I. U., And Jennison, A. V. (2018). Genomika porównawcza identyfikuje odrębne linie S. Enteritidis z Queensland w Australii. PLoS One 13: e0191042. doi: 10.1371 / dziennik.pone.0191042

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Guo, D., Liu, B., Liu, F., Cao, B., Chen, M., Hao, X., et al. (2013). Opracowanie mikromacierzy DNA do molekularnej identyfikacji wszystkich 46 serotypów salmonelli O. AEM 79, 3392-3399. doi: 10.1128/AEM.00225-13

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Gurevich, A., Saveliev, V., Vyahhi, N., and Tesler, G. (2013). QUAST: narzędzie oceny jakości dla zespołów genomu. Bioinformatyka 29, 1072-1075. doi: 10.1093/bioinformatyka / btt086

PubMed Abstract | CrossRef Full Text | Google Scholar

(2011). Global monitoring of Salmonella serovar distribution from the world health organization global foodborne infections network country data bank: results of quality assured laboratories from 2001 to 2007. Foodborne Pathog. Dis. 8, 887–900. doi: 10.1089 / fpd.2010.0787

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Kang, M.-S., Kwon, Y.-K., Jung, B.-Y., Kim, A., Lee, K.-M., An, B.-K., et al. (2011). Różnicowa identyfikacja Salmonella enterica subsp. enterica serovar Gallinarum biowary Gallinarum i Pullorum oparte na polimorficznych regionach genów glgC i speC. Weterynarz. Mikrobiol. 147, 181–185. doi: 10.1016 / j.vetmic.2010.05.039

PubMed Abstract | CrossRef Full Text | Google Scholar

Kingsley, R. A., and Bäumler, A. J. (2000). Adaptacja gospodarza i pojawienie się chorób zakaźnych: paradygmat salmonelli. Mol. Mikrobiol. 36, 1006–1014. doi: 10.1046 / j.1365-2958.2000.01907.x

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Laing, C. R., Whiteside, M. D., and Gannon, V. P. (2017). Pan – Genom analizy gatunku Salmonella enterica, i identyfikacja genomowych markerów predykcyjnych dla gatunków, podgatunków, i seroowar. Przód. Mikrobiol. 8:1345. doi: 10.3389 / fmicb.2017.01345

PubMed Abstract / CrossRef pełny tekst / Google Scholar

Le Minor, L., and Bockemühl, J. (1984). Supplément no XXVII au schéma de Kauffmann-Biały. Ann. Institut Pasteur Microbiol. 135, 45-51. doi: 10.1016/S0769-2609(84)80042-3

CrossRef pełny tekst/Google Scholar

Le Minor, L., Popoff, M., and Bockemühl, J. (1990). Supplement 1989 (n° 33) To The Kaufman-White scheme. RES. Mikrobiol. 141, 1173-1177. doi: 10.1016/0923-2508 (90)90090-D

CrossRef Pełny tekst | Google Scholar

McQuiston, J., Parrenas, R., Ortiz-Rivera, M., Gheesling, L., Brenner, Fields, P. I. (2004). Sekwencjonowanie i analiza porównawcza genów flagelliny fliC, fljB i flpA z salmonelli. J. Clin. Mikrobiol. 42, 1923–1932. doi: 10.1128 / JCM.42.5.1923-1932.2004

PubMed Streszczenie | CrossRef Pełny tekst/Google Scholar

Ogunremi, D., Nadin-Davis, S., Dupras, A. A., Márquez, I. G., Omidi, K., Pope, L., et al. (2017). Ocena testu Multiplex PCR do identyfikacji serotypów Salmonella enteritidis i typhimurium z wykorzystaniem próbek detalicznych i ubojni. J. Food Prot. 80, 295–301. doi: 10.4315/0362-028X.JFP-16-167

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Page, A. J., Cummins, C. A., Hunt, M., Wong, V. K., Reuter, S., Holden, M. T., et al. (2015). Roary: szybka analiza genomu prokaryote pan na dużą skalę. Bioinformatyka 31, 3691-3693. doi: 10.1093/bioinformatics/btv421

PubMed Abstract | CrossRef Full Text | Google Scholar

Popoff, M. Y., Bockemühl, J., and Gheesling, L. L. (2004). Supplement 2002 (no. 46) to the Kauffmann–White scheme. Res. Microbiol. 155, 568–570. doi: 10.1016/j.resmic.2004.04.005

PubMed Abstract | CrossRef Full Text | Google Scholar

Robertson, J., Yoshida, C., Kruczkiewicz, P., Nadon, C., Nichani, A., Taboada, E. N., et al. (2018). Kompleksowa ocena jakości danych dotyczących całej sekwencji genomu salmonelli dostępnych w publicznych bazach sekwencji z wykorzystaniem zasobów typowania Salmonella in silico (sistr). Microb. Genomika doi: 10.1099 / mgen.0.000151 .

PubMed Abstract | CrossRef Full Text/Google Scholar

Santiviago, C. A., Blondel, C. J., Quezada, C. P., Silva, C. A., Tobar, P. M., Porwollik, S., et al. (2010). Samoistne wycięcie specyficznego dla Salmonella enterica seroowaru Enteritidis wadliwego elementu prorokopodobnego φSE14. J. Bakteriol. 192, 2246–2254. doi: 10.1128 / JB.00270-09

PubMed Abstract | CrossRef Full Text | Google Scholar

Schneider, S., Roessli, D., and Excoffier, L. J. U. (2000). Arlequin: A Software for Population Genetics Data Analysis, Vol. 2. Geneva: Genetic and Biomedical Laboratory, 2496–2497.

Google Scholar

Seemann, T. (2014). Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069. doi: 10.1093/bioinformatics/btu153

PubMed Abstract | CrossRef Full Text/Google Scholar

Timme, R. E., Pettengill, J. B., Allard, M. W., Strain, E., Barrangou, R., Wehnes, C., et al. (2013). Zróżnicowanie filogenetyczne patogenu jelitowego Salmonella enterica subsp. enterica wywnioskowana ze znaków SNP bez odniesienia do genomu. Genom Biol. Evol. 5, 2109–2123. doi: 10.1093/gbe/evt159

PubMed Abstract | CrossRef Full Text/Google Scholar

Treangen, T. J., Ondov, B. D., Koren, S., and Phillippy, A. M. (2014). Zestaw Harvest do szybkiego wyrównania genomu rdzenia i wizualizacji tysięcy wewnątrzspecyficznych genomów drobnoustrojów. Genom Biol. 15:524. doi: 10.1186 / s13059-014-0524-x

PubMed Abstract | CrossRef Full Text | Google Scholar

Vernikos, G. S., Thomson, N. R., and Parkhill, J. (2007). Zmiany genetyczne w czasie w linii Salmonella. Genom Biol. 8: R100. doi: 10.1186 / gb-2007-8-6-r100

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Wattiau, P., Boland, C., and Bertrand, S. (2011). Metodologie dla podtypu Salmonella enterica ssp enterica: złote standardy i alternatywy. Appl. Environ. Mikrobiol. 77, 7877–7885. doi: 10.1128/AEM.05527-11

PubMed Streszczenie | CrossRef Pełny tekst/Google Scholar

Wattiau, P., Van Hessche, M., Schlicker, C., Vander Veken, H., and Imberechts, H. J. (2008). Porównanie klasycznego serotypowania i testu PremiTest do rutynowej identyfikacji pospolitych serotypów Salmonella enterica. J. Clin. Mikrobiol. 46, 4037–4040. doi: 10.1128 / JCM.01405-08

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Yachison, C. A., Yoshida, C., Robertson, J., Nash, J. H., Kruczkiewicz, P., Taboada, E. N., et al. (2017). Walidacja i implikacje stosowania sekwencjonowania całego genomu jako zamiennika tradycyjnego serotypowania dla krajowego laboratorium referencyjnego ds. salmonelli. Przód. Mikrobiol. 8:1044. doi: 10.3389 / fmicb.2017.01044

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Yoshida, C. E., Kruczkiewicz, P., Laing, C. R., Lingohr, E. J., Gannon, V. P., Nash, J. H., et al. (2016). The Salmonella in silico typing resource (SISTR): otwarte narzędzie dostępne w sieci do szybkiego typowania i podtypowania projektów zespołów genomu salmonelli. PLoS One 11: e0147101. doi: 10.1371 / dziennik.pone.0147101

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Zhang, S., Yin, Y., Jones, M. B., Zhang, Z., Kaiser, B. L. D., Dinsmore, B. A., et al. (2015). Oznaczanie serotypu salmonelli z wykorzystaniem danych sekwencjonowania genomu o wysokiej przepustowości. J. Clin. Mikrobiol. 53, 1685–1692. doi: 10.1128 / JCM.00323-15

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Zou, Q.-H., Li, R.-Q., Liu, G.-R., and Liu, S.-L. (2016). Genotypowanie salmonelli z genami specyficznymi dla linii: korelacja z określeniem serotypu. Int. J. Infect. Dis. 49, 134–140. doi: 10.1016 / j. ijid.2016.05.029

PubMed Streszczenie | CrossRef Pełny tekst | Google Scholar

Zou, Q.-H., Li, R.-Q., Wang, Y.-J., and Liu, S.-L. (2013). Identyfikacja genów w celu odróżnienia blisko spokrewnionych linii Salmonella. PLoS One 8: e55988. doi: 10.1371/journal.pone.0055988

PubMed Abstract | CrossRef Full Text | Google Scholar