pobieranie próbek środowiskowych i izolacja szczepów pandoravirusów
wykorzystaliśmy ten sam protokół izolacji, który doprowadził do odkrycia P. salinus i P. dulcis5. Polega ona na mieszaniu pobranego materiału z kulturami Acanthamoeby przystosowanymi do stężeń antybiotyków na tyle wysokich, że hamują wzrost innych mikroorganizmów środowiskowych (zwłaszcza bakterii i grzybów). Próbki pobrano losowo z wilgotnych środowisk podatnych na obecność komórek Acanthamoeba. Doprowadziło to do izolacji trzech nowych szczepów pandoravirus: P. quercus, P. neocaledonia i P. macleodensis (Tabela 1, patrz metody). Wykazują one wystarczającą rozbieżność, aby rozpocząć ocenę zachowanych cech i zmienności powstającej rodziny Pandoraviridae. W stosownych przypadkach nasze analizy obejmują również dane z P. inopinatum, wyizolowane w niemieckim laboratorium od pacjenta z zapaleniem rogówki Acanthamoeba7.
badanie cykli replikacji i ultrastruktur wirionu
począwszy od oczyszczonych cząstek zaszczepionych do kultur A. castellanii, możemy przeanalizowano cykl zakaźny każdego izolatu przy użyciu mikroskopii elektronowej światła i transmisji (sekcja ultracienka). Jak wcześniej zaobserwowano dla P. salinus i P. dulcis, stwierdzono, że cykle replikacji tych nowych pandorawirusów trwają średnio 12 h5 (8 h dla najszybszego P. neocaledonia). Proces zakaźny jest taki sam dla wszystkich wirusów, począwszy od internalizacji poszczególnych cząstek przez komórki Acanthamoeba. Po otwarciu porów wierzchołkowych cząstki („pandoravirions”) przenoszą swoją przezroczystą zawartość do cytoplazmy poprzez fuzję błony wewnętrznej wirionu z błoną fagosomu. Wczesne stadium infekcji jest niezwykle podobne dla wszystkich izolatów. Podczas gdy wcześniej informowaliśmy, że jądro komórkowe zostało całkowicie zakłócone w późnym etapie cyklu zakaźnego 5, dokładna obserwacja nowych szczepów ujawniła neosyntetyzowane cząstki w cytoplazmie komórek nadal wykazujących przedziały podobne do jądra, w których jądro nie było już rozpoznawalne(Fig. 1). Osiem godzin po zakażeniu Dojrzałe wiriony stają się widoczne w wakuolach i są uwalniane w wyniku egzocytozy (film dodatkowy). Dla wszystkich izolatów cykl replikacyjny kończy się Liz komórek i uwolnieniem około stu cząstek (rys. 1).
sekwencjonowanie i adnotacja genomu
genomowe DNA P. neocaledonia, P. macleodensis i P. quercus przygotowano z oczyszczonych cząstek i zsekwencjonowano za pomocą platform PacBio lub Illumina (patrz metody). Podobnie jak w przypadku P. salinus, P. dulcis5 i P. inopinatum7, trzy nowe genomy zmontowane jako pojedyncze liniowe cząsteczki dwuniciowego DNA (dsDNA) (≈60% G + C) o rozmiarach od 1,84 do 2 Mb. Oprócz ich półprzezroczystych cząstek w kształcie amfory (rys. 1), wyższa od średniej ZAWARTOŚĆ G + C i gigantyzm genomowy pozostają więc cechami charakterystycznymi, współdzielonymi przez Pandoraviridae5, 8. Biorąc pod uwagę wysoki odsetek genów wirusowych kodujących białka bez homolog bazy danych, przewidywania genów oparte na czysto ab initio podejścia obliczeniowego (tj. „ORFing” i szacunki skłonności kodowania) są notorycznie niewiarygodne, co prowadzi do niespójności między zespołami przy użyciu różnych wartości arbitralnych parametrów (np. minimalny rozmiar otwartej ramki odczytu (ORF)). Na przykład wśród rodzin dużych wirusów dsDNA infekujących eukarioty, średnia gęstość genu kodującego białko różni się podobno od jednego genu co 335 bp (Phycodnaviridae, NCBI: NC_008724) do jednego genu co 2120 bp (Herpesviridae, NCBI: NC_003038), podczas gdy konsensus jest wyraźnie wokół jednego genu co kb (np. dla bakterii). W rezultacie jedna oscyluje pomiędzy sytuacjami, w których wiele genów jest przecenianych, a inne, w których wiele prawdziwych genów jest prawdopodobnie przeoczonych. Taka niepewność co do tego, które geny są „prawdziwe”, wprowadza istotny szum w porównawczych analizach genomicznych i późniejszych testach hipotez ewolucyjnych. Ponadto metody obliczeniowe są w większości ślepe na geny wyrażone jako transkrypty kodujące białka.
aby przezwyciężyć powyższe ograniczenia, przeprowadziliśmy specyficzne dla nici eksperymenty RNA-seq i analizy proteomów cząsteczek, których wyniki zostały zmapowane na sekwencjach genomu. Tylko geny poparte dowodami eksperymentalnymi (lub podobieństwem białek) zostały zachowane w tym rygorystycznym protokole reanotacji (patrz metody, Fig. 2). Z jednej strony ta nowa procedura doprowadziła do zmniejszenia zestawu przewidywanych białek, z drugiej strony pozwoliła na odkrycie nieoczekiwanej dużej liczby niekodujących transkryptów (Tabela 1).
nowy zestaw zwalidowanych genów kodujących białka wykazuje silnie zmniejszoną proporcję ORF krótszych niż 100 reszt, z których większość jest unikalna dla każdego szczepu pandoravirusa (Fig. 3). Rygorystyczna procedura adnotacji doprowadziła również do tego, że geny wykazywały dobrze wyśrodkowany, unimodalny rozkład wartości indeksu adaptacji kodonów (Cai) (Fig. 3).
aby uzyskać spójność, ekstrapolowaliśmy nasz rygorystyczny protokół adnotacji na P. inopinatum i P. macleodensis, zmniejszając liczbę przewidywanych białek branych pod uwagę w dalszych porównaniach (patrz metody, Tabela 1). Zgodnie z oczekiwaniami, rozbieżności pomiędzy standardowymi a surowymi przewidywaniami genów wynikają jedynie z nadpredykcji małych ORF (długość < 300 nukleotydów). Takie dowolne ORF są podatne na powstawanie losowo w sekwencjach bogatych w G + C, w których kodony stop (TAA, TAG i TGA) są mniej prawdopodobne niż w niekodujących regionach genomów bogatych w a + T. W rzeczywistości powyższe standardowe i rygorystyczne protokoły adnotacji miały zastosowanie do A + T-rich (74.8%) Megavirus chilensis genome3 skutkował dwoma bardzo podobnymi zestawami przewidywanych i zwalidowanych genów kodujących białka (1120 i 1108). Kontrola ta wskazuje, że nasza rygorystyczna adnotacja nie polega po prostu na odrzucaniu ostatecznie poprawnych przewidywań genów przez arbitralne podniesienie progu ufności, ale w szczególności na korygowaniu błędów wywołanych przez skład bogaty w G + C. Czysto obliczeniowe metody adnotacji genów są więc znacznie mniej wiarygodne dla genomów bogatych w G + C, zwłaszcza gdy kodują dużą część Orfanów (tj. Warto jednak zauważyć, że nawet po naszej surowej reannotacji frakcja przewidywanych białek bez znacznego podobieństwa sekwencji poza rodziną Pandoraviridae pozostała dość wysoka (od 67 do 73%, Fig. 4).
dodatkowym wyzwaniem dla dokładnej adnotacji genomów pandorawirusa jest obecność intronów (praktycznie niewykrywalnych metodami obliczeniowymi, gdy przerywają One Orfany). Mapowanie złożonych sekwencji transkrypcyjnych na genomy P. salinus, P. dulcis, P. quercus i P. neokaledonia umożliwiła wykrycie intronów spliceosomalnych w 7,5–13% zwalidowanych genów kodujących białka. Introny te znaleziono w regionach nieprzetłumaczonych (UTRs), jak również w sekwencjach kodujących, w tym średnio 14 genów spośród tych kodujących 200 najbardziej obfitych białek wykrytych w cząsteczkach (patrz poniżej). Chociaż introny spliceosomalne znajdują się w innych wirusach z fazą jądrową, takich jak chlorowirusy9, pandorawirusy są jedynymi, dla których introny spliceosomalne zostały zatwierdzone dla ponad 10% ich genów. Wyniki te potwierdzają naszą wcześniejszą sugestię, że przynajmniej część transkryptów pandorawirusa jest syntetyzowana i przetwarzana przez maszynę jądrową gospodarza 5. Jednak liczba intronu na gen wirusa pozostaje znacznie niższa (średnio około 1,2) niż w przypadku genów gospodarza (średnio 6,21). Geny pandorawirusa wykazują UTRs dwa razy dłużej (tabela uzupełniająca 1) niż geny mimiviridae11.
mapowanie danych RNA-seq doprowadziło do nieoczekiwanego odkrycia dużej liczby (157-268) długich niekodujących transkryptów (Lncrna) (Tabela 1, dodatkowa Tabela 1 dla szczegółowych statystyk). Te Lncrna wykazują ogon polyA i około 4% z nich zawierają spliceosomal introns. Lncrna są najczęściej transkrybowane z odwrotnej nici zwalidowanych genów kodujących białko, podczas gdy mniejsza frakcja ulega ekspresji w regionach międzygenicznych (tj. inter-ORF) (Fig. 5). Te niekodujące transkrypty mogą odgrywać rolę w regulacji ekspresji genów pandorawirusa.
ogólnie, 82,7–87% genomów pandoravirusa jest transkrybowane (w tym ORFs, UTRs i Lncrna), ale tylko 62-68, 2% jest przekształcane w białka. Takie wartości są znacznie niższe niż u wirusów olbrzymich z innych rodzin (np. 90% genomu Mimivirus11 jest tłumaczone), częściowo ze względu na większe UTRs flankujące geny pandoravirusa.
genomika porównawcza
sześć zestawów genów kodujących białka uzyskanych z powyższej surowej adnotacji zostało następnie użyte jako odniesienia do porównań całego genomu w celu identyfikacji specyficznych cech rodziny Pandoraviridae. Po klastrowaniu opartym na podobieństwie sekwencji (patrz metody) obliczono względne nakładanie się zawartości genu różnych szczepów (Fig. 2A), wytwarzając to, co nazywamy „klastrami białkowymi”.
porównanie zawartości genu pandoravirus. a pokazano rozkład wszystkich kombinacji współdzielonych klastrów białek. Wstawka podsumowuje liczbę klastrów i genów dzielonych przez 6, 5, 4, 3, 2, i 1 pandorawirusy. b Genom rdzenia i pan-Genom oszacowano na podstawie sześciu dostępnych pandorawirusów. Szacowany parametr α prawa sterty (α < 1) jest charakterystyczny dla otwartego genomu pan50, a wartość parametru płynności charakterystyczna dla dużej frakcji genów unikalnych51. Wykresy pudełkowe pokazują medianę, 25 I 75 percentyla. Wąsy odpowiadają skrajnym punktom danych
następnie obliczyliśmy liczbę udostępnionych (tj., „rdzeń”) i geny całkowite, gdy stopniowo włączaliśmy genomy różnych izolatów do powyższej analizy, aby oszacować rozmiar zestawu genów rdzeniowych rodziny i zestawu genów dodatkowych / elastycznych. Jeśli sześć dostępnych izolatów wydaje się wystarczające do wyznaczenia genomu rdzenia kodującego 455 różnych klastrów białek, „krzywa nasycenia” prowadząca do całkowitego zestawu genów jest daleka od osiągnięcia plateau, co sugeruje, że pan-Genom Pandoraviridae jest otwarty, a każdy dodatkowy izolat przewiduje udział więcej niż 50 dodatkowych genów (Fig. 2b). Pozostaje to potwierdzone analizą dodatkowych izolatów Pandoraviridae.
następnie zbadaliśmy globalne podobieństwo sześciu izolatów pandoravirusa, analizując ich wspólną zawartość genów zarówno pod względem podobieństwa sekwencji białek, jak i pozycji genomowej. Podobieństwo parami pomiędzy różnymi izolatami pandoravirusa waha się od 54 do 88%, obliczone na podstawie super dopasowania produktów białkowych genów ortologicznych (dodatkowa Tabela 2). Drzewo filogenetyczne obliczone z tych samych danych klastrów pandoraviruses na dwa oddzielne klady (rys. 3).
struktura filogenetyczna proponowanej rodziny Pandoraviridae. Wartości Bootstrap oszacowane na podstawie resamplingu są równe 1, więc nie zostały zgłoszone. Współczynniki substytucji (ω) zostały obliczone dla dwóch oddzielnych kladów i są znacząco różne (pasek skali wynosi 0.07 substitution/site)
interpretowany w kontekście geograficznym, ten wzorzec grupowania przekazuje dwie ważne właściwości powstającej rodziny. Z jednej strony, najbardziej rozbieżne szczepy nie są izolowane z najbardziej odległych miejsc (np. chilijski P. salinus kontra Francuski P. quercus; Neokaledoński P. neocaledonia kontra Australijski P. macleodensis). Z drugiej strony, dwa Izolaty (np. P. dulcis versus P. macleodensis) od identycznych środowisk (dwa stawy położone 700 m od siebie i połączone niewielkim przepływem wody) są zupełnie inne. W oczekiwaniu na większą skalę inwentarza Pandoraviridae, wyniki te już sugerują, że członkowie tej rodziny są rozproszeni na całym świecie z podobnymi lokalnymi i globalnymi różnicami.
nasza analiza pozycji genów homologicznych w różnych genomach wykazała, że pomimo różnic w sekwencji (dodatkowa Tabela 2), 80% genów ortologicznych pozostaje kolinearnych. Jak pokazano na Fig. 4, Architektura dalekiego zasięgu genomów pandoravirusa (tj., na podstawie pozycji genów ortologicznych) jest globalnie zachowana, pomimo różnic w rozmiarach (1,83–2,47 Mb). Jednak jedna połowa chromosomów pandoravirus (lewy region na Fig. 4) co ciekawe, ewolucyjnie bardziej stabilny niż druga połowa, gdzie występuje większość segmentów niehomologicznych. Segmenty te zawierają geny specyficzne dla szczepu i są wzbogacone w tandemowe duplikacje nieortologicznych białek zawierających ankyrinę, MORN i F-box. Odwrotnie, stabilna połowa genomu koncentruje większość genów tworzących Rdzeń genomu Pandoraviridae (Góra Fig. 4). Co ciekawe, lokalna inwersja, która odróżnia chromosom P. neocaledonia od innych szczepów, znajduje się w pobliżu granicy między regionami stabilnymi i niestabilnymi i może być związana z tym przejściem (choć może być przypadkowa). Wreszcie, wszystkie genomy są również wzbogacone w geny specyficzne dla szczepu (i / lub duplikacje)na obu kończynach.