Articles

różnorodność i ewolucja wschodzącej rodziny Pandoraviridae

pobieranie próbek środowiskowych i izolacja szczepów pandoravirusów

wykorzystaliśmy ten sam protokół izolacji, który doprowadził do odkrycia P. salinus i P. dulcis5. Polega ona na mieszaniu pobranego materiału z kulturami Acanthamoeby przystosowanymi do stężeń antybiotyków na tyle wysokich, że hamują wzrost innych mikroorganizmów środowiskowych (zwłaszcza bakterii i grzybów). Próbki pobrano losowo z wilgotnych środowisk podatnych na obecność komórek Acanthamoeba. Doprowadziło to do izolacji trzech nowych szczepów pandoravirus: P. quercus, P. neocaledonia i P. macleodensis (Tabela 1, patrz metody). Wykazują one wystarczającą rozbieżność, aby rozpocząć ocenę zachowanych cech i zmienności powstającej rodziny Pandoraviridae. W stosownych przypadkach nasze analizy obejmują również dane z P. inopinatum, wyizolowane w niemieckim laboratorium od pacjenta z zapaleniem rogówki Acanthamoeba7.

Tabela 1 dane na temat izolatów pandorawirusów stosowanych w niniejszej pracy

badanie cykli replikacji i ultrastruktur wirionu

począwszy od oczyszczonych cząstek zaszczepionych do kultur A. castellanii, możemy przeanalizowano cykl zakaźny każdego izolatu przy użyciu mikroskopii elektronowej światła i transmisji (sekcja ultracienka). Jak wcześniej zaobserwowano dla P. salinus i P. dulcis, stwierdzono, że cykle replikacji tych nowych pandorawirusów trwają średnio 12 h5 (8 h dla najszybszego P. neocaledonia). Proces zakaźny jest taki sam dla wszystkich wirusów, począwszy od internalizacji poszczególnych cząstek przez komórki Acanthamoeba. Po otwarciu porów wierzchołkowych cząstki („pandoravirions”) przenoszą swoją przezroczystą zawartość do cytoplazmy poprzez fuzję błony wewnętrznej wirionu z błoną fagosomu. Wczesne stadium infekcji jest niezwykle podobne dla wszystkich izolatów. Podczas gdy wcześniej informowaliśmy, że jądro komórkowe zostało całkowicie zakłócone w późnym etapie cyklu zakaźnego 5, dokładna obserwacja nowych szczepów ujawniła neosyntetyzowane cząstki w cytoplazmie komórek nadal wykazujących przedziały podobne do jądra, w których jądro nie było już rozpoznawalne(Fig. 1). Osiem godzin po zakażeniu Dojrzałe wiriony stają się widoczne w wakuolach i są uwalniane w wyniku egzocytozy (film dodatkowy). Dla wszystkich izolatów cykl replikacyjny kończy się Liz komórek i uwolnieniem około stu cząstek (rys. 1).

ys. 1

figure1

nowe Izolaty pandorawirusa. nadprodukcja przez komórkę A. castellanii virionów Pandoravirus macleodensis z próbki środowiskowej przed Liz komórek. Bakterie środowiskowe można zaobserwować w pożywce hodowlanej wraz z wirionami P. macleodensis. (pasek skali wynosi 10 µm). b obraz ultracienkiego odcinka komórki A. castellanii we wczesnej fazie infekcji przez P. neocaledonia. Pseudopoda ameby są gotowe do pochłonięcia otaczających wirionów. Dziesięć minut pi, wiriony zostały pochłonięte i znajdują się w wakuolach (pasek skali wynosi 500 nm). c tem obraz ultracienkiego odcinka komórki A. castellanii podczas procesu montażu wirionu P. salinus (pasek skali wynosi 500 nm). d tem obraz ultracienkiego odcinka rodzącego się P. quercus virion. (pasek skali wynosi 500 nm). Struktury dojrzałych cząstek różnych szczepów nie wykazują zauważalnej różnicy

sekwencjonowanie i adnotacja genomu

genomowe DNA P. neocaledonia, P. macleodensis i P. quercus przygotowano z oczyszczonych cząstek i zsekwencjonowano za pomocą platform PacBio lub Illumina (patrz metody). Podobnie jak w przypadku P. salinus, P. dulcis5 i P. inopinatum7, trzy nowe genomy zmontowane jako pojedyncze liniowe cząsteczki dwuniciowego DNA (dsDNA) (≈60% G + C) o rozmiarach od 1,84 do 2 Mb. Oprócz ich półprzezroczystych cząstek w kształcie amfory (rys. 1), wyższa od średniej ZAWARTOŚĆ G + C i gigantyzm genomowy pozostają więc cechami charakterystycznymi, współdzielonymi przez Pandoraviridae5, 8. Biorąc pod uwagę wysoki odsetek genów wirusowych kodujących białka bez homolog bazy danych, przewidywania genów oparte na czysto ab initio podejścia obliczeniowego (tj. „ORFing” i szacunki skłonności kodowania) są notorycznie niewiarygodne, co prowadzi do niespójności między zespołami przy użyciu różnych wartości arbitralnych parametrów (np. minimalny rozmiar otwartej ramki odczytu (ORF)). Na przykład wśród rodzin dużych wirusów dsDNA infekujących eukarioty, średnia gęstość genu kodującego białko różni się podobno od jednego genu co 335 bp (Phycodnaviridae, NCBI: NC_008724) do jednego genu co 2120 bp (Herpesviridae, NCBI: NC_003038), podczas gdy konsensus jest wyraźnie wokół jednego genu co kb (np. dla bakterii). W rezultacie jedna oscyluje pomiędzy sytuacjami, w których wiele genów jest przecenianych, a inne, w których wiele prawdziwych genów jest prawdopodobnie przeoczonych. Taka niepewność co do tego, które geny są „prawdziwe”, wprowadza istotny szum w porównawczych analizach genomicznych i późniejszych testach hipotez ewolucyjnych. Ponadto metody obliczeniowe są w większości ślepe na geny wyrażone jako transkrypty kodujące białka.

aby przezwyciężyć powyższe ograniczenia, przeprowadziliśmy specyficzne dla nici eksperymenty RNA-seq i analizy proteomów cząsteczek, których wyniki zostały zmapowane na sekwencjach genomu. Tylko geny poparte dowodami eksperymentalnymi (lub podobieństwem białek) zostały zachowane w tym rygorystycznym protokole reanotacji (patrz metody, Fig. 2). Z jednej strony ta nowa procedura doprowadziła do zmniejszenia zestawu przewidywanych białek, z drugiej strony pozwoliła na odkrycie nieoczekiwanej dużej liczby niekodujących transkryptów (Tabela 1).

nowy zestaw zwalidowanych genów kodujących białka wykazuje silnie zmniejszoną proporcję ORF krótszych niż 100 reszt, z których większość jest unikalna dla każdego szczepu pandoravirusa (Fig. 3). Rygorystyczna procedura adnotacji doprowadziła również do tego, że geny wykazywały dobrze wyśrodkowany, unimodalny rozkład wartości indeksu adaptacji kodonów (Cai) (Fig. 3).

aby uzyskać spójność, ekstrapolowaliśmy nasz rygorystyczny protokół adnotacji na P. inopinatum i P. macleodensis, zmniejszając liczbę przewidywanych białek branych pod uwagę w dalszych porównaniach (patrz metody, Tabela 1). Zgodnie z oczekiwaniami, rozbieżności pomiędzy standardowymi a surowymi przewidywaniami genów wynikają jedynie z nadpredykcji małych ORF (długość < 300 nukleotydów). Takie dowolne ORF są podatne na powstawanie losowo w sekwencjach bogatych w G + C, w których kodony stop (TAA, TAG i TGA) są mniej prawdopodobne niż w niekodujących regionach genomów bogatych w a + T. W rzeczywistości powyższe standardowe i rygorystyczne protokoły adnotacji miały zastosowanie do A + T-rich (74.8%) Megavirus chilensis genome3 skutkował dwoma bardzo podobnymi zestawami przewidywanych i zwalidowanych genów kodujących białka (1120 i 1108). Kontrola ta wskazuje, że nasza rygorystyczna adnotacja nie polega po prostu na odrzucaniu ostatecznie poprawnych przewidywań genów przez arbitralne podniesienie progu ufności, ale w szczególności na korygowaniu błędów wywołanych przez skład bogaty w G + C. Czysto obliczeniowe metody adnotacji genów są więc znacznie mniej wiarygodne dla genomów bogatych w G + C, zwłaszcza gdy kodują dużą część Orfanów (tj. Warto jednak zauważyć, że nawet po naszej surowej reannotacji frakcja przewidywanych białek bez znacznego podobieństwa sekwencji poza rodziną Pandoraviridae pozostała dość wysoka (od 67 do 73%, Fig. 4).

dodatkowym wyzwaniem dla dokładnej adnotacji genomów pandorawirusa jest obecność intronów (praktycznie niewykrywalnych metodami obliczeniowymi, gdy przerywają One Orfany). Mapowanie złożonych sekwencji transkrypcyjnych na genomy P. salinus, P. dulcis, P. quercus i P. neokaledonia umożliwiła wykrycie intronów spliceosomalnych w 7,5–13% zwalidowanych genów kodujących białka. Introny te znaleziono w regionach nieprzetłumaczonych (UTRs), jak również w sekwencjach kodujących, w tym średnio 14 genów spośród tych kodujących 200 najbardziej obfitych białek wykrytych w cząsteczkach (patrz poniżej). Chociaż introny spliceosomalne znajdują się w innych wirusach z fazą jądrową, takich jak chlorowirusy9, pandorawirusy są jedynymi, dla których introny spliceosomalne zostały zatwierdzone dla ponad 10% ich genów. Wyniki te potwierdzają naszą wcześniejszą sugestię, że przynajmniej część transkryptów pandorawirusa jest syntetyzowana i przetwarzana przez maszynę jądrową gospodarza 5. Jednak liczba intronu na gen wirusa pozostaje znacznie niższa (średnio około 1,2) niż w przypadku genów gospodarza (średnio 6,21). Geny pandorawirusa wykazują UTRs dwa razy dłużej (tabela uzupełniająca 1) niż geny mimiviridae11.

mapowanie danych RNA-seq doprowadziło do nieoczekiwanego odkrycia dużej liczby (157-268) długich niekodujących transkryptów (Lncrna) (Tabela 1, dodatkowa Tabela 1 dla szczegółowych statystyk). Te Lncrna wykazują ogon polyA i około 4% z nich zawierają spliceosomal introns. Lncrna są najczęściej transkrybowane z odwrotnej nici zwalidowanych genów kodujących białko, podczas gdy mniejsza frakcja ulega ekspresji w regionach międzygenicznych (tj. inter-ORF) (Fig. 5). Te niekodujące transkrypty mogą odgrywać rolę w regulacji ekspresji genów pandorawirusa.

ogólnie, 82,7–87% genomów pandoravirusa jest transkrybowane (w tym ORFs, UTRs i Lncrna), ale tylko 62-68, 2% jest przekształcane w białka. Takie wartości są znacznie niższe niż u wirusów olbrzymich z innych rodzin (np. 90% genomu Mimivirus11 jest tłumaczone), częściowo ze względu na większe UTRs flankujące geny pandoravirusa.

genomika porównawcza

sześć zestawów genów kodujących białka uzyskanych z powyższej surowej adnotacji zostało następnie użyte jako odniesienia do porównań całego genomu w celu identyfikacji specyficznych cech rodziny Pandoraviridae. Po klastrowaniu opartym na podobieństwie sekwencji (patrz metody) obliczono względne nakładanie się zawartości genu różnych szczepów (Fig. 2A), wytwarzając to, co nazywamy „klastrami białkowymi”.

ys. 2
rys. 2

porównanie zawartości genu pandoravirus. a pokazano rozkład wszystkich kombinacji współdzielonych klastrów białek. Wstawka podsumowuje liczbę klastrów i genów dzielonych przez 6, 5, 4, 3, 2, i 1 pandorawirusy. b Genom rdzenia i pan-Genom oszacowano na podstawie sześciu dostępnych pandorawirusów. Szacowany parametr α prawa sterty (α < 1) jest charakterystyczny dla otwartego genomu pan50, a wartość parametru płynności charakterystyczna dla dużej frakcji genów unikalnych51. Wykresy pudełkowe pokazują medianę, 25 I 75 percentyla. Wąsy odpowiadają skrajnym punktom danych

następnie obliczyliśmy liczbę udostępnionych (tj., „rdzeń”) i geny całkowite, gdy stopniowo włączaliśmy genomy różnych izolatów do powyższej analizy, aby oszacować rozmiar zestawu genów rdzeniowych rodziny i zestawu genów dodatkowych / elastycznych. Jeśli sześć dostępnych izolatów wydaje się wystarczające do wyznaczenia genomu rdzenia kodującego 455 różnych klastrów białek, „krzywa nasycenia” prowadząca do całkowitego zestawu genów jest daleka od osiągnięcia plateau, co sugeruje, że pan-Genom Pandoraviridae jest otwarty, a każdy dodatkowy izolat przewiduje udział więcej niż 50 dodatkowych genów (Fig. 2b). Pozostaje to potwierdzone analizą dodatkowych izolatów Pandoraviridae.

następnie zbadaliśmy globalne podobieństwo sześciu izolatów pandoravirusa, analizując ich wspólną zawartość genów zarówno pod względem podobieństwa sekwencji białek, jak i pozycji genomowej. Podobieństwo parami pomiędzy różnymi izolatami pandoravirusa waha się od 54 do 88%, obliczone na podstawie super dopasowania produktów białkowych genów ortologicznych (dodatkowa Tabela 2). Drzewo filogenetyczne obliczone z tych samych danych klastrów pandoraviruses na dwa oddzielne klady (rys. 3).

ys. 3
rys. 3

struktura filogenetyczna proponowanej rodziny Pandoraviridae. Wartości Bootstrap oszacowane na podstawie resamplingu są równe 1, więc nie zostały zgłoszone. Współczynniki substytucji (ω) zostały obliczone dla dwóch oddzielnych kladów i są znacząco różne (pasek skali wynosi 0.07 substitution/site)

interpretowany w kontekście geograficznym, ten wzorzec grupowania przekazuje dwie ważne właściwości powstającej rodziny. Z jednej strony, najbardziej rozbieżne szczepy nie są izolowane z najbardziej odległych miejsc (np. chilijski P. salinus kontra Francuski P. quercus; Neokaledoński P. neocaledonia kontra Australijski P. macleodensis). Z drugiej strony, dwa Izolaty (np. P. dulcis versus P. macleodensis) od identycznych środowisk (dwa stawy położone 700 m od siebie i połączone niewielkim przepływem wody) są zupełnie inne. W oczekiwaniu na większą skalę inwentarza Pandoraviridae, wyniki te już sugerują, że członkowie tej rodziny są rozproszeni na całym świecie z podobnymi lokalnymi i globalnymi różnicami.

nasza analiza pozycji genów homologicznych w różnych genomach wykazała, że pomimo różnic w sekwencji (dodatkowa Tabela 2), 80% genów ortologicznych pozostaje kolinearnych. Jak pokazano na Fig. 4, Architektura dalekiego zasięgu genomów pandoravirusa (tj., na podstawie pozycji genów ortologicznych) jest globalnie zachowana, pomimo różnic w rozmiarach (1,83–2,47 Mb). Jednak jedna połowa chromosomów pandoravirus (lewy region na Fig. 4) co ciekawe, ewolucyjnie bardziej stabilny niż druga połowa, gdzie występuje większość segmentów niehomologicznych. Segmenty te zawierają geny specyficzne dla szczepu i są wzbogacone w tandemowe duplikacje nieortologicznych białek zawierających ankyrinę, MORN i F-box. Odwrotnie, stabilna połowa genomu koncentruje większość genów tworzących Rdzeń genomu Pandoraviridae (Góra Fig. 4). Co ciekawe, lokalna inwersja, która odróżnia chromosom P. neocaledonia od innych szczepów, znajduje się w pobliżu granicy między regionami stabilnymi i niestabilnymi i może być związana z tym przejściem (choć może być przypadkowa). Wreszcie, wszystkie genomy są również wzbogacone w geny specyficzne dla szczepu (i / lub duplikacje)na obu kończynach.

ys. 4

figure4

Koliniowość dostępnych genomów pandoravirusa. Skumulowana częstotliwość genów rdzeniowych jest pokazana na górze. Zachowane bloki koliniowe są kolorowe w tym samym kolorze we wszystkich wirusach. Białe bloki odpowiadają niezachowanym segmentom DNA (pasek skali wynosi 500 kb)

następnie przeanalizowaliśmy rozkład przewidywanych białek wśród standardowych szerokich kategorii funkcjonalnych (rys. 5). Ponieważ jest to obecnie powtarzające się w przypadku dużych i olbrzymich eukariotycznych wirusów DNA, dominującą kategorią są zdecydowanie białka pozbawione rozpoznawalnych sygnatur funkcjonalnych. W sześciu szczepach średnio 70% przewidywanych białek odpowiada „nieznanym funkcjom”. Tak wysoki odsetek jest tym bardziej godny uwagi, że dotyczy starannie zwalidowanych zestawów genów, z których wyeliminowano wątpliwe ORF. Jest więc biologiczną rzeczywistością, że znaczna większość tych białek wirusowych nie może być połączona z wcześniej scharakteryzowanymi szlakami. Co ciekawe, udział takich anonimowych białek pozostaje dość wysoki (65%) wśród produktów genomu rdzenia pandoravirusa, który jest jednym z przypuszczalnie istotnych genów dzielonych przez sześć dostępnych szczepów (i prawdopodobnie wszystkich przyszłych członków rodziny, zgodnie z Rys. 2b). Co ciekawe, proporcja ta pozostaje również bardzo wysoka (≈80%) wśród białek wykrytych jako stanowiące cząsteczki wirusa. Ponadto odsetek anonimowych białek całkowicie dominuje w klasyfikacji genów unikalnych dla każdego szczepu, na poziomie ponad 95%. Najbardziej ogólna kategoria funkcjonalna, „interakcja białko–białko”, jest następną największą (od 11,7 do 18,9%), odpowiadającą wykrywaniu bardzo częstych i niedoinformowanych motywów (np. powtórzeń ankyrin). Ogólnie rzecz biorąc, udział białek pandorawirusowych, którym można przypisać prawdziwie informacyjną funkcję, wynosi <20%, w tym kompletna maszyna do replikacji i transkrypcji DNA.

ys. 5

figure5

adnotacje funkcjonalne

następnie zbadaliśmy dwa procesy ewolucyjne prawdopodobnie w początkach bardzo dużych rozmiarów genomów pandoravirusa: poziome transfery genów (hgts) i duplikacje genów. Akwizycja genów przez HGT była często przywoływana w celu wyjaśnienia wielkości genomu wirusów zarażających amebę w porównaniu z” zwykłymi ” wirusami12, 13. Obliczyliśmy, że do jednej trzeciej białek pandoravirusa wykazuje podobieństwa sekwencji (poza rodziną Pandoraviridae) z białkami z trzech domen komórkowych (Eukarya, Archaea i Eubacteria) lub innych wirusów (Fig. 4). Jednak takie podobieństwa nie oznaczają, że geny te zostały nabyte poziomo. Mogą również oznaczać wspólne pochodzenie przodków lub przeniesienie z pandoravirusa do innych mikroorganizmów. Indywidualnie przeanalizowaliśmy pozycję filogenetyczną każdego z tych przypadków, aby wywnioskować ich prawdopodobne pochodzenie: przodkowie-gdy znajdują się poza klastrami homologów komórkowych lub wirusowych; nabyte poziomo – gdy znajdują się głęboko osadzone w powyższych klastrach; lub poziomo przeniesione na organizmy komórkowe lub niezwiązane wirusy w sytuacji odwrotnej (tj. białko komórkowe leżące w klastrze białek pandoravirusa). Dodatkowe Rys. 6 podsumowuje wyniki tej analizy.

możemy postawić jednoznaczną diagnozę HGT dla 39% przypadków, reszta pozostaje nierozstrzygalna lub zgodna z pochodzeniem przodków. Wśród prawdopodobnych HGT, 49% sugerowało poziome zwiększenie przez pandorawirusy, a 51% przeniesienie genu z pandorawirusa. Co ciekawe, nabycie genów gospodarza, proces zwykle przywoływany jako ważny w ewolucji wirusów, stanowi tylko niewielką część (13%) zdiagnozowanych HGT, a więc mniej niż od wirusów do gospodarza (18%). Połączenie powyższych statystyk z udziałem genów (1/3), od których zaczęliśmy, w całym genomie, sugeruje, że co najwyżej 15% (i co najmniej 6%) zawartości genów pandoravirus mogło pochodzić od organizmów komórkowych (w tym 5-2% od ich współczesnego gospodarza Acanthamoeba) lub innych wirusów. Taki zakres wartości jest porównywalny z tym, co wcześniej oszacowano dla Mimivirus14. HGT nie jest zatem charakterystycznym procesem u źródeł genomu pandorawirusa olbrzymiego.

następnie zbadaliśmy występowanie duplikacji wśród genów pandorawirusa. 6A porównuje proporcje pojedynczych i zduplikowanych (lub więcej) genów kodujących białka sześciu dostępnych pandorawirusów z proporcjami obliczonymi dla przedstawicieli trzech innych znanych rodzin gigantycznych wirusów DNA infekujących Acanthamoeba. Wyraźnie pokazuje, że odsetek genów wielokrotnych (od 55 do 44%) jest wyższy u pandorawirusów niż u innych rodzin wirusów, chociaż nie koreluje idealnie z ich odpowiednimi rozmiarami genomu. Rozkład wielkości klastrów pomiędzy różnymi szczepami pandoravirusa jest podobny. Większość genów wielokrotnych znajduje się w klastrze wielkości 2 (duplikacja) lub 3 (triplikacja). Liczba większych skupisk następnie zmniejsza się wraz z ich wielkością (dodatkowe rys. 7).

ys. 6
rys. 6

Analiza duplikacji genów w różnych rodzinach gigantycznych wirusów. rozkład genów pojedynczych kopii w porównaniu z genami wielokrotnych kopii w gigantycznych wirusach. B Liczba odrębnych klastrów genów

mniej dużych klastrów (rozmiar > 20) odpowiada białkom współdzielącym motywy interakcji białko–białko, takie jak powtórzenia Ankyrin, MORN i F-box. Co zaskakujące, absolutna liczba pojedynczych kopii genów w pandorawirusach jest podobna, a czasami mniejsza (np. P. neocaledonia, 2 Mb) niż u Mimiwirusa, z genomem (1,18 Mb) o połowę mniejszym. Ogólnie rzecz biorąc, liczba odrębnych klastrów genów (rys. 6B) pokrywają się pomiędzy Pandoraviridae (od 607 do 775) i Mimiwirusem (687), co sugeruje, że pomimo różnic w genomie i wielkości cząstek wirusy te mają porównywalną złożoność genetyczną.

duplikacja genów jest tak ważną cechą genomów pandoravirusa, że zbadaliśmy go dalej, szukając więcej informacji na temat jego mechanizmu. Najpierw obliczyliśmy odległości genomowe między parami najbliższych paralogów, najprawdopodobniej wynikające z ostatnich przypadków powielania. Rozkład tych odległości, podobny dla każdego pandorawirusa, wskazuje, że najbliższe paralogi są najczęściej zlokalizowane obok siebie (odległość = 1) lub oddzielone pojedynczym genem (odległość = 2) (dodatkowe rys. 8).

następnie próbowaliśmy skorelować fizyczną odległość dzielącą zduplikowane geny z ich rozbieżnością sekwencji jako (przybliżoną) oszacowanie ich odległości ewolucyjnej. Uzyskaliśmy znaczącą korelację między szacowanym „wiekiem” zdarzenia duplikacji a odległością genomową dwóch najbliższych paralogów (rys. uzupełniająca). 9). Wyniki te sugerują ewolucyjny scenariusz, w którym większość duplikacji występuje najpierw w tandemie, a kolejne zmiany genomu (insercje, inwersje i straty genów) stopniowo zacierają ten sygnał.

porównawcza proteomika pandoravirionów

nasza poprzednia analiza proteomiczna spektrometrii masowej cząstek P. salinus zidentyfikowała 210 wirusowych produktów genowych, z których większość Orfanów lub bez przewidywalnej funkcji. Ponadto wykryliśmy 56 białek gospodarza (Acantamoeba). Co ważne, w cząsteczkach nie wykryto żadnego ze składników aparatu transkrypcyjnego kodowanego wirusem5. W tej pracy przeprowadziliśmy te same analizy Na P. salinus, P. dulcis i dwóch nowych izolatach (P. quercus i P. neocaledonia), aby określić, w jakim stopniu powyższe cechy zostały zachowane dla członków rodziny Pandoraviridae o różnych poziomach rozbieżności, i zidentyfikować rdzeń w porównaniu z dodatkowymi składnikami rodzajowego pandoravirion.

ze względu na stałą poprawę czułości w spektrometrii masowej, nasze nowe analizy oczyszczonych wirionów doprowadziły do wiarygodnej identyfikacji 424 białek dla P. salinus, 357 dla P. quercus, 387 dla P. dulcis i 337 dla P. neocaledonia (patrz metody). Jednak ta zwiększona liczba identyfikacji odpowiada wartościom obfitości (obliczanie bezwzględne oparte na intensywności, iBAQ) obejmującym więcej niż pięć rzędów wielkości. Wiele białek zidentyfikowanych w ogonie niskiej obfitości może zatem nie odpowiadać autentycznym składnikom cząstek, ale losowo załadowanym osobom postronnym,” lepkim ” białkom lub pozostałym zanieczyszczeniom z zainfekowanych komórek. Ta ostrożna interpretacja jest sugerowana przez kilka uwag:

  • ogon niskiej obfitości jest stopniowo wzbogacany w białka wirusowe zidentyfikowane w cząsteczkach pojedynczego szczepu pandorawirusa (nawet jeśli inne szczepy posiadają geny homologiczne),

  • proporcja białek kodowanych przez gospodarza przypuszczalnie związanych z cząsteczkami wzrasta z najmniejszą obfitością,

  • wiele z tych białek gospodarza zostało wcześniej wykrytych w cząsteczkach wirusa niezwiązanych z pandorawirusami, ale zakażających tego samego gospodarza,

  • >

  • białka te występują w proteomie Acanthamoeba (np., aktyna, peroksydaza, itp.), dzięki czemu są bardziej narażone na zachowanie jako zanieczyszczenia oczyszczające.

Niestety, rozkłady wartości iBAQ związane z proteomami pandoravirion nie wykazywały nieciągłości, która mogłaby służyć jako obiektywny próg obfitości w celu odróżnienia prawdziwych składników cząstek od wątpliwych. Jednak liczba zidentyfikowanych białek Acanthamoeba gwałtownie wzrasta po rangi ≈200 w całym proteomie(dodatkowe rys. 10). Kierując się tą samą konserwatywną postawą, co w przypadku reanotacji genomu, postanowiliśmy pominąć białka zidentyfikowane poniżej tej rangi jako prawdopodobni obserwatorzy i uwzględnić tylko 200 najliczniejszych białek w naszych dalszych analizach proteomów cząsteczkowych (dane uzupełniające 1, Tabela uzupełniająca 3). Korzystając z tej surowej definicji proteomu dla każdego z czterech różnych pandoravirionów, najpierw zbadaliśmy różnorodność ich białek tworzących i ich poziom ochrony w porównaniu z globalną zawartością genów odpowiednich genomów pandoravirusa.

Fig.7 pokazuje, że proteomy cząsteczkowe obejmują białka należące do 194 odrębnych klastrów, z których 102 są wspólne dla czterech szczepów. Rdzeń proteomu jest więc strukturalnie i funkcjonalnie zróżnicowany. Odpowiada 52,6% wszystkich klastrów białkowych globalnie zidentyfikowanych we wszystkich pandorawirionach. Dla porównania, 467 klastrów białek kodowanych przez genom rdzenia stanowi tylko 41,6% (tj. 467/1122) ogólnej liczby klastrów białek kodowanych przez pandoravirus. „Pudełko” pandorawirusa używane do propagacji genomów różnych szczepów jest zatem znacznie bardziej zachowane niż zawartość ich genów (P ” 10-3, test chi-kwadrat). Geny kodujące rdzeń proteomu wykazują również najsilniejszą selekcję oczyszczającą spośród wszystkich genów pandoravirusa (Fig. 11a).

ys. 7

figure7

diagram Venna proteomów cząstek czterech różnych szczepów pandoravirusów

aby ocenić wiarygodność naszych analiz proteomów, porównaliśmy wartości liczebności (ibaq) określone dla każdego z 200 najbardziej obfitych białek dla dwóch replikatów technicznych i dla dwóch replikatów biologicznych przeprowadzonych na tym samym szczepie pandoravirusa (fig. 12a & b). Bardzo dobra korelacja (R > 0.97) uzyskano w obu przypadkach dla wartości liczebności powyżej trzech rzędów wielkości. Następnie porównaliśmy wartości iBAQ uzyskane dla białek ortologicznych współdzielonych przez proteomy wirionowe różnych izolatów. Tutaj ponownie zaobserwowano dobrą korelację (R > 0,81), zgodnie z oczekiwaniami mniejszą niż dla powyższych replikatów (dodatkowe rys. 12c & d). Wyniki te sugerują, że chociaż cząstki różnych szczepów wydają się morfologicznie identyczne (dodatkowe rys. 1), przyznają namacalną elastyczność zarówno pod względem zestawów białkowych, z których są zbudowane (średnio 89% par ortologów), jak i precyzyjnej stechiometrii.

następnie zbadaliśmy przewidywane funkcje białek tworzących cząstki, od najbardziej do najmniej obfitych, mając nadzieję uzyskać pewne informacje na temat wczesnego procesu zakaźnego. Niestety tylko 19 klastrów białek może być związanych z funkcjonalnym/strukturalnym motywem spośród 102 różnych klastrów definiujących proteom cząstek rdzeniowych (dane uzupełniające 1, Tabela uzupełniająca 3). Proporcja ta jest mniejsza niż dla całego genomu (rys. 5), potwierdzając obcą naturę cząstki pandoravirusa, jak już sugerowano w jej unikalnej morfologii i procesie montażu5. Pandoraviriony zbudowane są głównie z białek bez homologów spoza rodziny Pandoraviridae. Nie wykryto żadnego białka, nawet zdalnie podobnego do Zwykle obfitego białka głównego kapsydu (MCP), przewidywanego białka rdzeniowego wiążącego DNA lub ATPazy pakującej DNA, cech charakterystycznych większości eukariotycznych dużych wirusów DNA. W szczególności P. hipotetyczne białko salinusa (wcześniej ps_862, teraz ponownie ps_cds_450) zasugerowane ostatnio przez Sinclaira i wsp.15 aby być silnym kandydatem do MCP nie wykryto w wirionach P. salinus, ani jego homologach w innych proteomach szczepu. Ten negatywny wynik podkreśla potrzebę eksperymentalnej walidacji prognoz komputerowych wykonanych z” Strefy Mroku ” podobieństwa sekwencji. Nie wykryto również śladu polimerazy RNA kodowanej przez pandorawirus, co potwierdza, że początkowe stadium zakażenia wymaga maszynerii transkrypcyjnej gospodarza znajdującej się w jądrze. Introny spliceosomalne zwalidowano dla 56 genów pandorawirusowych, których produkty wykryto w pandorawirionach (Dane dodatkowe 1). Wskazuje to na zachowanie funkcjonalnego spliceosomu do końca cyklu zakaźnego, zgodnie z oczekiwaniami wynikającymi z obserwacji nieprzerwanych jąder (Fig. 1).

wśród 19 nieanonimowych klastrów białek, 4 wykazują generyczne motywy bez konkretnej funkcjonalnej Wskazówki: 2 domeny podobne do kolagenu i 1 domena podobna do Pan / APPLE, które biorą udział w interakcjach białko-białko, i 1 domena podobna do miedzi odpowiadająca rodzajowemu fałdowi beczkowatemu. Spośród 10 najliczniejszych białek rdzeniowych, 9 nie ma przewidywanej funkcji, z wyjątkiem 1 wykazującego C-końcową domenę tioredoksynopodobną (psal_cds_383). Warto zauważyć, że przewidywany segment błonowy obejmujący 22 aminokwasy (85-107) jest zachowany we wszystkich szczepach pandoravirusa. 5 ’ UTR odpowiednich genów wykazuje 2 introny (u P. salinus, P. dulcis i P. quercus) i 1 u p. neocaledonia. Tioredoksyna katalizuje reakcje wymiany ditiolowo-dwusiarczkowej poprzez odwracalne utlenianie jej centrum aktywnego. Białko to, wraz z innym z tej samej rodziny (psal_cds_411, przewidywane jako rozpuszczalne), może być zaangażowane w naprawę/zapobieganie wywołanym przez fagosomy uszkodzeniom oksydacyjnym białek wirusowych przed początkowym stadium infekcji. Cząsteczki mają również udział w innym enzym redoks, podobnym do ERV oksydoreduktazie tiolowej, który może uczestniczyć w dojrzewaniu białek Fe/S. Inne białko rdzeniowe (psal_cds_1260) o zdalnym podobieństwie do reduktazy tioredoksyny może uczestniczyć w regeneracji utlenionych miejsc aktywnych powyższych enzymów. Wśród najliczniejszych białek rdzeniowych, psal_cds_232 jest przewidywany jako Wiązanie DNA i może być zaangażowany w Pakowanie genomu. Jedna przypuszczalnie zależna od nad oksydaza aminowa (psal_cds_628) i jedna dehydrogenaza sprzężona z FAD (psal_cds_1132) uzupełniają panel konserwowanych przypuszczalnych enzymów redoks. Inne przewidywane białka rdzeniowe obejmują kinazę Ser / thr i fosfatazę, które są typowymi funkcjami regulacyjnymi. Jedna proteaza serynowa, jedna lipaza, jedna fosfolipaza podobna do patatyny i jeden zdalny homolog nukleoporyny mogą być częścią zestawu narzędzi używanych do przesyłania genomów pandorawirusa do cytoplazmy, a następnie do jądra (tabela uzupełniająca 3). Wreszcie, dwa białka rdzeniowe (psal_cds_118 i psal_cds_874) mają wspólny motyw endoribonukleazy i mogą funkcjonować jako regulatory transkrypcyjne skierowane do komórkowego mRNA.

w przeciwieństwie do definiowania zestawu białek rdzeniowych współdzielonych przez wszystkie pandoraviriony, badaliśmy również składniki specyficzne dla szczepu. Niestety, większość białek wirionowych unikalnych dla danego szczepu (średnio około 10) jest anonimowych i ma niską liczebność. Nie można było przewidzieć funkcjonalnych konsekwencji ich obecności w cząsteczkach.