Diversity and evolution of the emerging Pandoraviridae family
környezeti mintavétel és a pandoravírus törzsek izolálása
ugyanazt az izolációs protokollt használtuk, amely a P. salinus és a P. dulcis5 felfedezéséhez vezetett. Ez abból áll, hogy a mintavételezett anyagot olyan Acanthamoeba tenyészetekkel keverik össze, amelyek elég magas antibiotikum-koncentrációhoz igazodnak ahhoz, hogy gátolják más környezeti mikroorganizmusok (különösen baktériumok és gombák) növekedését. A mintákat véletlenszerűen vettünk a kikötő Acanthamoeba sejtjeire érzékeny nedves környezetből. Ez három új pandoravírus törzs izolálásához vezetett: P. quercus; P. neocaledonia; és P. macleodensis (1.táblázat, lásd módszerek). Megfelelő divergenciát mutatnak ahhoz, hogy elkezdjék értékelni a kialakuló Pandoraviridae család konzervált tulajdonságait és variabilitását. Adott esetben elemzéseink tartalmazzák a P. inopinatum adatait is, amelyet egy német laboratóriumban izoláltak egy Acanthamoeba keratitisben szenvedő betegtől7.
a replikációs ciklusok és virion ultrastruktúrák vizsgálata
az A. castellanii kultúrákba beoltott tisztított részecskékből kiindulva elemeztük az egyes izolátumok fertőző ciklusa mind fény, mind transzmissziós elektronmikroszkóppal (ultravékony szakasz). Amint azt a P. salinus és a P. dulcis esetében korábban megfigyelték, ezeknek az új pandoravírusoknak a replikációs ciklusa átlagosan 12 h5 (8 h a leggyorsabb P. neokaledónia). A fertőző folyamat minden vírus esetében azonos, kezdve az egyes részecskék Acanthamoeba sejtek általi internalizálásával. Apikális pórusuk megnyitását követően a részecskék (“pandoravirionok”) áttetsző tartalmukat a citoplazmába továbbítják a virion belső membránjának a fagoszóma fúziójával. A fertőzés korai stádiuma minden izolátum esetében rendkívül hasonló. Míg korábban arról számoltunk be, hogy a sejtmag teljesen megszakadt a fertőző ciklus késői stádiumában5, az új törzsek alapos megfigyelése neo-szintetizált részecskéket tárt fel a sejtek citoplazmájában, amelyek még mindig olyan magszerű rekeszeket mutatnak, amelyekben a nucleolus már nem volt felismerhető (kiegészítő ábra. 1). Nyolc órával a fertőzés után az érett virionok láthatóvá váltak a vakuolákban, és exocitózis útján szabadultak fel (kiegészítő film). Minden izolátum esetében a replikációs ciklus a sejtek lízisével és körülbelül száz részecske felszabadulásával ér véget (ábra. 1).
genomszekvenálás és annotáció
A P. Neocaledonia, a P. macleodensis és a P. a quercus-t tisztított részecskékből állítottuk elő, és PacBio vagy Illumina platformokkal szekvenáltuk (lásd a módszereket). A P. salinus, a P. dulcis5 és a P. inopinatum7 esetében a három új Genom egyetlen lineáris kettős szálú DNS (dsDNS) molekulaként (60% g + C) állt össze, méretük 1,84-2 Mb volt. Az áttetsző Amfora alakú részecskék mellett (ábra. 1), az átlagosnál magasabb G + C tartalom és a genomi gigantizmus tehát továbbra is a Pandoraviridae5, 8. Tekintettel az adatbázis nélküli fehérjéket kódoló vírusgének magas arányára homológ, a tisztán ab initio számítási megközelítéseken alapuló gén-előrejelzések (azaz az “ORFing” és a hajlambecslések kódolása) köztudottan megbízhatatlanok, ami következetlenségekhez vezet az önkényes paraméterek különböző értékeit használó csapatok között (pl. minimális nyitott olvasási keret (ORF) méret). Például az eukariótákat megfertőző nagy dsDNS vírusok családjai között az átlagos fehérjét kódoló génsűrűség állítólag 335 bp-nként változik egy géntől (Phycodnaviridae, NCBI: NC_008724) legfeljebb egy gén 2120 bp-enként (Herpesviridae, NCBI: NC_003038), míg a konszenzus egyértelműen kb-nként egy gén körül van (például baktériumok esetében). Ennek eredményeként az egyik oszcillál olyan helyzetek között, amikor sok gén túl van előrejelezve, és mások között, ahol sok valódi gént valószínűleg figyelmen kívül hagynak. Az ilyen bizonytalanság arról, hogy mely gének “valódiak”, jelentős zajt okoz az összehasonlító genomikai elemzésekben és az evolúciós hipotézisek későbbi tesztelésében. Ezenkívül a számítási módszerek többnyire vakok a nem fehérjét kódoló transzkriptumként expresszált génekkel szemben.
a fenti korlátok leküzdése érdekében szál-specifikus RNS-seq kísérleteket és részecske-proteom elemzéseket végeztünk, amelyek eredményeit feltérképeztük a genomszekvenciákon. Csak a kísérleti bizonyítékokkal (vagy fehérje hasonlósággal) alátámasztott géneket tartották meg ebben a szigorú reannotációs protokollban (lásd módszerek, kiegészítő ábra. 2). Egyrészt ez az új eljárás csökkentette az előre jelzett fehérjéket, másrészt lehetővé tette a váratlan nagyszámú nem kódoló transzkriptum felfedezését (1.táblázat).
a validált fehérjét kódoló gének új csoportja erősen csökkentette az ORF-EK 100 maradéknál rövidebb arányát, amelyek többsége egyedi az egyes pandoravírus törzsekre (kiegészítő ábra. 3). A szigorú annotációs eljárás azt is eredményezte, hogy a kodon adaptációs index (CAI) értékek jól központosított unimodális eloszlását mutató gének (kiegészítő ábra. 3).
a konzisztencia érdekében szigorú annotációs protokollunkat extrapoláltuk a P. inopinatumra és a P. macleodensisre, csökkentve a további összehasonlítások során figyelembe vett előre jelzett fehérjék számát (lásd módszerek, 1.táblázat). Ahogy az várható volt, a standard és a szigorú gén-előrejelzések közötti eltérések pusztán a kis ORF-ek túlzott előrejelzésének tudhatók be (hossz < 300 nukleotid). Az ilyen önkényes ORF-ek hajlamosak véletlenszerűen kialakulni a G + C-ben gazdag szekvenciákban, amelyeken belül a stop kodonok (TAA, TAG és TGA) ritkábban fordulnak elő véletlenszerűen, mint az A + T-ben gazdag genomok nem kódoló régióiban. Valójában a fenti szabványos és szigorú annotációs protokollok az A + T-gazdagokra vonatkoztak (74.8%) Megavirus chilensis genome3 két nagyon hasonló előre jelzett készletet eredményezett, szemben a validált fehérjekódoló génekkel (1120 versus 1108). Ez a kontroll azt jelzi, hogy szigorú annotációnk nem egyszerűen elveti a végül helyes gén-előrejelzéseket a konfidencia küszöb önkényes emelésével, hanem kifejezetten kijavítja a G + C-ben gazdag összetétel által kiváltott hibákat. A tisztán számítási gén annotációs módszerek tehát jelentősen kevésbé megbízhatóak a G + C-ben gazdag genomok esetében, különösen akkor, ha az ORF-rajongók nagy részét kódolják (azaz ORF adatbázis nélküli homológ), mint a pandoravírusok esetében. Érdemes azonban megjegyezni, hogy a szigorú újranotálásunk után is a pandoraviridae családon kívüli szignifikáns szekvencia-hasonlóság nélküli előrejelzett fehérjék aránya meglehetősen magas maradt (67-73%, kiegészítő ábra. 4).
a pandoravírus genomok pontos megjegyzésének további kihívása az intronok jelenléte (számítási módszerekkel gyakorlatilag nem észlelhető, amikor megszakítják az ORFans-t). Az összegyűjtött transzkriptum szekvenciák feltérképezése a P. salinus, P. dulcis, P. quercus és P genomjaira. a neocaledonia lehetővé tette a spliceosomal intronok kimutatását a validált fehérjét kódoló gének 7,5–13%-ában. Ezeket az intronokat a nem lefordított régiókban (UTR-ek), valamint a kódoló szekvenciákban találták meg, köztük átlagosan 14 gént azok között, amelyek a részecskékben kimutatott 200 leggyakoribb fehérjét kódolják (lásd alább). Bár a spliceosomal intronok más nukleáris fázisú vírusokban találhatók, mint például a klórvírusok9, a pandoravírusok az egyetlenek, amelyeknél a spliceosomal intronokat génjeik több mint 10% – ára validálták. Ezek az eredmények alátámasztják korábbi javaslatunkat, miszerint a pandoravírus transzkriptumainak legalább egy részét a gazdaszervezet nukleáris gépe szintetizálja és dolgozza5. Ennek ellenére az intron vírusgénenkénti száma továbbra is jóval alacsonyabb (átlagosan 1,2 körül), mint a gazdagéneké (átlagosan 6,210). A pandoravírus gének szintén kétszer olyan hosszú UTR-eket mutatnak (1.Kiegészítő táblázat), mint a Mimiviridae11.
az RNS-seq adatok feltérképezése nagyszámú (157-268) hosszú, nem kódoló transzkriptum (Lncrns) váratlan felfedezéséhez vezetett (1.táblázat, 1. Kiegészítő táblázat a részletes statisztikákhoz). Ezeknek az Lncrns-eknek polyA farka van, és körülbelül 4% – UK spliceosomal intronokat tartalmaz. Az lncrns-eket leggyakrabban a validált fehérjét kódoló gének fordított szálából írják át, míg egy kisebb frakciót intergenikus (azaz inter-ORF) régiókban fejeznek ki (Kiegészítő ábra. 5). Ezek a nem kódoló átiratok szerepet játszhatnak a pandoravírus gének expressziójának szabályozásában.
összességében a pandoravírus genomjainak 82,7–87% – a átíródik (beleértve az ORFs – t, az UTRs-t és az Lncrns-eket), de csak 62-68, 2% – A fordul elő fehérjékké. Ezek az értékek sokkal alacsonyabbak, mint más családok óriásvírusaiban (például a Mimivirus11 Genom 90% – a lefordítva), részben a pandoravírus géneket kísérő nagyobb UTR-ek miatt.
összehasonlító genomika
a fenti szigorú annotációból nyert hat fehérjét kódoló génkészletet ezután referenciaként használták a teljes genom összehasonlításához, amelynek célja a Pandoraviridae család sajátosságainak azonosítása. A szekvencia hasonlóságon alapuló klaszterezést követően (lásd a módszereket) kiszámítottuk a különböző törzsek géntartalmának relatív átfedéseit (ábra. 2a), előállítva azt, amit “fehérje klasztereknek”nevezünk.
ezután kiszámítottuk a megosztott (azaz., “mag”) és az összes gén, ahogy fokozatosan beépítettük a különböző izolátumok genomját a fenti elemzésbe, hogy megbecsüljük a családi maggénkészlet és a kiegészítő/rugalmas génkészlet méretét. Ha a rendelkezésre álló hat izolátum elegendőnek tűnik egy 455 különböző fehérjecsoportot kódoló maggenom körvonalazásához, akkor a teljes génkészlethez vezető “telítettségi görbe” messze nem éri el a fennsíkot, ami arra utal, hogy a Pandoraviridae pán-Genom nyitott, minden további izolátum várhatóan több mint 50 további gént fog hozzájárulni (ábra. 2b). Ezt További Pandoraviridae izolátumok elemzésével kell megerősíteni.
ezután megvizsgáltuk a hat pandoravírus izolátum globális hasonlóságát azáltal, hogy elemeztük közös géntartalmukat mind a fehérje szekvencia hasonlósága, mind a genomi helyzet szempontjából. A különböző pandoravírus izolátumok páros hasonlósága 54-88% között mozog, az ortológ gének fehérjetermékeinek szuper összehangolásából számítva (2.Kiegészítő táblázat). Az azonos adatokkal kiszámított filogenetikai fa a pandoravírusokat két külön kládba csoportosítja (ábra. 3).
földrajzi kontextusban értelmezve ez a klaszterezési minta a feltörekvő család két fontos tulajdonságát közvetíti. Egyrészt a legkülönbözőbb törzsek nem a legtávolabbi helyekről izoláltak(például a chilei P. salinus versus A francia P. quercus; a Neokaledoni P. neocaledonia versus az Ausztrál P. macleodensis). Másrészt két izolátum (például P. dulcis versus P. macleodensis) azonos környezetből (két, egymástól 700 m-re elhelyezkedő, kis vízáramlással összekapcsolt tó) egészen más. A Pandoraviridae nagyobb léptékű leltárának elkészítéséig ezek az eredmények már arra utalnak, hogy e család tagjai világszerte hasonló helyi és globális változatossággal vannak elosztva.
a homológ gének helyzetének elemzése a különböző genomokban feltárta, hogy szekvencia-divergenciájuk ellenére (2.Kiegészítő táblázat) az ortológ gének 80% – a kollineáris marad. Amint az ábrán látható. 4, a pandoravírus genomok hosszú távú architektúrája (pl., az ortológ gének pozíciói alapján) globálisan konzervált, méretbeli különbségeik ellenére (1,83–2,47 Mb). Azonban a pandoravírus kromoszómák fele (a bal szélső régió az ábrán. 4) érdekes módon evolúciós szempontból stabilabbnak tűnik, mint a másik fele, ahol a nem homológ szegmensek többsége előfordul. Ezek a szegmensek törzsspecifikus géneket tartalmaznak, és nem ortológ ankyrin, MORN és F-box motif-tartalmú fehérjék párhuzamos duplikációjával gazdagodnak. Ezzel szemben a genom stabil fele koncentrálja a Pandoraviridae maggenomot alkotó gének nagy részét (ábra teteje. 4). Érdekes módon a P. neocaledonia kromoszómáját a többi törzstől megkülönböztető lokális inverzió a stabil és instabil régiók közötti határ közelében helyezkedik el, és ehhez az átmenethez kapcsolódhat (bár lehet, hogy véletlen). Végül az összes Genom mindkét végtag törzsspecifikus génjeiben (és/vagy duplikációiban) gazdagodik.
ezután elemeztük az előrejelzett fehérjék eloszlását a standard tág funkcionális kategóriák között (ábra. 5). Mivel a nagy és óriás eukarióta DNS-vírusok esetében már visszatérő, a domináns kategória messze a felismerhető funkcionális aláírásokat nem tartalmazó fehérjék kategóriája. A hat törzs között az előre jelzett fehérjék átlagosan 70% – a felel meg az “ismeretlen funkcióknak”. Az ilyen magas arány annál is inkább figyelemre méltó, mivel a gondosan validált génkészletekre vonatkozik, amelyekből a kétes ORF-eket megszüntették. Biológiai valóság tehát, hogy ezeknek a vírusfehérjéknek a nagy többsége nem kapcsolható össze a korábban jellemzett útvonalakkal. Figyelemre méltó, hogy az ilyen névtelen fehérjék aránya továbbra is meglehetősen magas (65%) a pandoravírus maggenomjának termékei között, azaz a hat rendelkezésre álló törzs (és valószínűleg minden jövőbeli családtag) feltehetően alapvető génjei között. 2b). Érdekes módon ez az arány továbbra is nagyon magas (80%) a vírusrészecskéket alkotó fehérjék között. Ezenkívül az anonim fehérjék aránya teljesen uralja az egyes törzsekre jellemző gének osztályozását, több mint 95% – ban. A legáltalánosabb funkcionális kategória, a “fehérje–fehérje kölcsönhatás” a következő legnagyobb (11,7% – ról 18,9% – ra), ami megfelel a nagyon gyakori és nem informatív motívumok kimutatásának (pl. ankyrin ismétlések). Összességében a pandoravírus fehérjék aránya, amelyeknek valóban informatív funkció tulajdonítható, <20%, beleértve a DNS replikáció és transzkripció teljes gépezetét.
ezután két evolúciós folyamatot vizsgáltunk, amelyek valószínűleg a pandoravírus genomok extra nagy méretének eredetére vezethetők vissza: horizontális géntranszferek (Hgts) és gén duplikációk. A HGT által végzett gének megszerzését gyakran hivatkozták az ameba-fertőző vírusok genomméretének magyarázatára a “normál” vírusokhoz12, 13. Kiszámítottuk, hogy a pandoravírus fehérjék legfeljebb egyharmada mutat szekvenciális hasonlóságot (a Pandoraviridae családon kívül) a három sejt doménből (Eukarya, Archaea és Eubacteria) vagy más vírusokból származó fehérjékkel (kiegészítő ábra. 4). Az ilyen hasonlóságok azonban nem jelentik azt, hogy ezeket a géneket vízszintesen megszerezték. Jelölhetnek egy közös ősi eredetet vagy egy pandoravírusról más mikroorganizmusokra történő átvitelt is. Egyenként elemeztük ezen esetek filogenetikai helyzetét, hogy következtetni lehessen valószínű eredetükre: ősi-ha a sejtes vagy vírusos homológok klaszterein kívül található; vízszintesen megszerzett-ha mélyen beágyazódik a fenti klaszterekbe; vagy vízszintesen átkerül sejtes organizmusokba vagy rokon vírusokba fordított helyzetben (azaz egy pandoravírus fehérje klaszterben fekvő sejtfehérje). Kiegészítő Ábra. 6 összefoglalja az elemzés eredményeit.
az esetek 39% – ában egyértelmű HGT-diagnózist készíthetünk, a többi pedig eldönthetetlen vagy kompatibilis az ősi eredettel. A valószínű HGT-k közül 49% a pandoravírusok horizontális nyereségét, 51% pedig egy gén átadását javasolta egy pandoravírusból. Érdekes módon a gazdagének megszerzése, amely folyamat általában a vírusok evolúciójában fontos, csak a diagnosztizált Hgt-k kis részét (13%) képviseli, tehát kevesebb, mint a vírusoktól a gazdaszervezetig (18%). A fenti statisztikák összevetése a teljes genomban a gének arányával (egyharmadával) azt sugallja, hogy a pandoravírus géntartalmának legfeljebb 15% – A (és legalább 6% – a) nyerhető sejtes organizmusokból (beleértve a korabeli Acanthamoeba gazdaszervezet 5-2% – át) vagy más vírusokból. Ez az értéktartomány összehasonlítható azzal, amit korábban a Mimivirus esetében becsültek14. A HGT tehát nem az Óriás pandoravírus genomok eredetének megkülönböztető folyamata.
ezután megvizsgáltuk a duplikációk prevalenciáját a pandoravírus gének között. A 6a ábra összehasonlítja a hat rendelkezésre álló pandoravírus egyetlen vagy több fehérjét kódoló génjének arányát az Acanthamoeba-t fertőző óriás DNS-vírusok három másik ismert családjának képviselőire kiszámított arányokkal. Ez egyértelműen azt mutatja, hogy a többszörös másolatú gének aránya (55-44% között) magasabb a pandoravírusokban, mint a többi víruscsalád esetében, bár nem tökéletesen korrelál a megfelelő genomméretekkel. A klaszterméretek eloszlása a különböző pandoravírus törzsek között hasonló. A legtöbb többszörös másolatú gén a 2-es (duplikáció) vagy 3-as (triplikáció) méretű klaszterben található. A nagyobb klaszterek száma ezután csökken a méretükkel (kiegészítő ábra. 7).
kevesebb nagy klaszter (size > 20) felel meg a fehérje–fehérje interakció motívumainak, mint például az Ankyrin, a MORN és az F-box ismétlések. Meglepő módon az egypéldányos gének abszolút száma a pandoravírusokban hasonló, néha kisebb (pl. P. neocaledonia, 2 Mb), mint a Mimivírusban, amelynek genomja (1,18 Mb) fele akkora. Összességében a különböző géncsoportok száma (ábra. 6B) átfedések vannak a Pandoraviridae (607 és 775 között) és a Mimivírus (687) között, ami arra utal, hogy genomjuk és részecskeméretük eltérése ellenére ezek a vírusok hasonló genetikai összetettséggel rendelkeznek.
mivel a gén duplikáció a pandoravírus genomjainak ilyen kiemelkedő jellemzője, tovább vizsgáltuk, hogy további betekintést nyerjünk a mechanizmusába. Első, kiszámítottuk a legközelebbi paralógok párjai közötti genomi távolságot,valószínűleg a legutóbbi duplikációs események eredményeként. Ezeknek a távolságoknak az eloszlása, hasonlóan az egyes pandoravírusokhoz, azt jelzi, hogy a legközelebbi paralogok leggyakrabban egymás mellett helyezkednek el (távolság = 1), vagy egyetlen gén választja el őket (távolság = 2) (Kiegészítő ábra. 8).
ezután megkíséreltük korrelálni a duplikált géneket elválasztó fizikai távolságot a szekvencia divergenciájukkal, evolúciós távolságuk (durva) becsléseként. Szignifikáns összefüggést kaptunk a duplikációs esemény becsült “kora” és a két legközelebbi paralóg genomi távolsága között (kiegészítő ábra. 9). Ezek az eredmények egy olyan evolúciós forgatókönyvet sugallnak, amelyben a legtöbb duplikáció először párhuzamosan fordul elő, a későbbi genomváltozásokkal (inverziók, génveszteségek) fokozatosan elmosva ezt a jelet.
A pandoravirionok összehasonlító proteomikája
korábbi tömegspektrometriánk a P. salinus részecskék proteomikus elemzése 210 vírusgénterméket azonosított, amelyek többsége ORFans vagy kiszámítható funkció nélkül. Ezen kívül 56 gazdaszervezet (Acantamoeba) fehérjét detektáltunk. Fontos, hogy a vírus által kódolt transzkripciós készülék egyik komponensét sem detektálták5. Ebben a munkában ugyanazokat az elemzéseket végeztük a P. salinus, a P. dulcis és két új izolátumon (P. quercus és P. neocaledonia), hogy meghatározzuk, milyen mértékben konzerválták a fenti tulajdonságokat a Pandoraviridae család különböző szintű divergenciájú tagjai számára, és azonosítsuk a magot a generikus pandoravirion kiegészítő összetevőivel szemben.
a tömegspektrometria állandó érzékenységének javulása miatt a tisztított virionok új elemzései 424 fehérje megbízható azonosításához vezettek a P. salinus esetében, 357 a P. quercus esetében, 387 a P. dulcis esetében és 337 A P. neocaledonia esetében (lásd módszerek). Ez a megnövekedett azonosítási szám azonban megfelel a bőségértékeknek (intenzitás alapú abszolút számszerűsítés, iBAQ), amelyek több mint öt nagyságrendet ölelnek fel. Az alacsony bőségű farokban azonosított fehérjék közül sok tehát nem felel meg a jóhiszemű részecskekomponenseknek, hanem véletlenszerűen betöltött szemlélőknek, “ragadós” fehérjéknek vagy a fertőzött sejtekből származó maradék szennyeződéseknek. Ezt az óvatos értelmezést számos megfigyelés javasolja:
-
az alacsony abundanciájú farok fokozatosan dúsul egyetlen pandoravírus törzs részecskéiben azonosított vírusfehérjékben (annak ellenére, hogy más törzsek rendelkeznek a homológ génekkel),
-
a gazdaszervezet által kódolt fehérjék aránya feltételezhetően a részecskékhez kapcsolódik a legalacsonyabb abundanciánál,
-
Ezen gazdafehérjék közül sokat korábban a pandoravírusokkal nem összefüggő vírusrészecskékben detektáltak, de ugyanazt a gazdaszervezetet fertőzték meg,
-
ezek a fehérjék bőségesek az Acanthamoeba proteomban (pl., aktin, peroxidáz stb.), így nagyobb valószínűséggel maradnak meg tisztító szennyeződésként.
sajnos a pandoravirion proteomokhoz kapcsolódó iBAQ értékeloszlások nem mutattak olyan folytonosságot, amely objektív bőségküszöbként szolgálhatna a jóhiszemű részecske-összetevők megkülönböztetésére a kétesektől. Az azonosított Acanthamoeba fehérjék száma azonban hirtelen növekszik a 200-as rang után az egész proteomban (kiegészítő ábra. 10). Ugyanazt a konzervatív hozzáállást követve, mint a genom reannotáció esetében, úgy döntöttünk, hogy figyelmen kívül hagyjuk az e rang alatt azonosított fehérjéket, mint valószínűleg kívülállókat, és csak a 200 leggyakoribb fehérjét vettük figyelembe a részecske-proteomok további elemzéseiben (1.Kiegészítő adatok, 3. Kiegészítő táblázat). Ezt a szigorú proteom definíciót használva mind a négy különböző pandoravirion esetében, először megvizsgáltuk az alkotó fehérjék sokféleségét és a megőrzés szintjét a megfelelő pandoravírus genomok globális géntartalmához képest.
a 7.ábra azt mutatja, hogy a részecske proteomjai 194 különálló klaszterhez tartozó fehérjéket tartalmaznak, amelyek közül 102-en osztoznak a négy törzsben. A magproteom tehát szerkezetileg és funkcionálisan változatos. Ez az összes pandoravirionban globálisan azonosított összes fehérje klaszter 52,6% – ának felel meg. Összehasonlításképpen, a maggenom által kódolt 467 fehérje klaszter csak a pandoravírus által kódolt fehérje klaszterek teljes számának 41,6%-át (azaz 467/1122) képviseli. A különböző törzsek genomjainak szaporítására használt pandoravírus “doboz” tehát lényegesen konzerváltabb, mint géntartalmuk (p ” 10-3, khi-négyzet teszt). A magproteomot kódoló gének szintén a legerősebb tisztító szelekciót mutatják az összes pandoravírus gén között (kiegészítő ábra. 11a).
a proteom analízisünk megbízhatóságának értékeléséhez összehasonlítottuk a az abundancia (ibaq) értékek a 200 leggyakoribb fehérje mindegyikére vonatkozóan két technikai replikátumra és két biológiai replikátumra vonatkozóan, amelyeket ugyanazon pandoravírus törzsön végeztek (kiegészítő ábra. 12a & b). Nagyon jó korreláció (Pearson R > 0.97) kapott mindkét esetben a bőség értékek kezdve több mint három nagyságrenddel. Ezután összehasonlítottuk a különböző izolátumok virion proteomjai által megosztott ortológ fehérjék iBAQ értékeit. Itt is jó korrelációt figyeltünk meg (R > 0,81), ami várhatóan kisebb, mint a fenti ismétléseknél (kiegészítő ábra. 12c & d). Ezek az eredmények arra utalnak, hogy bár a különböző törzsek részecskéi morfológiailag azonosnak tűnnek (kiegészítő ábra. 1), kézzelfogható rugalmasságot engednek meg mind a fehérjekészletek tekintetében (átlagosan a páros ortológusok 89% – ával), mind a pontos sztöchiometriájukban.
ezután megvizsgáltuk a részecskéket alkotó fehérjék előrejelzett funkcióit, a legnagyobbtól a legkevésbé bőségesig, remélve, hogy betekintést nyerünk a korai fertőző folyamatba. Sajnos a magrészecske-proteomot meghatározó 102 különböző klaszter közül csak 19 fehérje klaszter társítható funkcionális/szerkezeti motívumhoz (1.kiegészítő adat, 3. Kiegészítő táblázat). Ez az arány kisebb, mint az egész genom esetében (ábra. 5), megerősítve a pandoravírus részecske idegen természetét, amint azt az egyedi morfológiája és összeszerelési folyamata is sugallja5. A pandoravirionok többnyire homológok nélküli fehérjékből készülnek a Pandoraviridae családon kívül. Nincs olyan fehérje, amely távolról is hasonlít az általában bőséges fő kapszidfehérjéhez (MCP), egy előre jelzett DNS-kötő magfehérjéhez vagy egy DNS-csomagoló Atpázhoz, amely a legtöbb eukarióta nagy DNS-vírus jellemzője. Különösen egy P. salinus hipotetikus fehérje (korábban ps_862 most átírt psal_cds_450) a közelmúltban javasolta Sinclair et al.15 ahhoz, hogy erős MCP jelölt legyen, nem volt kimutatható a P. salinus virionokban, sem annak homológjai a többi törzs proteomjában. Ez a negatív eredmény hangsúlyozza a számítógépes előrejelzések kísérleti validálásának szükségességét a szekvencia hasonlóságának “szürkületi zónájából”. A pandoravírus által kódolt RNS polimeráz nyomát sem észlelik, megerősítve, hogy a fertőzés kezdeti stádiumához a sejtmagban található gazdaszervezet transzkripciós gépre van szükség. A spliceosomalis intronokat 56 pandoravírus génre validálták, amelyek termékeit a pandoravirionokban detektálták (1.Kiegészítő adatok). Ez jelzi a funkcionális spliceosome megőrzését a fertőző ciklus végéig, amint az a töretlen magok megfigyeléséből várható (kiegészítő ábra. 1).
a 19 nem anonim fehérje klaszter közül 4 mutat általános motívumokat specifikus funkcionális nyom nélkül: 2 kollagénszerű domén és 1 Pan/alma-szerű domén, amelyek részt vesznek a fehérje-fehérje kölcsönhatásokban, és 1 cupin-szerű domén, amely egy általános hordóredőnek felel meg. A 10 leggyakoribb magfehérje közül 9-nek nincs előre jelzett funkciója, kivéve 1-et, amely C-terminális tioredoxinszerű domént mutat (psal_cds_383). Érdemes megjegyezni, hogy a 22 aminosav (85-107) előrejelzett membrán-átívelő szegmense minden pandoravírus törzsben konzerválódik. A megfelelő gének 5 ‘ UTR-je 2 intront (a P. salinus, a P. dulcis és a P. quercus esetében), a P. neocaledonia esetében pedig 1 intront mutat. A tioredoxin aktív központjának reverzibilis oxidációja révén katalizálja a ditiol-diszulfid cserereakciókat. Ez a fehérje, ugyanannak a családnak egy másikával (psal_cds_411, oldhatónak jósolva) részt vehet a vírusfehérjék fagoszóma által kiváltott oxidatív károsodásának helyreállításában/megelőzésében a fertőzés kezdeti stádiuma előtt. A részecskék egy másik bőséges redox enzimmel is rendelkeznek, egy ERV-szerű tiol-oxidoreduktázzal, amely részt vehet a fe/s fehérjék érésében. Egy másik magfehérje (psal_cds_1260), amely távoli hasonlóságot mutat egy tioredoxin-reduktázzal, részt vehet a fenti enzimek oxidált aktív helyeinek regenerálásában. A leggyakoribb magfehérjék közül a psal_cds_232 várhatóan DNS-kötő, és részt vehet a genom csomagolásában. Egy feltételezett NAD-függő amin-oxidáz (psal_cds_628) és egy FAD-kapcsolt dehidrogenáz (psal_cds_1132) kiegészíti a konzervált feltételezett redox enzimek paneljét. Más előre jelzett magfehérjék közé tartozik a ser / thr kináz és a foszfatáz, amelyek tipikus szabályozó funkciók. Egy szerin-proteáz, egy lipáz, egy patatinszerű foszfolipáz és egy nukleoporin távoli homológ része lehet annak az eszközkészletnek, amelyet a pandoravírus genomjainak a citoplazmába, majd a magba történő átviteléhez használnak (3.Kiegészítő táblázat). Végül két magfehérje (psal_cds_118 és psal_cds_874) osztozik egy endoribonukleáz motívumon, és transzkripciós szabályozóként működhetnek a sejtes mRNS-t megcélozva.
az összes pandoravirion által megosztott magfehérjék halmazának meghatározásával ellentétben törzsspecifikus komponenseket is vizsgáltunk. Sajnos az adott törzsre jellemző virionfehérjék többsége (átlagosan kb. 10) anonim és kis mennyiségben fordul elő. Nem lehetett előrejelzést tenni a részecskékben való jelenlétük funkcionális következményeiről.