diversiteit en evolutie van de opkomende Pandoraviridae familie
Environmental sampling and isolation of pandoravirus stammen
We gebruikten hetzelfde isolatieprotocol dat leidde tot de ontdekking van P. salinus en P. dulcis5. Het bestaat uit het mengen van het bemonsterde materiaal met culturen van Acanthamoeba die zijn aangepast aan antibiotische concentraties die hoog genoeg zijn om de groei van andere omgevingsmicro-organismen (met name bacteriën en schimmels) te remmen. Monsters werden willekeurig genomen uit vochtige omgevingen die gevoelig zijn voor Acanthamoeba-cellen. Dit leidde tot de isolatie van drie nieuwe pandoravirusstammen: P. quercus; P. neocaledonia; en P. macleodensis (Tabel 1, Zie methoden). Zij vertonen adequate divergentie om te beginnen met het beoordelen van de behouden eigenschappen en de variabiliteit van de opkomende Pandoraviridae familie. Indien van toepassing omvatten onze analyses ook gegevens van P. Inopinatum, geïsoleerd in een Duits laboratorium van een patiënt met een Acanthamoeba keratitis7.
Studie van de replicatie van de cycli en virion ultrastructures
vanaf gezuiverd deeltjes geïnoculeerd in A. castellanii culturen, analyseerden we de besmettelijke cyclus van elke isoleren met behulp van licht en transmissie elektronen microscopie (ultradun sectie). Zoals eerder waargenomen voor P. salinus en P. dulcis, bleken de replicatiecycli van deze nieuwe pandoravirussen gemiddeld 12 h5 (8 H voor de snelste P. neokaledonie). Het infectieproces is hetzelfde voor alle virussen, te beginnen met de internalisatie van individuele deeltjes door Acanthamoeba cellen. Na het openen van hun apicale porie, brengen de deeltjes (“pandoravirions”) hun doorschijnende inhoud aan het cytoplasma door de fusie van het interne membraan virion met dat van het fagosoom over. Het vroege stadium van de infectie is opmerkelijk vergelijkbaar voor alle isolaten. Terwijl we eerder rapporteerden dat de celkern volledig werd verstoord tijdens het late stadium van de infectieuze cycli, onthulde de grondige observatie van de nieuwe stammen neo-gesynthetiseerde deeltjes in het cytoplasma van cellen die nog steeds kernachtige compartimenten vertonen waarin de nucleolus niet meer herkenbaar was (aanvullende Fig. 1). Acht uur na infectie, volwassen virionen werden zichtbaar in vacuolen en worden vrijgegeven door exocytose (aanvullende film). Voor alle isolaten eindigt de replicatieve cyclus met de lysis van de cellen en het vrijkomen van ongeveer honderd deeltjes (Fig. 1).
genoomsequencing en annotatie
genomisch DNA van P. neocaledonia, P. macleodensis en P. quercus werd bereid uit gezuiverde deeltjes en gesequenced met behulp van de PacBio-of Illumina-platforms (zie methoden). Wat betreft P. salinus, P. dulcis5 en P. Inopinatum7, de drie nieuwe genomen samengevoegd als single linear double-stranded DNA (dsDNA) moleculen (≈60% G + C) met maten variërend van 1,84 tot 2 Mb. Naast hun doorschijnende Amfora-vormige deeltjes (Fig. 1), hoger dan gemiddeld G + C gehalte en genomische gigantisme blijven dus karakteristieke kenmerken gedeeld door de Pandoraviridae5, 8. Gezien het hoge aandeel van virale genen coderen eiwitten zonder database homolog, gen voorspellingen gebaseerd op zuiver ab initio computationele benaderingen (dat wil zeggen, “ORFing” en codering neiging schattingen) zijn notoir onbetrouwbaar, wat leidt tot inconsistenties tussen teams met behulp van verschillende waarden van willekeurige parameters (bijvoorbeeld, minimale open reading frame (ORF) grootte). Bijvoorbeeld onder families van grote dsDNA virussen die eukaryoten infecteren, de gemiddelde eiwit-coderende gendichtheid naar verluidt varieert van één gen elke 335 bp (Phycodnaviridae, NCBI: NC_008724) tot één gen per 2120 bp (Herpesviridae, NCBI: NC_003038), terwijl de consensus duidelijk rond één gen per kb (zoals voor bacteriën) ligt. Als gevolg hiervan oscilleert men tussen situaties waar veel genen overpredicted zijn en anderen waar veel echte genen waarschijnlijk over het hoofd worden gezien. Dergelijke onzekerheid over welke genen “echt” zijn, introduceert een significante ruis in vergelijkende genomische analyses en het daaropvolgende testen van evolutionaire hypothesen. Bovendien, zijn de computationele methodes meestal blind voor genen die als niet-eiwit-codeert transcripten worden uitgedrukt.
om de bovengenoemde beperkingen te overwinnen, voerden we streng-specifieke RNA-seq experimenten en particle proteome analyses uit, waarvan de resultaten in kaart werden gebracht op de genoomsequenties. Alleen genen ondersteund door experimenteel bewijs (of eiwit gelijkenis) werden behouden in dit strenge reannotatie protocol (zie methoden, aanvullende Fig. 2). Aan de ene kant, leidde deze nieuwe procedure tot een verminderde reeks voorspelde proteã nen, aan de andere kant liet het de ontdekking van een onverwacht groot aantal niet-coderende transcripten toe (Tabel 1).
De nieuwe reeks gevalideerde eiwitcoderende genen vertoont een sterk verminderd aandeel van ORF ‘ s die korter zijn dan 100 residuen, waarvan de meeste uniek zijn voor elke pandoravirusstam (aanvullende Fig. 3). De strenge annotatieprocedure resulteerde ook in genen die een goed gecentreerde unimodale verdeling van codon adaptatie index (CAI) waarden vertonen (aanvullende Fig. 3).
voor consistentie hebben we ons strenge annotatieprotocol geëxtrapoleerd naar P. Inopinatum en P. macleodensis, waardoor het aantal voorspelde eiwitten waarmee bij verdere vergelijkingen rekening werd gehouden, werd verminderd (zie methoden, Tabel 1). Zoals verwacht zijn de verschillen tussen de standaard versus strenge genvoorspellingen alleen te wijten aan de overpredictie van kleine ORF ‘ s (lengte < 300 nucleotiden). Dergelijke willekeurige ORFs zijn naar voren gebogen willekeurig In G + C-rijke opeenvolgingen waarbinnen de eindecodons (TAA, markering, en TGA) minder waarschijnlijk door toeval zullen voorkomen dan in de niet-codeert gebieden van A + T-rijke genomen. Inderdaad, de bovenstaande standaard en strenge annotatieprotocollen toegepast op de A + T-rich (74.8%) Megavirus chilensis genome3 resulteerde in twee zeer vergelijkbare sets voorspelde versus gevalideerde eiwitcoderende genen (1120 versus 1108). Deze controle geeft aan dat onze strenge annotatie niet simpelweg correcte genvoorspellingen weggooit door willekeurig een betrouwbaarheidsdrempel te verhogen, maar specifiek fouten corrigeert die door de G + C-rijke samenstelling worden veroorzaakt. Zuiver computationele gen annotatie methoden zijn dus duidelijk minder betrouwbaar voor G + C-rijke genomen, vooral wanneer ze coderen een groot deel van ORFans (dwz, ORF zonder database homolog), zoals voor pandoravirussen. Echter, het is de moeite waard om op te merken dat zelfs na onze strenge reannotatie, de fractie van voorspelde eiwitten zonder significante sequentie gelijkenis buiten de Pandoraviridae familie vrij hoog bleef (van 67 tot 73%, aanvullende Fig. 4).
een extra uitdaging voor de nauwkeurige annotatie van de genomen van pandoravirus is de aanwezigheid van introns (vrijwel niet op te sporen door computationele methoden wanneer ze orfans onderbreken). Het in kaart brengen van de verzamelde transcript sequenties op de genomen van P. salinus, P. dulcis, P. quercus, en P. neocaledonie liet de detectie van spliceosomale introns toe in 7,5–13% van de gevalideerde eiwitcoderende genen. Deze introns werden gevonden in de onvertaalde gebieden (UTRs) evenals in de codageopeenvolgingen, met inbegrip van gemiddeld 14 genen onder die die de 200 overvloedigste proteã NEN coderen die in de deeltjes worden ontdekt (zie hieronder). Hoewel spliceosomale introns in andere virussen met een kernfase zoals chlorovirus9 worden gevonden, zijn pandoravirussen de enige waarvoor spliceosomale introns voor meer dan 10% van hun genen zijn gevalideerd. Deze resultaten ondersteunen onze eerdere suggestie dat ten minste een deel van de pandoravirus transcripten gesynthetiseerd en verwerkt worden door de nucleaire machine5. Toch blijft het aantal intron per viraal gen veel lager (gemiddeld ongeveer 1,2) dan voor de gastheergenen (gemiddeld 6,2) 10. Pandoravirus genen vertonen ook Utr ‘ s twee keer zo lang (aanvullende tabel 1) als die van Mimiviridae11.
het in kaart brengen van de RNA-seq gegevens leidde tot de onverwachte ontdekking van een groot aantal (157-268) lange niet-coderende transcripten (LncRNAs) (Tabel 1, aanvullende tabel 1 Voor gedetailleerde statistieken). Deze LncRNAs vertonen een polyA staart en ongeveer 4% van hen bevatten spliceosomale introns. LncRNA ’s worden meestal getranscribeerd uit de omgekeerde streng van gevalideerde eiwitcoderende genen, terwijl een kleinere fractie wordt uitgedrukt in intergene (d.w.z., inter-ORF) regio’ s (Aanvullende Fig. 5). Deze niet-codeert afschriften kunnen een rol in de verordening van pandoravirusgenenuitdrukking spelen.
in totaal wordt 82,7-87% van de genomen van het pandoravirus getranscribeerd (inclusief ORFs, Utr ’s en lncRNA’ s), maar slechts 62-68, 2% wordt vertaald in eiwitten. Dergelijke waarden zijn veel lager dan bij reuzenvirussen uit andere families (bijvoorbeeld 90% van het Mimivirus11 genoom is vertaald), deels vanwege de grotere Utr ‘ s die de pandoravirus genen flankeren.
vergelijkende genomica
de zes eiwitcoderende genensets die uit de bovenstaande strenge annotatie werden verkregen, werden vervolgens gebruikt als referentie voor vergelijkingen van het gehele genoom om specifieke kenmerken van de Pandoraviridae-familie te identificeren. Na een op sequentie-gelijkenis gebaseerde clustering (zie methoden) werden de relatieve overlappingen van de geninhoud van de verschillende stammen berekend (Fig. 2a), die produceren wat wij “eiwitclusters”noemen.
we berekenden toen het aantal gedeelde (d.w.z., “core”) en totale genen zoals we stapsgewijs incorporeerde de genomen van de verschillende isolaten in de bovenstaande analyse, om de grootte van de familie kern gen set en die van de accessoire/flexibele gen set schatten. Als de zes beschikbare isolaten voldoende bleken om een Core genoom codering voor 455 verschillende eiwitclusters af te bakenen, is de “verzadigingscurve” die tot de totale genreeks leidt verre van het bereiken van een plateau, wat suggereert dat de Pandoraviridae pan-genoom open is, met elk extra isolaat voorspeld om meer dan 50 extra genen bij te dragen (Fig. 2b). Dit moet nog worden bevestigd door de analyse van extra isolaten van Pandoraviridae.
we onderzochten de Globale gelijkenis van de zes pandoravirusisolaten door hun gedeelde geninhoud te analyseren zowel in termen van gelijkenis van de eiwitvolgorde als genomische positie. De paarsgewijze overeenkomst tussen de verschillende pandoravirusisolaten varieert van 54 tot 88%, zoals berekend uit een superuitlijning van de eiwitproducten van de orthologe genen (aanvullende tabel 2). Een fylogenetische boom berekend met dezelfde gegevens clusters de pandoravirussen in twee afzonderlijke clades (Fig. 3).
geïnterpreteerd in een geografische context, brengt dit clusterpatroon twee belangrijke eigenschappen van de opkomende familie over. Aan de ene kant zijn de meest uiteenlopende stammen Niet geïsoleerd van de meest afgelegen locaties (bijvoorbeeld de Chileense P. salinus versus de Franse P. quercus; de Neo-Caledonische P. neocaledonia versus de Australische P. macleodensis). Aan de andere kant, twee isolaten (bijv., P. dulcis versus P. macleodensis) uit identieke omgevingen (twee vijvers op 700 m afstand en verbonden door een kleine waterstroom) zijn heel verschillend. In afwachting van een grotere inventarisatie van de Pandoraviridae, suggereren deze resultaten al dat leden van deze familie wereldwijd worden verspreid met vergelijkbare lokale en mondiale diversiteit.
onze Analyse van de posities van de homologe genen in de verschillende genomen toonde aan dat ondanks hun sequentiedivergentie (aanvullende tabel 2), 80% van de orthologe genen collineair blijven. Zoals in Fig. 4, de lange afstand architectuur van de pandoravirus genomen (d.w.z., gebaseerd op de posities van orthologe genen) wordt globaal behouden, ondanks hun verschillen in grootte (1,83–2,47 Mb). Echter, de helft van de pandoravirus chromosomen (de meest linkse regio in Fig. 4) vreemd genoeg lijkt evolutionair stabieler dan de andere helft waar de meeste niet-homologe segmenten voorkomen. Deze segmenten bevatten stam-specifieke genen en worden verrijkt in duplicaties achter elkaar van niet-orthologe ankyrin, MORN, en F-doos motif-bevattende proteã nen. Omgekeerd, concentreert de stabiele helft van het genoom het grootste deel van de genen die het Kerngenoom van Pandoraviridae vormen (bovenkant van Fig. 4). Interessant is dat de lokale inversie die het chromosoom van P. neocaledonia onderscheidt van de andere stammen zich dichtbij de grens tussen de stabiele en onstabiele regio ‘ s bevindt, en met deze overgang kan worden verbonden (hoewel het toeval kan zijn). Ten slotte zijn alle genomen ook verrijkt met stamspecifieke genen (en/of duplicaties) aan beide extremiteiten.
vervolgens analyseerden we de verdeling van de voorspelde eiwitten over de standaard brede functionele categorieën (Fig. 5). Aangezien het nu voor grote en reuze eukaryotic virussen van DNA terugkerend is, is de dominante categorie verreweg die van proteã nen die herkenbare functionele handtekeningen ontberen. Over de zes stammen komt gemiddeld 70% van de voorspelde eiwitten overeen met”onbekende functies”. Zo ’n hoog percentage is des te opmerkelijker omdat het van toepassing is op zorgvuldig gevalideerde genensets, waarvan dubieuze ORF’ s zijn geëlimineerd. Het is aldus een biologische werkelijkheid dat een grote meerderheid van deze virale proteã nen niet met eerder gekarakteriseerde wegen kan worden verbonden. Opmerkelijk is dat het aandeel van dergelijke anonieme eiwitten vrij hoog blijft (65%) onder de producten van het pandoravirus kerngenoom, dat is een van de vermoedelijk essentiële genen gedeeld door de zes beschikbare stammen (en waarschijnlijk alle toekomstige familieleden, volgens Fig. 2b). Interessant is dat dit aandeel ook zeer hoog blijft (≈80%) onder de eiwitten die worden gedetecteerd als de virusdeeltjes. Bovendien domineert het aandeel van anonieme eiwitten de classificatie van genen die uniek zijn voor elke stam, met meer dan 95%. De meest generieke functionele categorie, “eiwit–eiwitinteractie” is de volgende grootste (van 11,7 tot 18,9%), overeenkomend met de detectie van zeer frequente en niet-informatieve motieven (bijvoorbeeld ankyrineherhalingen). Over het geheel genomen is het aandeel pandoravirus-eiwitten waaraan een echt informatieve functie kan worden toegeschreven <20%, inclusief een complete machine voor DNA-replicatie en-transcriptie.
we onderzochten twee evolutionaire processen die mogelijk aan de oorsprong liggen van de extra grote omvang van de genomen van pandoravirus: horizontale gentransfers (Hgts) en Gene duplicaties. De aanwinst van genen door HGT werd vaak aangeroepen om de genoomgrootte van ameba-besmettende virussen in vergelijking met “regelmatige” viruses12, 13 te verklaren. Wij berekenden dat tot een derde van de pandoravirusproteã nen opeenvolgings gelijkenissen (buiten de familie Pandoraviridae) met proteã nen van de drie cellulaire domeinen (Eukarya, Archaea, en Eubacteria) of andere virussen (aanvullende Fig. 4). Nochtans, impliceren dergelijke gelijkenissen niet dat deze genen horizontaal werden verworven. Zij konden ook een gemeenschappelijke voorouderlijke oorsprong of een overdracht van een pandoravirus aan andere micro-organismen duiden. Wij analyseerden individueel de fylogenetische positie van elk van deze gevallen om hun waarschijnlijke oorsprong af te leiden: voorouderlijk – wanneer gevonden buiten clusters van cellulaire of virale homologen; horizontaal verworven – wanneer gevonden diep ingebed in de bovengenoemde clusters; of horizontaal overgebracht naar cellulaire organismen of ongerelateerde virussen in de omgekeerde situatie (d.w.z., een cellulaire proteã ne die binnen een pandoravirusproteã necluster liggen). Aanvullende Fig. 6 vat de resultaten van deze analyse samen.
We konden een ondubbelzinnige HGT-diagnose maken voor 39% van de gevallen, de rest die onbeslist blijft of compatibel is met een voorouderlijke oorsprong. Onder de waarschijnlijke HGT, stelde 49% een horizontale aanwinst door pandoraviruses voor, en 51% de overdracht van een gen van een pandoravirus. Interessant is dat de verwerving van gastheergenen, een proces dat gewoonlijk wordt aangevoerd als belangrijk in de evolutie van virussen, slechts een klein deel (13%) van de gediagnosticeerde HGTs vertegenwoordigt, dus minder dan van de virussen naar de gastheer (18%). Door de bovenstaande statistieken te combineren met het aandeel genen (een derde) waarmee we begonnen, in het hele genoom, kan worden aangenomen dat ten hoogste 15% (en ten minste 6%) van het pandoravirusgengehalte kan zijn verkregen uit cellulaire organismen (waaronder 5-2% van hun hedendaagse Acanthamoeba-gastheer) of andere virussen. Dergelijke waarden zijn vergelijkbaar met de eerder voor Mimivirus14 geraamde waarden. HGT is dus niet het kenmerkende proces bij de oorsprong van de reuzengenomen van pandoravirus.
we onderzochten vervolgens de prevalentie van duplicaties onder pandoravirus genen. Figuur 6a vergelijkt de proporties van enkelvoudige versus gedupliceerde (of meer) eiwitcoderende genen van de zes beschikbare pandoravirussen met die berekend voor vertegenwoordigers van de drie andere bekende families van gigantische DNA-virussen die Acanthamoeba infecteren. Het toont duidelijk aan dat het aandeel van multiple-copy genen (variërend van 55 tot 44%) hoger is bij pandoravirussen, dan bij de andere virusfamilies, hoewel het niet perfect correleert met hun respectieve genoomgroottes. De distributies van clustergrootte onder de verschillende pandoravirusstammen zijn gelijkaardig. De meeste veelvoudig-exemplaargenen worden gevonden in cluster van grootte 2 (duplicatie) of 3 (triplicatie). Het aantal grotere clusters neemt dan af met hun grootte (aanvullende Fig. 7).
minder grote clusters (grootte > 20) komen overeen met eiwitten die eiwit–eiwitinteractiemotieven delen, zoals Ankyrine -, MORN-en F-box-herhalingen. Verrassend genoeg is het absolute aantal single-copy genen in pandoravirussen vergelijkbaar met, en soms kleiner (bijvoorbeeld P. neocaledonia, 2 Mb) dan dat in Mimivirus, met een genoom (1,18 Mb) half zo groot. Over het geheel genomen is het aantal verschillende genclusters (Fig. 6b) overlapt de Pandoraviridae (van 607 tot 775) en het Mimivirus (687), wat suggereert dat ondanks hun verschil in genoom en deeltjesgrootte, deze virussen vergelijkbare genetische complexiteiten delen.omdat de genduplicatie zo ‘ n prominent kenmerk is van de genomen van het pandoravirus, hebben we het verder onderzocht op zoek naar meer inzicht in het mechanisme ervan. Eerst berekenden we de genomische afstanden tussen paren van dichtstbijzijnde paralogen, waarschijnlijk het gevolg van de meest recente duplicatie gebeurtenissen. De verdeling van deze afstanden, vergelijkbaar voor elk pandoravirus, geeft aan dat de dichtstbijzijnde paralogen meestal naast elkaar liggen (afstand = 1) of gescheiden door een enkel gen (afstand = 2) (Aanvullende Fig. 8).
vervolgens probeerden we de fysieke afstand tussen gedupliceerde genen en hun sequentiedivergentie te correleren als een (ruwe) schatting van hun evolutionaire afstand. We verkregen een significante correlatie tussen de geschatte “leeftijd” van de duplicatiegebeurtenis en de genomische afstand van de twee dichtstbijzijnde paralogen (aanvullende Fig. 9). Deze resultaten suggereren een evolutionair scenario waarbij de meeste duplicaties eerst voorkomen in tandem, met daaropvolgende genoomveranderingen (inserties, inversies, en genverliezen) geleidelijk vervagen dit signaal.onze vorige massaspectrometrie proteomische analyse van P. salinus deeltjes identificeerde 210 virale genproducten, waarvan de meeste ORFans of zonder voorspelbare functie. Daarnaast hebben we 56 gastheer (Acantamoeba) eiwitten gedetecteerd. Belangrijk is dat geen van de componenten van het virus-gecodeerde transcriptieapparaat werd gedetecteerd in de particles5. In dit werk voerden we dezelfde analyses uit op P. salinus, P. dulcis en twee van de nieuwe isolaten (P. quercus en P. neocaledonia) om te bepalen in welke mate de bovenstaande kenmerken werden behouden voor leden van de Pandoraviridae familie met verschillende niveaus van divergentie, en om de kern versus de accessoire componenten van een generieke pandoravirion te identificeren.
door de constante verbetering van de gevoeligheid in massaspectrometrie, hebben onze nieuwe analyses van gezuiverde virionen geleid tot de betrouwbare identificatie van 424 eiwitten voor P. salinus, 357 voor P. quercus, 387 voor P. dulcis en 337 voor P. neocaledonia (zie methoden). Dit toegenomen aantal identificaties komt echter overeen met abundantiewaarden (op intensiteit gebaseerde absolute kwantificering, iBAQ) die meer dan vijf ordes van grootte beslaan. Veel van de proteã nen die in de staart van de lage overvloed worden geà dentificeerd zouden dus niet met bonafide deeltje componenten kunnen corresponderen, maar aan willekeurig geladen omstanders, “kleverige” proteã nen, of overblijvende verontreinigende stoffen van besmette cellen. Deze voorzichtige interpretatie wordt gesuggereerd door verschillende waarnemingen:
-
de lage overvloed staart is geleidelijk verrijkt in de virale eiwitten geïdentificeerd in de deeltjes van een enkele pandoravirus stam (hoewel andere stammen, bezitten de homologe genen),
-
het aandeel van de host-gecodeerde eiwitten vermoedelijk gekoppeld aan de deeltjes toeneemt met de laagste abundances,
-
veel van deze host eiwitten werden eerder is gevonden in delen van het virus los van de pandoraviruses maar het infecteren van dezelfde host
-
deze eiwitten zijn er in overvloed in de Acanthamoeba proteoom (bijv., actin, peroxidase, enz.) die hen waarschijnlijker maken om als zuiveringscontaminanten worden behouden.
helaas vertoonden de iBAQ-waardedistributies geassocieerd met de pandoravirion proteomen geen discontinuïteit die kon dienen als een objectieve abundantiedrempel om bonafide deeltjes te onderscheiden van dubieuze. Nochtans, neemt het aantal geïdentificeerde Acanthamoeba proteã nen scherp toe na rang ≈200 in het gehele proteoom (aanvullende Fig. 10). Volgens dezelfde conservatieve houding als voor de reannotatie van het genoom, hebben we besloten om de eiwitten die onder deze rang als waarschijnlijke omstanders zijn geïdentificeerd, buiten beschouwing te laten en alleen de 200 meest voorkomende eiwitten in onze verdere analyses van de proteomen van de deeltjes op te nemen (aanvullende Data 1, aanvullende tabel 3). Aan de hand van deze strenge proteoomdefinitie voor elk van de vier verschillende pandoravirions, onderzochten we eerst de diversiteit van hun samenstellende eiwitten en hun niveau van behoud in vergelijking met de Globale geninhoud van het corresponderende pandoravirus genomen.
Figuur 7 toont aan dat de proteomen van het deeltje eiwitten bevatten die behoren tot 194 verschillende clusters, waarvan 102 gedeeld worden door de vier stammen. Het kernproteoom is dus structureel en functioneel divers. Het komt overeen met 52,6% van de totale eiwitclusters die wereldwijd zijn geïdentificeerd in alle pandoravirions. Ter vergelijking, vertegenwoordigen de 467 eiwitclusters die door het kerngenoom worden gecodeerd slechts 41,6% (d.w.z., 467/1122) van het totale aantal pandoravirus-gecodeerde eiwitclusters. De pandoravirus “doos” gebruikt om de genomen van de verschillende stammen te vermeerderen is dus beduidend meer geconserveerd dan hun geninhoud (p ” 10-3, chi-kwadraat test). De genen die de kern proteoom coderen vertonen ook de sterkste zuiverende selectie onder alle pandoravirus genen (aanvullende Fig. 11 bis).
Voor het evalueren van de betrouwbaarheid van onze proteoom analyse vergelijken we de overvloed aan (iBAQ) waarden bepaald voor elk van de 200 meest voorkomende eiwitten voor twee technische duplo ‘ s en voor twee biologische replicaties uitgevoerd op dezelfde pandoravirus stam (Aanvullende Fig. 12a & b). Een zeer goede correlatie (Pearson ‘ s R > 0.97) werd in beide gevallen verkregen voor abundantiewaarden variërend van drie ordes van grootte. Vervolgens vergeleken we de iBAQ-waarden die werden verkregen voor orthologe eiwitten die gedeeld worden door de virion proteomen van verschillende isolaten. Ook hier werd een goede correlatie waargenomen (R > 0,81), zoals verwacht kleiner dan voor de bovengenoemde replicaten (aanvullende Fig. 12c & d). Deze resultaten suggereren dat hoewel de deeltjes van de verschillende stammen morfologisch identiek lijken (aanvullende Fig. 1), geven zij een tastbare flexibiliteit toe zowel in termen van de proteïnesets waarvan zij gemaakt zijn (met 89% van paarsgewijs orthologen in gemiddelde), als in hun nauwkeurige stoichiometrie.vervolgens onderzochten we de voorspelde functies van de eiwitten die de deeltjes vormen, van de meest tot de minst overvloedige, in de hoop wat inzicht te krijgen in het vroege infectieproces. Helaas konden slechts 19 eiwitclusters worden geassocieerd met een functioneel/structureel motief uit de 102 verschillende clusters die het proteoom van het kerndeeltje definiëren (aanvullende gegevens 1, aanvullende tabel 3). Deze verhouding is kleiner dan voor het gehele genoom (Fig. 5), bevestigend de buitenaardse aard van het pandoravirus deeltje zoals reeds gesuggereerd door zijn unieke morfologie en assemblage proces5. De pandoravirions zijn meestal gemaakt van eiwitten zonder homologen buiten de Pandoraviridae familie. Geen proteã ne zelfs op afstand gelijkend op de gewoonlijk overvloedige belangrijke capsideproteã ne (MCP), een voorspelde DNA-bindende kernproteã ne, of een DNA-verpakking ATPase, kenmerken van de meeste eukaryotic grote virussen van DNA, wordt ontdekt. In het bijzonder, een P. salinus hypothetische proteïne (voorheen ps_862 nu gereannoteerd psal_cds_450) onlangs voorgesteld door Sinclair et al.15 om een sterke MCP kandidaat werd niet ontdekt in de P. salinus virions, noch zijn homologen in de andere stam proteomes. Dit negatieve resultaat benadrukt de noodzaak van de experimentele validatie van computervoorspellingen gemaakt vanuit de “schemerzone” van sequentievergelijkingen. Geen spoor van de pandoravirus-gecodeerde RNA-polymerase wordt gedetecteerd ofwel, bevestiging dat de eerste fase van infectie vereist de gastheertranscriptie machines gelegen in de kern. Spliceosomale introns werden gevalideerd voor 56 pandoravirusgenen waarvan de producten werden gedetecteerd in de pandoravirions (aanvullende gegevens 1). Dit wijst op het behoud van een functioneel spliceosoom tot het einde van de infectieuze cyclus, zoals verwacht van de observatie van ononderbroken kernen (aanvullende Fig. 1).
van de 19 niet-anonieme eiwitclusters vertonen 4 generische motieven zonder specifieke functionele aanwijzing: 2 collageenachtige domeinen en 1 Pan / appel-achtig domein dat betrokken is bij eiwit–eiwitinteracties, en 1 cupin-achtig domein dat overeenkomt met een generische tonvouw. Onder de 10 meest voorkomende kerneiwitten, hebben 9 geen voorspelde functie, behalve 1 die een C-terminaal thioredoxine-achtig domein vertonen (psal_cds_383). Het is de moeite waard op te merken dat het voorspelde membraanoverspannende segment van 22 aminozuren (85-107) in alle pandoravirusstammen wordt bewaard. De 5 ‘ UTR van de corresponderende genen vertonen 2 introns (in P. salinus, P. dulcis en P. quercus) en 1 in P. neocaledonia. Thioredoxin katalyseert dithiol-disulfide uitwisselingsreacties door de omkeerbare oxidatie van zijn actieve centrum. Dit eiwit, met een andere van dezelfde familie (psal_cds_411, voorspeld als oplosbaar), kan betrokken zijn bij het herstellen/voorkomen van fagosoom-geïnduceerde oxidatieve schade aan virale eiwitten voorafgaand aan de eerste fase van infectie. De deeltjes delen ook een ander overvloedig redoxenzym, een ERV-achtige thiol-oxidoreductase die betrokken kan zijn bij de rijping van Fe/S-eiwitten. Een ander kernproteïne (psal_cds_1260) met een verre gelijkenis met een thioredoxinreductase kan aan de regeneratie van de geoxideerde actieve plaatsen van de bovengenoemde enzymen deelnemen. Onder de meest voorkomende kernproteã nen, wordt psal_cds_232 voorspeld als DNA-bindende, en kan bij genoomverpakking worden betrokken. Eén veronderstelde nad-afhankelijke amine-oxidase (psal_cds_628), en één fad-gekoppelde dehydrogenase (psal_cds_1132) completeren het paneel van geconserveerde veronderstelde redoxenzymen. Andere voorspelde kernproteã nen omvatten een ser/thr kinase en phosphatase die typische regelgevende functies zijn. Eén serineprotease, één lipase, één patatineachtige fosfolipase, en één verre homolog van een nucleoporine zouden deel kunnen uitmaken van de gereedschapskist die wordt gebruikt om de genomen van pandoravirus naar het cytoplasma en vervolgens naar de kern over te brengen (aanvullende tabel 3). Tot slot delen twee kernproteã nen (psal_cds_118 en psal_cds_874) een endoribonuclease-motief en konden als transcriptionele regelgevers functioneren die cellulaire mRNA richten.
in tegenstelling tot het definiëren van de set kerneiwitten die door alle pandoravirionen worden gedeeld, hebben we ook stamspecifieke componenten onderzocht. Helaas zijn de meeste virion-eiwitten die uniek zijn voor een bepaalde stam (gemiddeld ongeveer 10) anoniem en in lage overvloed. Er kon geen voorspelling gedaan worden over de functionele gevolgen van hun aanwezigheid in de deeltjes.