Articles

mangfoldighed og udvikling af den nye Pandoraviridae-familie

miljøprøveudtagning og isolering af pandoravirus-stammer

Vi brugte den samme isolationsprotokol, der førte til opdagelsen af P. salinus og P. dulcis5. Det består i at blande det samplede materiale med kulturer af Acanthamoeba tilpasset antibiotiske koncentrationer, der er høje nok til at hæmme væksten af andre miljømæssige mikroorganismer (især bakterier og svampe). Prøver blev taget tilfældigt fra fugtige miljøer modtagelige for havnen Acanthamoeba celler. Dette førte til isolering af tre nye pandoravirus-stammer: P. kvercus; P. neocaledonia; og P. macleodensis (tabel 1, Se metoder). De udviser tilstrækkelig divergens til at begynde at vurdere de bevarede træk og variabiliteten af den nye Pandoraviridae-familie. Når det er relevant, inkluderer vores analyser også data fra P. inopinatum, isoleret i et tysk laboratorium fra en patient med en Acanthamoeba keratitis7.

tabel 1 Data om pandoravirusisolaterne anvendt i dette arbejde

undersøgelse af replikationscykler og virion ultrastrukturer

startende fra rensede partikler inokuleret i A. castellanii-kulturer, Vi er i stand til at analyseret den infektiøse cyklus af hvert isolat ved hjælp af både lys-og transmissionselektronmikroskopi (Ultratynd sektion). Som tidligere observeret for P. salinus og P. dulcis, replikationscyklusserne for disse nye pandoravirus viste sig at vare i gennemsnit 12 h5 (8 h for den hurtigste P. neocaledonia). Den infektiøse proces er den samme for alle vira, der begynder med internalisering af individuelle partikler af Acanthamoeba-celler. Efter åbningen af deres apikale pore overfører partiklerne (“pandoravirioner”) deres gennemskinnelige indhold til cytoplasmaet gennem fusionen af den indre virionmembran med fagosomets. Det tidlige stadium af infektionen er bemærkelsesværdigt ens for alle isolater. Mens vi tidligere rapporterede, at cellekernen var fuldt forstyrret i det sene stadium af den infektiøse cyklus5, afslørede den grundige observation af de nye stammer neo-syntetiserede partikler i cytoplasmaet af celler, der stadig udviser kernelignende rum, hvor nukleolus ikke længere var genkendelig (supplerende Fig. 1). Otte timer efter infektion blev Modne virioner synlige i vakuoler og frigives gennem eksocytose (supplerende Film). For alle isolater slutter den replikative cyklus med cellelysningen og frigivelsen af omkring hundrede partikler (Fig. 1).

Fig. 1
figur1

de nye pandoravirus isolater. en overproduktion af en A. castellanii celle af Pandoravirus macleodensis virioner fra miljøprøven forudgående cellelyse. Miljøbakterier kan ses i dyrkningsmediet sammen med P. macleodensis virioner. (skala bar er 10 liter). B TEM billede af en ultratynd sektion af A. castellanii celle i den tidlige fase af infektion af P. neocaledonia. Ameba pseudopods er klar til at opsluge de omkringliggende virioner. Ti minutter pi, virioner er blevet opslugt og er i vakuoler (skala bar er 500 nm). c TEM billede af en ultratynd sektion af A. castellanii celle under samleprocessen af en P. salinus virion (skala bar er 500 nm). d TEM billede af en ultratynd sektion af en spirende P. (skala bar er 500 nm). Strukturerne af de modne partikler fra de forskellige stammer udviser ingen mærkbar forskel

Genomsekventering og annotation

genomisk DNA af P. neocaledonia, P. macleodensis og P. der blev fremstillet ud fra oprensede partikler og sekventeret ved hjælp af enten PacBio-eller Illumina-platformene (se metoder). Hvad angår P. salinus, P. dulcis5 og P. inopinatum7, samles de tre nye genomer som enkeltlinjære dobbeltstrengede DNA (dsDNA) molekyler (liter 60% G + C) med størrelser fra 1,84 til 2 Mb. Ud over deres gennemskinnelige amforaformede partikler (Fig. 1), højere end gennemsnittet G + C-indhold og genomisk gigantisme forbliver således karakteristiske træk, der deles af Pandoraviridae5, 8. I betragtning af den høje andel af virale gener, der koder for proteiner uden databasehomolog, er genforudsigelser baseret på rent ab initio-beregningsmetoder (dvs. “ORFing” og kodende tilbøjelighedsestimater) notorisk upålidelige, hvilket fører til uoverensstemmelser mellem hold, der bruger forskellige værdier af vilkårlige parametre (f. eks. minimal åben læseramme (ORF) størrelse). For eksempel blandt familier af store dsDNA-vira, der inficerer eukaryoter, varierer den gennemsnitlige proteinkodende gentæthed angiveligt fra et gen hver 335 bp (Phycodnaviridae, NCBI: NC_008724) op til et gen hver 2120 bp (Herpesviridae, NCBI: NC_003038), mens konsensus er klart omkring et gen hver kb (såsom for bakterier). Som et resultat svinger man mellem situationer, hvor mange gener er overforudsigede, og andre, hvor mange virkelige gener sandsynligvis overses. En sådan usikkerhed om, hvilke gener der er “virkelige”, introducerer en signifikant støj i komparative genomiske analyser og den efterfølgende test af evolutionære hypoteser. Derudover er beregningsmetoder for det meste blinde for gener udtrykt som ikke-proteinkodende transkripter.

for at overvinde ovenstående begrænsninger udførte vi strengspecifikke RNA-sekv-eksperimenter og partikelproteomanalyser, hvis resultater blev kortlagt på genomsekvenserne. Kun gener understøttet af eksperimentelle beviser (eller protein lighed) blev bevaret i denne strenge reannotationsprotokol (se metoder, supplerende Fig. 2). På den ene side førte denne nye procedure til et reduceret sæt forudsagte proteiner, på den anden side tillod det opdagelsen af et uventet stort antal ikke-kodende udskrifter (tabel 1).

det nye sæt validerede proteinkodende gener udviser en stærkt formindsket andel af ORF ‘ er, der er kortere end 100 rester, hvoraf de fleste er unikke for hver pandoravirus-stamme (supplerende Fig. 3). Den strenge annotationsprocedure resulterede også i gener, der udviser en velcentreret unimodal fordeling af codontilpasningsindeks (CAI) værdier (supplerende Fig. 3).

for konsistens ekstrapolerede vi vores strenge annotationsprotokol til P. inopinatum og P. macleodensis, hvilket reducerede antallet af forudsagte proteiner taget i betragtning i yderligere sammenligninger (se metoder, tabel 1). Som forventet skyldes uoverensstemmelserne mellem standard versus strenge genforudsigelser kun overforudsigelsen af små Orf ‘ er (Længde < 300 nukleotider). Sådanne vilkårlige Orf ‘ er er tilbøjelige til at opstå tilfældigt i G + C-rige sekvenser, inden for hvilke stopkodoner (TAA, TAG og TGA) er mindre tilbøjelige til at forekomme tilfældigt end i de ikke-kodende regioner i A + T-rige genomer. Faktisk anvendes ovennævnte standard og strenge annotationsprotokoller på A + T-rich (74.8%) Megavirus chilensis genome3 resulterede i to meget lignende sæt forudsagte versus validerede proteinkodende gener (1120 versus 1108). Denne kontrol indikerer, at vores strenge annotation ikke blot kasserer til sidst korrekte genforudsigelser ved vilkårlig at hæve en tillidstærskel, men specifikt korrigere fejl induceret af den G + C-rige sammensætning. Rent beregningsmæssige genanmærkningsmetoder er således markant mindre pålidelige for G + C-rige genomer, især når de koder for en stor del af ORFans (dvs.ORF uden databasehomolog), som for pandoravirus. Det er dog værd at bemærke, at selv efter vores strenge reannotation forblev fraktionen af forudsagte proteiner uden signifikant sekvenslighed uden for Pandoraviridae-familien ret høj (fra 67 Til 73%, supplerende Fig. 4).

en yderligere udfordring for den nøjagtige annotation af pandoravirus genomer er tilstedeværelsen af introner (næsten uopdagelig ved beregningsmetoder, når de afbryder ORFans). Kortlægningen af de samlede transkriptionssekvenser på genomerne P. salinus, P. dulcis, P. neocaledonia, tillod påvisning af spliceosomale introner i 7,5–13% af de validerede proteinkodende gener. Disse introner blev fundet i de ikke-oversatte regioner (UTR ‘ er) såvel som i de kodende sekvenser, inklusive i gennemsnit 14 gener blandt dem, der koder for de 200 mest rigelige proteiner, der er påvist i partiklerne (se nedenfor). Selvom spliceosomale introner findes i andre vira med en nuklear fase, såsom chloroviruses9, er pandoravirus de eneste, for hvilke spliceosomale introner er blevet valideret for mere end 10% af deres gener. Disse resultater understøtter vores tidligere forslag om, at mindst en del af pandoravirus-transkripterne syntetiseres og behandles af værten nuclear machinery5. 1,2 i gennemsnit) end for værtsgenerne (6,2 i gennemsnit10). Pandoravirus-gener udviser også UTR ‘ er dobbelt så lange (supplerende tabel 1) som Mimiviridae11.

kortlægningen af RNA-sekv-data førte til den uventede opdagelse af et stort antal (157-268) af lange ikke-kodende transkripter (Lncrna ‘ er) (Tabel 1, supplerende tabel 1 For detaljeret statistik). Disse Lncrna ‘ er udviser en polyA-hale, og omkring 4% af dem indeholder spliceosomale introner. Lncrna ‘ er transkriberes oftest fra den omvendte streng af validerede proteinkodende gener, mens en mindre fraktion udtrykkes i intergeniske (dvs.inter-ORF) regioner (supplerende Fig. 5). Disse ikke-kodende transkripter kan spille en rolle i reguleringen af pandoravirus-genekspression.

samlet set transkriberes 82,7-87% af pandoravirusgenomerne (inklusive Orf ‘er, UTR’ er og Lncrna ‘ er), men kun 62-68, 2% oversættes til proteiner. Sådanne værdier er meget lavere end i gigantiske vira fra andre familier (f.eks. oversættes 90% af Mimivirus11-genomet), delvis på grund af de større UTR ‘ er, der flankerer pandoravirus-generne.

sammenlignende genomik

de seks proteinkodende gensæt opnået fra ovenstående strenge annotation blev derefter brugt som referencer til helgenomsammenligninger med det formål at identificere specifikke træk ved Pandoraviridae-familien. Efter en sekvenslighedsbaseret klyngedannelse (se metoder) blev de relative overlapninger af genindholdet i de forskellige stammer beregnet (Fig. 2a), der producerer det, vi kalder “proteinklynger”.

Fig. 2
figur2

sammenligning af pandoravirus genindhold. a fordelingen af alle kombinationer af delte proteinklynger vises. Indsatsen opsummerer antallet af klynger og gener, der deles af 6, 5, 4, 3, 2, 1 pandoravirus. B-Kernegenom og pan-genom estimeret ud fra de seks tilgængelige pandoravirus. Den estimerede heap – lov-prisparameter (prit < 1) er karakteristisk for en åben pan-genome50 og fluiditetsparameterværdien karakteristisk for en stor brøkdel af unikke gener51. Feltplotter viser medianen, den 25. og 75. percentiler. Knurhår svarer til de ekstreme datapunkter

Vi beregnede derefter antallet af delte (dvs., “kerne”) og samlede gener, da vi trinvist inkorporerede genomerne i de forskellige isolater i ovenstående analyse for at estimere størrelsen på familiekernegensættet og det tilbehør/fleksible gensæt. Hvis de seks tilgængelige isolater syntes tilstrækkelige til at afgrænse et kernegenom, der koder for 455 forskellige proteinklynger, er “mætningskurven”, der fører til det samlede gensæt, langt fra at nå et plateau, hvilket antyder, at Pandoraviridae-pangenomet er åbent, hvor hvert yderligere isolat forventes at bidrage med mere end 50 yderligere gener (Fig. 2b). Dette skal stadig bekræftes ved analysen af yderligere Pandoraviridae-isolater.

Vi undersøgte derefter den globale lighed mellem de seks pandoravirusisolater ved at analysere deres delte genindhold både med hensyn til proteinsekvenslighed og genomisk position. Den parvise lighed mellem de forskellige pandoravirusisolater varierer fra 54 Til 88% som beregnet ud fra en superjustering af proteinprodukterne fra de ortologe gener (supplerende tabel 2). Et fylogenetisk træ beregnet med de samme data klynger pandoravirusene i to separate klader (Fig. 3).

Fig. 3
figur3

fylogenetisk struktur af den foreslåede Pandoraviridae-familie. Bootstrap-værdier estimeret fra resampling er alle lig med 1 og blev derfor ikke rapporteret. Synonymt med ikke-synonymt substitutionshastighedsforhold (kur) blev beregnet for de to separate klader og er signifikant forskellige (skala bar er 0.07 substitution / site)

fortolket i en geografisk sammenhæng formidler dette klyngemønster to vigtige egenskaber ved den nye familie. På den ene side er de mest divergerende stammer ikke dem, der er isoleret fra de fjerneste steder (f.eks. På den anden side er to isolater (f. eks. macleodensis) fra identiske miljøer (to damme placeret 700 m fra hinanden og forbundet med en lille vandstrøm) er helt forskellige. I afventning af en større opgørelse over Pandoraviridae antyder disse resultater allerede, at medlemmer af denne familie distribueres over hele verden med lignende lokale og globale forskelle.

vores Analyse af positionerne for de homologe gener i de forskellige genomer afslørede, at på trods af deres sekvensdivergens (supplerende tabel 2) forbliver 80% af de ortologe gener kollinære. Som vist i Fig. 4, langtrækkende arkitektur af pandoravirus genomer (dvs., baseret på positionerne af ortologe gener) er globalt bevaret, på trods af deres forskelle i størrelser (1,83–2,47 Mb). Imidlertid halvdelen af pandoraviruskromosomerne (den venstre region i Fig. 4) mærkeligt forekommer evolutionær mere stabil end den anden halvdel, hvor de fleste af de ikke-homologe segmenter forekommer. Disse segmenter indeholder stamme-specifikke gener og er beriget i tandem duplikationer af ikke-ortolog ankyrin, MORN og f-boks motivholdige proteiner. Omvendt koncentrerer den stabile halvdel af genomet de fleste af de gener, der udgør Pandoraviridae-kernegenomet (toppen af Fig. 4). Interessant nok er den lokale inversion, der adskiller kromosomet af P. neocaledonia fra de andre stammer, placeret nær grænsen mellem de stabile og ustabile regioner og kan være knyttet til denne overgang (selvom det kan være tilfældigt). Endelig er alle genomer også beriget i stammespecifikke gener (og / eller duplikationer) i begge ekstremiteter.

Fig. 4
figur4

Collinearitet af de tilgængelige pandoravirus genomer. Kumulativ frekvens af kernegener vises øverst. Konserverede kollinære blokke er farvet i samme farve i alle vira. Hvide blokke svarer til ikke-konserverede DNA-segmenter (skala bar er 500 kb)

vi analyserede derefter fordelingen af de forudsagte proteiner blandt de standard brede funktionelle kategorier (Fig. 5). Da det nu er tilbagevendende for store og gigantiske eukaryote DNA-vira, er den dominerende kategori langt den for proteiner, der mangler genkendelige funktionelle signaturer. På tværs af de seks stammer svarer et gennemsnit på 70% af de forudsagte proteiner til “ukendte funktioner”. En sådan høj andel er desto mere bemærkelsesværdig, da den gælder for omhyggeligt validerede gensæt, hvorfra tvivlsomme Orf ‘ er er blevet elimineret. Det er således en biologisk virkelighed, at et stort flertal af disse virale proteiner ikke kan knyttes til tidligere karakteriserede veje. Bemærkelsesværdigt forbliver andelen af sådanne anonyme proteiner ret høj (65%) blandt produkterne fra pandoravirus-kernegenomet, det er blandt de formodentlig essentielle gener, der deles af de seks tilgængelige stammer (og sandsynligvis alle fremtidige familiemedlemmer, ifølge Fig. 2b). Interessant nok forbliver denne andel også meget høj (kr.80%) blandt de proteiner, der påvises som udgør de virale partikler. Desuden dominerer andelen af anonyme proteiner fuldstændigt klassificeringen af gener, der er unikke for hver stamme, på mere end 95%. Den mest generiske funktionelle kategori, “protein-protein-interaktion” er den næststørste (fra 11,7 til 18,9%), svarende til påvisning af meget hyppige og uinformative motiver (f.eks. Samlet set er andelen af pandoravirusproteiner, som en virkelig informativ funktion kunne tilskrives, <20%, herunder et komplet maskineri til DNA-replikation og transkription.

Fig. 5
figur5

funktionelle kommentarer

Vi undersøgte derefter to evolutionære processer muligvis ved oprindelsen af den ekstra store størrelse af pandoravirus genomer horisontale genoverførsler (Hgts) og genduplikationer. HGT ‘ s erhvervelse af gener blev ofte påberåbt for at forklare genomstørrelsen af ameba-inficerede vira sammenlignet med “almindelige” viruser12, 13. Vi beregnede, at op til en tredjedel af pandoravirusproteinerne udviser sekvenslighed (uden for Pandoraviridae-familien) med proteiner fra de tre cellulære domæner (Eukarya, Archaea og eubakterier) eller andre vira (supplerende Fig. 4). Sådanne ligheder indebærer imidlertid ikke, at disse gener blev vandret erhvervet. De kunne også betegne en fælles forfædres oprindelse eller en overførsel fra en pandoravirus til andre mikroorganismer. Vi analyserede individuelt den fylogenetiske position i hver af disse tilfælde for at udlede deres sandsynlige oprindelse: forfædre – når de findes uden for klynger af cellulære eller virale homologer; vandret erhvervet—når de findes dybt indlejret i ovenstående klynger; eller vandret overført til cellulære organismer eller ikke-relaterede vira i den omvendte situation (dvs.et cellulært protein, der ligger i en pandoravirus-proteinklynge). Supplerende Fig. 6 opsummerer resultaterne af denne analyse.

Vi kunne stille en entydig HGT-diagnose i 39% af tilfældene, resten forbliver ubeslutsom eller Kompatibel med en forfædres oprindelse. Blandt de sandsynlige HGT foreslog 49% en vandret gevinst ved pandoravirus og 51% overførslen af et gen fra et pandoravirus. Interessant nok repræsenterer erhvervelsen af værtsgener, en proces, der normalt påberåbes som vigtig i udviklingen af vira, kun en lille andel (13%) af de diagnosticerede HGTs, således mindre end fra vira til værten (18%). Ved at kombinere ovenstående statistikker med andelen af gener (en tredjedel), vi startede fra, i hele genomet, antyder det, at højst 15% (og mindst 6%) af pandoravirus-genindholdet kunne have været opnået fra cellulære organismer (inklusive 5-2% fra deres moderne Acanthamoeba-vært) eller andre vira. Et sådant værdiområde er sammenligneligt med det, der tidligere blev estimeret for Mimivirus14. HGT er således ikke den karakteristiske proces ved oprindelsen af de gigantiske pandoravirus genomer.

Vi undersøgte derefter forekomsten af duplikationer blandt pandoravirus gener. Figur 6a sammenligner proportionerne af enkelt versus duplikerede (eller flere) proteinkodende gener af de seks tilgængelige pandoravirus med det, der beregnes for repræsentanter for de tre andre kendte familier af gigantiske DNA-vira, der inficerer Acanthamoeba. Det viser tydeligt, at andelen af gener med flere kopier (fra 55 Til 44%) er højere i pandoravirus end for de andre virusfamilier, skønt den ikke perfekt korrelerer med deres respektive genomstørrelser. Fordelingen af klyngestørrelser blandt de forskellige pandoravirus-stammer er ens. De fleste gener med flere kopier findes i klynge af størrelse 2 (duplikering) eller 3 (triplikation). Antallet af større klynger falder derefter med deres størrelse (supplerende Fig. 7).

Fig. 6
figur6

analyse af genduplikation i forskellige gigantiske virusfamilier. en fordeling af single-copy versus multiple-copy gener i gigantiske vira. B antal forskellige genklynger

færre store klynger (størrelse > 20) svarer til proteiner, der deler protein–protein-interaktionsmotiver, såsom Ankyrin, MORN og f-boks gentagelser. Overraskende er det absolutte antal single-copy gener i pandoravirus ligner, og nogle gange mindre (f.eks. P. neocaledonia, 2 Mb) end i Mimivirus, med et genom (1,18 Mb) halvdelen af størrelsen. Samlet set er antallet af forskellige genklynger (Fig. 6b) overlapninger mellem Pandoraviridae (fra 607 til 775) og Mimivirus (687), hvilket antyder, at på trods af deres forskel i genom-og partikelstørrelser deler disse vira sammenlignelige genetiske kompleksiteter.

Genduplikation da vi var et så fremtrædende træk ved pandoravirus-genomerne, undersøgte vi det yderligere på udkig efter mere indsigt i dets mekanisme. Først, vi beregnet de genomiske afstande mellem par af nærmeste paralogs, sandsynligvis som følge af de seneste duplikeringshændelser. Fordelingen af disse afstande, der ligner hver pandoravirus, indikerer, at de nærmeste paraloger oftest er placeret ved siden af hinanden (Afstand = 1) eller adskilt af et enkelt gen (afstand = 2) (supplerende Fig. 8).

Vi forsøgte derefter at korrelere den fysiske afstand, der adskiller duplikerede gener med deres sekvensdivergens som et (groft) skøn over deres evolutionære afstand. Vi opnåede en signifikant sammenhæng mellem den estimerede “alder” af duplikationsbegivenheden og den genomiske afstand af de to nærmeste paralogs (supplerende Fig. 9). Disse resultater antyder et evolutionært scenario, hvor de fleste duplikationer først forekommer i tandem med efterfølgende genomændringer (indsættelser, inversioner og gentab) gradvist slører dette signal.

sammenlignende proteomisk af pandoravirioner

vores tidligere massespektrometri proteomisk analyse af P. salinus partikler identificerede 210 virale genprodukter, hvoraf de fleste ORFans eller uden forudsigelig funktion. Derudover opdagede vi 56 vært (Acantamoeba) proteiner. Det er vigtigt, at ingen af komponenterne i det viruskodede transkriptionsapparat blev detekteret i partiklerne5. I dette arbejde udførte vi de samme analyser på P. salinus, P. dulcis og to af de nye isolater for at bestemme, i hvilket omfang de ovennævnte træk blev bevaret for medlemmer af Pandoraviridae-familien med forskellige niveauer af divergens og identificere kernen versus tilbehørskomponenterne i en generisk pandoravirion.

på grund af den konstante følsomhedsforbedring i massespektrometri førte vores nye analyser af oprensede virioner til pålidelig identifikation af 424 proteiner for P. salinus, 357 for P. kvercus, 387 for P. dulcis og 337 for P. neocaledonia (se metoder). Imidlertid svarer dette øgede antal identifikationer til overflodværdier (intensitetsbaseret absolut kvantificering, Ibak), der spænder over mere end fem størrelsesordener. Mange af de proteiner, der er identificeret i halen med lav overflod, svarer således ikke til bona fide partikelkomponenter, men til tilfældigt indlæste tilskuere, “klæbrige” proteiner eller resterende forurenende stoffer fra inficerede celler. Denne forsigtige fortolkning foreslås af flere observationer:

  • den lave overflodshale beriges gradvist i virale proteiner identificeret i partiklerne af en enkelt pandoravirus-stamme (selvom andre stammer besidder de homologe gener),

  • andelen af værtskodede proteiner, der formodentlig er forbundet med partiklerne, stiger ved De laveste forekomster,

  • mange af disse værtsproteiner blev tidligere påvist i partikler af virus, der ikke var relateret til pandoravirusene, men inficerer den samme vært,

  • disse proteiner er rigelige i Acanthamoeba-proteomet (f. eks. hvilket gør dem mere tilbøjelige til at blive bevaret som oprensningsforurenende stoffer.

desværre udviste Ibak-værdifordelingerne forbundet med pandoravirion-proteomerne ikke en diskontinuitet, der kunne tjene som en objektiv overflodstærskel for at skelne bona fide partikelkomponenter fra tvivlsomme. Imidlertid øges antallet af identificerede Acanthamoeba-proteiner kraftigt efter rang 200 i hele proteomet (supplerende Fig. 10). Efter den samme konservative holdning som for genomreannotationen besluttede vi at se bort fra proteinerne identificeret under denne rang som sandsynlige tilskuere og inkluderede kun de 200 mest rigelige proteiner i Vores yderligere analyser af partikelproteomerne (supplerende Data 1, supplerende tabel 3). Ved hjælp af denne strenge proteomdefinition for hver af de fire forskellige pandoravirioner undersøgte vi først mangfoldigheden af deres konstituerende proteiner og deres bevaringsniveau sammenlignet med det globale genindhold i de tilsvarende pandoravirusgenomer.

Figur 7 viser, at partikelproteomerne omfatter proteiner, der tilhører 194 forskellige klynger, hvoraf 102 deles af de fire stammer. Kerneproteomet er således strukturelt og funktionelt forskelligt. Det svarer til 52,6% af de samlede proteinklynger globalt identificeret i alle pandoravirioner. Til sammenligning repræsenterer de 467 proteinklynger kodet af kernegenomet kun 41,6% (dvs.467/1122) af det samlede antal pandoravirus-kodede proteinklynger. Pandoravirus “boksen”, der bruges til at udbrede genomerne af de forskellige stammer, er således signifikant mere konserveret end deres genindhold (p ” 10-3, chi-firkantet test). Generne, der koder for kerneproteomet, udviser også det stærkeste rensende valg blandt alle pandoravirus-gener (supplerende Fig. 11a).

Fig. 7
figur7

Venn-diagram over partikelproteomerne af fire forskellige pandoravirus-stammer

for at evaluere pålideligheden af vores proteomanalyser vi sammenlignet overflodsværdierne bestemt for hvert af de 200 mest rigelige proteiner for to tekniske replikater og for to biologiske replikater udført på den samme pandoravirusstamme (supplerende fig. 12a & b). En meget god korrelation (Pearsons R > 0.97) blev opnået i begge tilfælde for overflodværdier på over tre størrelsesordener. Vi sammenlignede derefter Ibak-værdierne opnået for ortologe proteiner, der deles af virionproteomerne fra forskellige isolater. Også her blev der observeret en god korrelation (R > 0,81), som forventet mindre end for de ovennævnte replikater (supplerende Fig. 12c & d). Disse resultater antyder, at selv om partiklerne fra de forskellige stammer forekommer morfologisk identiske (supplerende Fig. 1) indrømmer de en håndgribelig fleksibilitet både med hensyn til de proteinsæt, de er lavet af (med 89% parvise ortologer i gennemsnit) og i deres præcise støkiometri.

Vi undersøgte derefter de forudsagte funktioner af proteinerne, der komponerer partiklerne, fra de mest til de mindst rigelige, i håb om at få nogle indsigter om den tidlige infektiøse proces. Desværre kunne kun 19 proteinklynger være forbundet med et funktionelt/strukturelt motiv ud af de 102 forskellige klynger, der definerer kernepartikelproteomet (supplerende Data 1, supplerende tabel 3). Denne andel er mindre end for hele genomet (Fig. 5), der bekræfter pandoraviruspartiklens fremmede natur som allerede antydet af dens unikke morfologi og samleproces5. Pandoravirionerne er for det meste lavet af proteiner uden homologer uden for Pandoraviridae-familien. Intet protein, der endda ligner det normalt rigelige store kapsidprotein (MCP), et forudsagt DNA-bindende kerneprotein eller en DNA-emballage ATPase, kendetegnende for de fleste eukaryote store DNA-vira, detekteres. Især a P. salinus hypotetisk protein (tidligere ps_862 nu reannoteret psal_cds_450) for nylig foreslået af Sinclair et al.15 at være en stærk MCP-kandidat blev ikke påvist i P. salinus virions eller dets homologer i de andre stammeproteomer. Dette negative resultat understreger behovet for eksperimentel validering af computerforudsigelser fra “skumringsområdet” af sekvenslighed. Der påvises heller ikke noget spor af den pandoravirus-kodede RNA-polymerase, hvilket bekræfter, at det indledende infektionsstadium kræver værtstranskriptionsmaskineriet placeret i kernen. Spliceosomale introner blev valideret for 56 pandoravirus-gener, hvis produkter blev påvist i pandoravirionerne (supplerende Data 1). Dette indikerer bevarelsen af et funktionelt spliceosome indtil slutningen af den infektiøse cyklus, som forventet fra observationen af ubrudte kerner (supplerende Fig. 1).

blandt de 19 ikke-anonyme proteinklynger udviser 4 generiske motiver uden specifik funktionel ledetråd: 2 kollagenlignende domæner og 1 Pan/APPLE-lignende domæne, der er involveret i protein-protein–interaktioner, og 1 cupin-lignende domæne svarende til en generisk tøndefold. Blandt de 10 mest rigelige kerneproteiner har 9 ingen forudsagt funktion, bortset fra 1, der udviser et C-terminal thioredoksinlignende domæne (psal_cds_383). Det er værd at bemærke, at det forudsagte membranspændende segment på 22 aminosyrer (85-107) er konserveret i alle pandoravirus-stammer. 5 ‘ UTR af de tilsvarende gener udviser 2 introner (i P. salinus, P. dulcis og P. kvercus) og 1 i P. neocaledonia. Thioredoksin katalyserer dithioldisulfidbyttereaktioner gennem reversibel iltning af dets aktive center. Dette protein, med en anden af samme familie (psal_cds_411, forudsagt som opløseligt), kan være involveret i reparation/forebyggelse af fagosominduceret oksidativ skade på virale proteiner før den indledende fase af infektion. Partiklerne deler også en anden rigelig redoksym, en ERV-lignende thioloksidoreduktase, der kan være involveret i modningen af Fe/s-proteiner. Et andet kerneprotein (psal_cds_1260) med en fjern lighed med en thioredoksinreduktase kan deltage i regenerering af de iltede aktive steder af de ovennævnte stoffer. Blandt de mest rigelige kerneproteiner forudsiges psal_cds_232 som DNA-binding og kan være involveret i genomemballage. En formodet nad-afhængig aminoksidase (psal_cds_628) og en FAD-koblet dehydrogenase (psal_cds_1132) kompletterer panelet med konserverede formodede ændringer. Andre forudsagte kerneproteiner inkluderer en Ser / thr-kinase og phosphatase, der er typiske regulatoriske funktioner. En serinprotease, en lipase, en patatinlignende phospholipase og en fjern homolog af et nukleoporin kan være en del af værktøjskassen, der bruges til at færge pandoravirus genomer til cytoplasmaet og derefter til kernen (supplerende tabel 3). Endelig deler to kerneproteiner (psal_cds_118 og psal_cds_874) et endoribonuklease-motiv og kan fungere som transkriptionelle regulatorer rettet mod cellulært mRNA.

på det modsatte af at definere det sæt kerneproteiner, der deles af alle pandoravirioner, undersøgte vi også stammespecifikke komponenter. Desværre er de fleste af virionproteinerne unikke for en given stamme (ca.10 i gennemsnit) anonyme og i lav overflod. Der kunne ikke forudsiges den funktionelle konsekvens af deres tilstedeværelse i partiklerne.