Articles

mångfald och utveckling av den framväxande Pandoraviridae-familjen

miljöprovtagning och isolering av pandoravirusstammar

vi använde samma isoleringsprotokoll som ledde till upptäckten av P. salinus och P. dulcis5. Det består i att blanda det samplade materialet med kulturer av Acanthamoeba anpassade till antibiotikakoncentrationer som är tillräckligt höga för att hämma tillväxten av andra miljömikroorganismer (särskilt bakterier och svampar). Prover togs slumpmässigt från fuktiga miljöer mottagliga för hamnacanthamoeba-celler. Detta ledde till isolering av tre nya pandoravirusstammar: P. quercus; P. neocaledonia; och P. macleodensis (Tabell 1, Se metoder). De uppvisar tillräcklig divergens för att börja bedöma de bevarade funktionerna och variationen i den framväxande Pandoraviridae-familjen. När det är lämpligt inkluderar våra analyser även data från P. inopinatum, isolerade i ett tyskt laboratorium från en patient med en Acanthamoeba keratit7.

Tabell 1 Data om pandoravirusisolaten som används i detta arbete

studie av replikationscykler och virion ultrastrukturer

utgående från renade partiklar inokulerade i A. castellanii-kulturer, vi analyserade den smittsamma cykeln för varje isolat med både ljus-och transmissionselektronmikroskopi (ultratin sektion). Som tidigare observerats för P. salinus och P. dulcis befanns replikationscyklerna för dessa nya pandoravirus vara i genomsnitt 12 h5 (8 h för den snabbaste P. neocaledonia). Den smittsamma processen är densamma för alla virus, som börjar med internalisering av enskilda partiklar av Acanthamoeba-celler. Efter öppningen av deras apikala por överför partiklarna (”pandoravirioner”) deras genomskinliga innehåll till cytoplasman genom fusionen av det inre membranet virion med fagosomen. Infektionens tidiga stadium är anmärkningsvärt lika för alla isolat. Medan vi tidigare rapporterade att cellkärnan var fullständigt störd under det sena skedet av den infektiösa cyklen5, avslöjade den grundliga observationen av de nya stammarna neo-syntetiserade partiklar i cytoplasman hos celler som fortfarande uppvisar kärnliknande fack där nukleolusen inte längre var igenkännlig (kompletterande Fig. 1). Åtta timmar efter infektion blev mogna virioner synliga i vakuoler och släpps genom exocytos (kompletterande film). För alla isolat slutar replikationscykeln med celllysen och frisättningen av cirka hundra partiklar (Fig. 1).

Fig. 1
figure1

den nya pandoravirus isolerar. en överproduktion av en A. castellanii-cell av Pandoravirus macleodensis virioner från miljöprovet tidigare celllys. Miljöbakterier kan ses i odlingsmediet tillsammans med P. macleodensis virioner. (skala bar är 10 occurm). b TEM bild av en ultratunn sektion av A. castellanii-celler under den tidiga infektionsfasen av P. neocaledonia. Ameba-pseudopoderna är redo att uppsluka de omgivande virionerna. Tio minuter pi, virioner har uppslukats och är i vakuoler (skalstången är 500 nm). c TEM bild av en ultratunn sektion av A. castellanii cell under monteringsprocessen av en P. salinus virion (skalstång är 500 nm). d TEM bild av en ultratunna avsnitt av en begynnande P. quercus virion. (skala bar är 500 nm). Strukturerna hos de mogna partiklarna från de olika stammarna uppvisar ingen märkbar skillnad

genomsekvensering och annotering

genomiskt DNA av P. neocaledonia, P. macleodensis och P. quercus framställdes från renade partiklar och sekvenserades med användning av antingen pacbio-eller Illumina-plattformarna (se metoder). När det gäller P. salinus, P. dulcis5 och P. inopinatum7, samlades de tre nya genomerna som enstaka linjära dubbelsträngade DNA-molekyler (dsDNA) (60% g + C) med storlekar från 1,84 till 2 Mb. Förutom deras genomskinliga amforaformade partiklar (Fig. 1), högre än genomsnittet G + C-innehåll och genomisk gigantism förblir således karakteristiska särdrag som delas av Pandoraviridae5, 8. Med tanke på den höga andelen virala gener som kodar för proteiner utan databashomolog, är genprognoser baserade på rent ab initio-beräkningsmetoder (dvs ”ORFing” och kodande benägenhetsuppskattningar) notoriskt opålitliga, vilket leder till inkonsekvenser mellan lag som använder olika värden av godtyckliga parametrar (t.ex. minimal öppen läsram (ORF) storlek). Till exempel bland familjer av stora dsDNA-virus som infekterar eukaryoter varierar den genomsnittliga proteinkodande gentätheten enligt uppgift från en gen varje 335 bp( Phycodnaviridae, NCBI: NC_008724) upp till en gen varje 2120 bp (Herpesviridae, NCBI: NC_003038), medan konsensus är tydligt runt en gen varje kb (som för bakterier). Som ett resultat svänger man mellan situationer där många gener är överpredikade och andra där många verkliga gener förmodligen förbises. Sådan osäkerhet om vilka gener som är” riktiga ” introducerar ett signifikant brus i jämförande genomiska analyser och efterföljande testning av evolutionära hypoteser. Dessutom är beräkningsmetoder mestadels blinda för gener uttryckta som icke-proteinkodande transkript.

för att övervinna ovanstående begränsningar utförde vi strängspecifika RNA-seq-experiment och partikelproteomanalyser, vars resultat kartlades på genomsekvenserna. Endast gener som stöds av experimentella bevis (eller proteinlikhet) behölls i detta stränga reannotationsprotokoll (se metoder, kompletterande Fig. 2). Å ena sidan ledde denna nya procedur till en reducerad uppsättning förutsagda proteiner, å andra sidan möjliggjorde upptäckten av ett oväntat stort antal icke-kodande transkript (Tabell 1).

den nya uppsättningen validerade proteinkodande gener uppvisar en starkt minskad andel ORF kortare än 100 rester, varav de flesta är unika för varje pandoravirusstam (kompletterande Fig. 3). Det stränga annoteringsförfarandet resulterade också i att gener uppvisade en välcentrerad unimodal fördelning av kodonanpassningsindex (CAI) värden (kompletterande Fig. 3).

för konsistens extrapolerade vi vårt stränga anteckningsprotokoll till P. inopinatum och P. macleodensis, vilket minskar antalet förutsagda proteiner som beaktas vid ytterligare jämförelser (se metoder, Tabell 1). Som förväntat beror skillnaderna mellan standard kontra stränga genprognoser bara på överprediktionen av små ORF: er (längd < 300 nukleotider). Sådana godtyckliga ORF: er är benägna att uppstå slumpmässigt i G + C-rika sekvenser inom vilka stoppkodoner (TAA, tagg och TGA) är mindre benägna att inträffa av en slump än i de icke-kodande regionerna i A + T-rika genom. Faktum är att ovanstående standard och stränga anteckningsprotokoll tillämpas på A + T-rich (74.8%) Megavirus chilensis genome3 resulterade i två mycket liknande uppsättningar av förutsagda kontra validerade proteinkodande gener (1120 mot 1108). Denna kontroll indikerar att vår stränga anteckning inte bara kasserar så småningom korrekta genprognoser genom godtycklig höjning av en konfidensgräns, men specifikt korrigerar fel som induceras av den G + C-rika kompositionen. Rent beräkningsgenanteckningsmetoder är således markant mindre tillförlitliga för G + C-rika genom, särskilt när de kodar för en stor andel ORFans (dvs. ORF utan databashomolog), som för pandoravirus. Det är emellertid värt att notera att även efter vår stränga reannotation förblev fraktionen av förutsagda proteiner utan signifikant sekvenslikhet utanför Pandoraviridae-familjen ganska hög (från 67 till 73%, kompletterande Fig. 4).

en ytterligare utmaning för den exakta anteckningen av pandoravirusgenomerna är närvaron av introner (praktiskt taget odetekterbara med beräkningsmetoder när de avbryter ORFans). Kartläggningen av de sammansatta transkriptionssekvenserna på genomerna av P. salinus, P. dulcis, P. quercus och P. neokaledoni, möjliggjorde detektering av spliceosomala introner i 7,5–13% av de validerade proteinkodande generna. Dessa introner hittades i de oöversatta regionerna (utr) såväl som i kodande sekvenser, inklusive i genomsnitt 14 gener bland de som kodar för de 200 mest rikliga proteinerna som detekterades i partiklarna (se nedan). Även om spliceosomala introner finns i andra virus med en kärnfas såsom klorovirus9, pandoravirus är de enda för vilka spliceosomala introner har validerats för mer än 10% av deras gener. Dessa resultat stöder vårt tidigare förslag att åtminstone en del av pandoravirusutskrifterna syntetiseras och bearbetas av värdkärnmaskinen5. Ändå förblir antalet intron per viral gen mycket lägre (cirka 1,2 i genomsnitt) än för värdgenerna (6,2 i genomsnitt10). Pandoravirusgener uppvisar också utr dubbelt så länge (kompletterande Tabell 1) som Mimiviridae11.

kartläggningen av RNA-seq-data ledde till den oväntade upptäckten av ett stort antal (157-268) långa icke-kodande transkript (lncRNA) (Tabell 1, kompletterande Tabell 1 för detaljerad statistik). Dessa LncRNAs uppvisar en polyA svans och cirka 4% av dem innehåller spliceosomala introner. LncRNA transkriberas oftast från den omvända strängen av validerade proteinkodande gener medan en mindre fraktion uttrycks i intergena (dvs inter-ORF) regioner (kompletterande Fig. 5). Dessa icke-kodande transkript kan spela en roll i regleringen av pandoravirusgener uttryck.

totalt transkriberas 82, 7-87% av pandoravirusgenomerna (inklusive ORFs, UTRs och LncRNAs), men endast 62-68, 2% översätts till proteiner. Sådana värden är mycket lägre än i jättevirus från andra familjer (t.ex. 90% av mimivirus11-genomet översätts), delvis på grund av de större utr: erna som flankerar pandoravirusgenerna.

jämförande genomik

de sex proteinkodande genuppsättningarna erhållna från ovanstående stränga anteckning användes sedan som referenser för helgenomjämförelser som syftar till att identifiera specifika egenskaper hos Pandoraviridae-familjen. Efter en sekvenslikhetsbaserad kluster (se metoder) beräknades de relativa överlappningarna av geninnehållet i de olika stammarna (Fig. 2a), producerar vad vi kallar ”proteinkluster”.

Fig. 2
figure2

jämförelse av pandoravirusgeninnehållet. a fördelningen av alla kombinationer av delade proteinkluster visas. Insatsen sammanfattar antalet kluster och gener som delas av 6, 5, 4, 3, 2, och 1 pandoravirus. B-Kärngenomet och pan-genomet uppskattat från de sex tillgängliga pandoravirusen. Den uppskattade heap-lagens parameter för heap-lag (< 1) är karakteristisk för en öppen pan-genome50 och fluiditetsparametervärdet som är karakteristiskt för en stor del av unika gener51. Box tomter visar medianen, den 25: e och 75: e percentilen. Morrhåren motsvarar de extrema datapunkterna

Vi beräknade sedan antalet delade (dvs., ”kärna”) och totala gener som vi inkrementellt införlivade genomerna hos de olika isolaten i ovanstående analys, för att uppskatta storleken på familjekärngenuppsättningen och den för tillbehör/flexibel genuppsättning. Om de sex tillgängliga isolaten verkade tillräckliga för att avgränsa ett kärngenom som kodar för 455 olika proteinkluster, är ”mättnadskurvan” som leder till den totala genuppsättningen långt ifrån att nå en platå, vilket tyder på att Pandoraviridae-pan-genomet är öppet, med varje ytterligare isolat förutsagt att bidra med mer än 50 ytterligare gener (Fig. 2b). Detta återstår att bekräftas av analysen av ytterligare Pandoraviridae-isolat.vi undersökte sedan den globala likheten hos de sex pandoravirusisolaten genom att analysera deras delade geninnehåll både i termer av proteinsekvenslikhet och genomisk position. Den parvisa likheten mellan de olika pandoravirusisolaten varierar från 54 till 88%, beräknat från en superinriktning av proteinprodukterna från de ortologa generna (kompletterande Tabell 2). Ett fylogenetiskt träd beräknat med samma data kluster pandoravirusen i två separata klader (Fig. 3).

Fig. 3
figure3

fylogenetisk struktur av den föreslagna Pandoraviridae-familjen. Bootstrap-värden uppskattade från omsampling är alla lika med 1 och rapporterades därför inte. Synonymt med icke-synonymt substitutionshastighetsförhållanden (Brasilien) beräknades för de två separata kladerna och är signifikant olika (skalfältet är 0.07 substitution / site)

tolkat i ett geografiskt sammanhang förmedlar detta klustermönster två viktiga egenskaper hos den framväxande familjen. Å ena sidan är de mest divergerande stammarna inte de som är isolerade från de mest avlägsna platserna (t.ex. den chilenska P. salinus kontra den franska P. quercus; den Neo-Caledonian P. neocaledonia kontra den australiensiska P. macleodensis). Å andra sidan två isolat (t. ex. P. dulcis kontra P. macleodensis) från identiska miljöer (två dammar som ligger 700 m från varandra och förbundna med ett litet vattenflöde) är ganska olika. I väntan på en större inventering av Pandoraviridae, tyder dessa resultat redan på att medlemmar i denna familj distribueras över hela världen med liknande lokala och globala mångfald.

vår analys av positionerna för de homologa generna i de olika genomerna avslöjade att trots deras sekvensdivergens (kompletterande Tabell 2) förblir 80% av de ortologa generna kollinära. Såsom visas i Fig. 4, den långväga arkitekturen för pandoravirusgenomerna (dvs., baserat på positionerna för ortologa gener) bevaras globalt, trots deras skillnader i storlekar (1,83–2,47 Mb). Men hälften av pandoraviruskromosomerna (den vänstra regionen i Fig. 4) märkligt verkar evolutionär stabilare än den andra hälften där de flesta av de icke-homologa segmenten förekommer. Dessa segment innehåller stamspecifika gener och berikas i tandemduplikationer av icke-orthologa ankyrin -, MORN-och f-box-motivinnehållande proteiner. Omvänt koncentrerar den stabila halvan av genomet de flesta av generna som utgör Pandoraviridae-kärngenomet (toppen av Fig. 4). Intressant är att den lokala inversionen som skiljer kromosomen av P. neocaledonia från de andra stammarna ligger nära gränsen mellan de stabila och instabila regionerna och kan kopplas till denna övergång (även om det kan vara tillfälligt). Slutligen berikas alla Genom också i stamspecifika gener (och / eller duplikationer) vid båda extremiteterna.

Fig. 4
figure4

Kollinearitet av de tillgängliga pandoravirusgenomerna. Kumulativ frekvens av kärngener visas högst upp. Konserverade kollinära block är färgade i samma färg i alla virus. Vita block motsvarar icke-konserverade DNA-segment (skalfältet är 500 kb)

vi analyserade sedan fördelningen av de förutsagda proteinerna bland de vanliga breda funktionella kategorierna (Fig. 5). Eftersom det nu är återkommande för stora och jätte eukaryota DNA-virus är den dominerande kategorin överlägset den för proteiner som saknar igenkännliga funktionella signaturer. Över de sex stammarna motsvarar i genomsnitt 70% av de förutsagda proteinerna ”okända funktioner”. En sådan hög andel är desto mer anmärkningsvärd eftersom den gäller noggrant validerade genuppsättningar, från vilka tvivelaktiga ORFs har eliminerats. Det är således en biologisk verklighet att en stor majoritet av dessa virala proteiner inte kan kopplas till tidigare karakteriserade vägar. Anmärkningsvärt är andelen sådana anonyma proteiner fortfarande ganska hög (65%) bland produkterna från pandoraviruskärngenomet, det vill säga Bland de förmodligen väsentliga generna som delas av de sex tillgängliga stammarna (och förmodligen alla framtida familjemedlemmar, enligt Fig. 2b). Intressant är att denna andel förblir också mycket hög (80% i 80%) bland de proteiner som detekteras som utgör viruspartiklarna. Dessutom dominerar andelen anonyma proteiner helt klassificeringen av gener som är unika för varje stam, vid mer än 95%. Den mest generiska funktionella kategorin, ”protein-protein-interaktion” är den näst största (från 11,7 till 18,9%), vilket motsvarar detektering av mycket frekventa och oinformativa motiv (t.ex. ankyrin-upprepningar). Sammantaget är andelen pandoravirusproteiner som en verkligt informativ funktion kan tillskrivas <20%, inklusive en komplett maskin för DNA-replikation och transkription.

Fig. 5
figure5

funktionella anteckningar

vi undersökte sedan två evolutionära processer möjligen vid ursprunget till pandoravirusgenomens extra stora storlek: horisontella genöverföringar (Hgts) och genduplikationer. Förvärvet av gener av HGT åberopades ofta för att förklara genomstorleken hos ameba-infekterande virus jämfört med ”vanliga” virus12, 13. Vi beräknade att upp till en tredjedel av pandoravirusproteinerna uppvisar sekvenslikheter (utanför Pandoraviridae-familjen) med proteiner från de tre cellulära domänerna (Eukarya, Archaea och Eubacteria) eller andra virus (kompletterande Fig. 4). Sådana likheter innebär emellertid inte att dessa gener förvärvades horisontellt. De kan också beteckna ett gemensamt förfäders ursprung eller en överföring från ett pandoravirus till andra mikroorganismer. Vi analyserade individuellt den fylogenetiska positionen för vart och ett av dessa fall för att dra slutsatsen om deras troliga ursprung: ancestral-när den finns utanför kluster av cellulära eller virala homologer; horisontellt förvärvad-när den finns djupt inbäddad i ovanstående kluster; eller horisontellt överförd till cellulära organismer eller orelaterade virus i den omvända situationen (dvs. ett cellulärt protein som ligger inom ett pandoravirusproteinkluster). Kompletterande Fig. 6 sammanfattar resultaten av denna analys.

Vi kunde göra en entydig HGT-diagnos för 39% av fallen, resten förblir obeslutbar eller kompatibel med ett förfäders ursprung. Bland de troliga HGT föreslog 49% en horisontell vinst av pandoravirus och 51% överföringen av en gen från ett pandoravirus. Intressant är att förvärvet av värdgener, en process som vanligtvis åberopas som viktig vid utvecklingen av virus, endast representerar en liten andel (13%) av de diagnostiserade HGTs, alltså mindre än från virusen till värden (18%). Att kombinera ovanstående statistik med andelen gener (en tredjedel) som vi startade från, i hela genomet, antyder att högst 15% (och minst 6%) av pandoravirusgeninnehållet kunde ha vunnits från cellulära organismer (inklusive 5-2% från deras samtida Acanthamoeba värd) eller andra virus. Ett sådant värdeområde är jämförbart med vad som tidigare uppskattades för Mimivirus14. HGT är således inte den distinkta processen vid ursprunget till de jätte pandoravirusgenomerna.

vi undersökte sedan förekomsten av duplikationer bland pandoravirusgener. Figur 6a jämför proportionerna av singel kontra duplicerade (eller fler) proteinkodande gener av de sex tillgängliga pandoravirusen med det som beräknas för representanter för de tre andra kända familjerna av jätte DNA-virus som infekterar Acanthamoeba. Det visar tydligt att andelen gener med flera kopior (från 55 till 44%) är högre i pandoravirus än för de andra virusfamiljerna, även om det inte helt korrelerar med deras respektive genomstorlekar. Fördelningarna av klusterstorlekar mellan de olika pandoravirusstammarna är likartade. De flesta gener med flera kopior finns i kluster av Storlek 2 (duplicering) eller 3 (triplikering). Antalet större kluster minskar sedan med sin storlek (kompletterande Fig. 7).

Fig. 6
figure6

analys av genduplikation i olika jättevirusfamiljer. en Distribution av en kopia kontra flera kopior gener i jättevirus. b antal distinkta genkluster

färre stora kluster (storlek> 20) motsvarar proteiner som delar protein–proteininteraktionsmotiv, såsom Ankyrin, morgon och f-box-upprepningar. Överraskande är det absoluta antalet enkelkopi gener i pandoravirus liknar och ibland mindre (t.ex. P. neocaledonia, 2 Mb) än i Mimivirus, med ett genom (1,18 Mb) halva storleken. Sammantaget är antalet distinkta genkluster (Fig. 6B) överlappar mellan Pandoraviridae (från 607 till 775) och Mimivirus (687), vilket tyder på att trots deras skillnad i genom-och partikelstorlekar delar dessa virus jämförbara genetiska komplexiteter.

genduplicering är en så framträdande egenskap hos pandoravirusgenomerna, vi undersökte det vidare och letade efter mer insikt om dess mekanism. Först beräknade vi de genomiska avstånden mellan par av närmaste paraloger, troligen till följd av de senaste dupliceringshändelserna. Fördelningarna av dessa avstånd, liknande för varje pandoravirus, indikerar att de närmaste paralogerna oftast ligger bredvid varandra (avstånd = 1) eller separeras av en enda gen (avstånd = 2) (kompletterande Fig. 8).vi försökte sedan korrelera det fysiska avståndet som skiljer duplicerade gener med deras sekvensdivergens som en (grov) uppskattning av deras evolutionära avstånd. Vi erhöll en signifikant korrelation mellan den uppskattade ”åldern” för dupliceringshändelsen och det genomiska avståndet för de två närmaste paralogerna (kompletterande Fig. 9). Dessa resultat tyder på ett evolutionärt scenario där de flesta duplikationer först uppträder i tandem, med efterföljande genomförändringar (Infogningar, inversioner och genförluster) som gradvis suddar ut denna signal.

jämförande proteomisk av pandoravirioner

vår tidigare masspektrometriproteomisk analys av P. salinus-partiklar identifierade 210 virala genprodukter, varav de flesta ORFans eller utan förutsägbar funktion. Dessutom upptäckte vi 56 värd (Acantamoeba) proteiner. Det är viktigt att ingen av komponenterna i den viruskodade transkriptionsapparaten detekterades i partiklarna5. I detta arbete utförde vi samma analyser på P. salinus, P. dulcis och två av de nya isolaten (P. quercus och P. neocaledonia) för att bestämma i vilken utsträckning ovanstående egenskaper bevarades för medlemmar av Pandoraviridae-familjen med olika nivåer av divergens och identifiera kärnan kontra tillbehörskomponenterna i en generisk pandoravirion.på grund av den ständiga känslighetsförbättringen i masspektrometri ledde våra nya analyser av renade virioner till tillförlitlig identifiering av 424 proteiner för P. salinus, 357 för P. quercus, 387 för P. dulcis och 337 för P. neocaledonia (se metoder). Detta ökade antal identifieringar motsvarar emellertid överflödesvärden (intensitetsbaserad absolut kvantifiering, iBAQ) som spänner över mer än fem storleksordningar. Många av proteinerna som identifieras i svansen med låg överflöd kan således inte motsvara bona fide partikelkomponenter, utan till slumpmässigt laddade åskådare, ”klibbiga” proteiner eller kvarvarande föroreningar från infekterade celler. Denna försiktiga Tolkning föreslås av flera observationer:

  • svansen med låg överflöd berikas progressivt i virala proteiner identifierade i partiklarna i en enda pandoravirusstam (även om andra stammar har de homologa generna),

  • andelen värdkodade proteiner som förmodas associeras med partiklarna ökar vid de lägsta överflödena,

  • många av dessa värdproteiner detekterades tidigare i viruspartiklar som inte var relaterade till pandoravirusen men infekterade samma värd,

  • dessa proteiner är rikliga i Acanthamoeba-proteomet (t. ex., aktin, peroxidas, etc) vilket gör dem mer benägna att behållas som reningsföroreningar.

tyvärr visade iBAQ-värdefördelningarna associerade med pandoravirionproteomerna inte en diskontinuitet som kunde tjäna som en objektiv överflödströskel för att skilja bona fide partikelkomponenter från tvivelaktiga. Antalet identifierade Acanthamoeba-proteiner ökar emellertid kraftigt efter rank 200 i hela proteomet (kompletterande Fig. 10). Efter samma konservativa inställning som för genomreannotationen bestämde vi oss för att bortse från proteinerna som identifierades under denna rang som troliga åskådare och inkluderade endast de 200 mest rikliga proteinerna i våra ytterligare analyser av partikelproteomerna (kompletterande Data 1, kompletterande tabell 3). Med hjälp av denna stränga proteomdefinition för var och en av de fyra olika pandoravirionerna undersökte vi först mångfalden av deras konstituerande proteiner och deras bevarandenivå jämfört med det globala geninnehållet i motsvarande pandoravirusgenom.

Figur 7 visar att partikelproteomerna inkluderar proteiner som tillhör 194 distinkta kluster, varav 102 delas av de fyra stammarna. Kärnproteomen är således strukturellt och funktionellt olika. Det motsvarar 52, 6% av de totala proteinkluster som globalt identifierats i alla pandoravirioner. Som jämförelse representerar de 467 proteinkluster som kodas av kärngenomet endast 41,6% (dvs 467/1122) av det totala antalet pandoravirus-kodade proteinkluster. Pandoravirus ” box ”som används för att sprida genomerna hos de olika stammarna är således betydligt mer konserverad än deras geninnehåll (p” 10-3, chi-kvadrattest). Generna som kodar för kärnproteomen uppvisar också det starkaste renande urvalet bland alla pandoravirusgener (kompletterande Fig. 11a).

Fig. 7
figure7

Venn-diagram över partikelproteomerna av fyra olika pandoravirusstammar

för att utvärdera tillförlitligheten hos våra proteomanalyser vi jämförde abundance (ibaq) – värdena bestämda för var och en av de 200 mest rikliga proteinerna för två tekniska replikat och för två biologiska replikat utförda på samma pandoravirusstam (kompletterande Fig. 12a & b). En mycket bra korrelation (Pearsons R > 0.97) erhölls i båda fallen för överflödsvärden som sträcker sig över tre storleksordningar. Vi jämförde sedan iBAQ-värdena erhållna för ortologa proteiner delade av virionproteomerna av olika isolat. Här igen observerades en bra korrelation (R > 0.81), som förväntat mindre än för ovanstående replikat (kompletterande Fig. 12c & d). Dessa resultat tyder på att även om partiklarna i de olika stammarna verkar morfologiskt identiska (kompletterande Fig. 1) erkänner de en påtaglig flexibilitet både när det gäller proteinuppsättningarna de är gjorda av (med 89% av parvisa ortologer i genomsnitt) och i deras exakta stökiometri.vi undersökte sedan de förutsagda funktionerna hos proteinerna som komponerar partiklarna, från de mest till de minst rikliga, i hopp om att få några insikter om den tidiga smittsamma processen. Tyvärr kunde endast 19-proteinkluster associeras till ett funktionellt/strukturellt motiv av de 102 olika klusterna som definierar kärnpartikelproteomen (kompletterande Data 1, kompletterande tabell 3). Denna andel är mindre än för hela genomet (Fig. 5), bekräftar pandoraviruspartikelns främmande natur som redan föreslagits av dess unika morfologi och monteringsprocess5. Pandoravirionerna är mestadels gjorda av proteiner utan homologer utanför Pandoraviridae-familjen. Inget protein ens på distans liknar det vanligtvis rikliga huvudkapsidproteinet (MCP), ett förutsagt DNA-bindande kärnprotein eller ett DNA-förpackningsatpas, kännetecken för de flesta eukaryota stora DNA-virus, detekteras. I synnerhet en P. salinus hypotetiska protein (tidigare ps_862 nu reannotated psal_cds_450) nyligen föreslagits av Sinclair et al.15 att vara en stark MCP-kandidat detekterades inte I P. salinus-virionerna eller dess homologer i de andra stamproteomerna. Detta negativa resultat betonar behovet av experimentell validering av datorprognoser gjorda från ”twilight zone” av sekvenslikhet. Inget spår av det pandoravirus-kodade RNA-polymeraset detekteras heller, vilket bekräftar att det initiala infektionssteget kräver värdtranskriptionsmaskinen belägen i kärnan. Spliceosomala introner validerades för 56 pandoravirusgener vars produkter detekterades i pandoravirionerna (kompletterande Data 1). Detta indikerar bevarandet av en funktionell spliceosom till slutet av infektionscykeln, som förväntat från observationen av obrutna kärnor (kompletterande Fig. 1).

bland de 19 icke-anonyma proteinklusterna uppvisar 4 generiska motiv utan specifik funktionell ledtråd: 2 kollagenliknande domäner och 1 Pan/äppelliknande domän som är involverade i protein-protein-interaktioner och 1 cupin–liknande domän som motsvarar en generisk fatveck. Bland de 10 vanligaste kärnproteinerna har 9 ingen förutsagd funktion, förutom att 1 uppvisar en C-terminal tioredoxinliknande domän (psal_cds_383). Det är värt att notera att det förutsagda membranspänningssegmentet av 22 aminosyror (85-107) bevaras i alla pandoravirusstammar. 5 ’ utr för motsvarande gener uppvisar 2 introner (I P. salinus, P. dulcis och P. quercus) och 1 I P. neocaledonia. Tioredoxin katalyserar ditiol-disulfidbytesreaktioner genom den reversibla oxidationen av dess aktiva centrum. Detta protein, med en annan av samma familj (psal_cds_411, förutsagt som lösligt), kan vara involverat i att reparera/förebygga fagosominducerade oxidativa skador på virala proteiner före det första infektionsstadiet. Partiklarna delar också ett annat rikligt redoxenzym, ett ERV-liknande tioloxidoreduktas som kan vara involverat i mognad av Fe/s-proteiner. Ett annat kärnprotein (psal_cds_1260) med en avlägsen likhet med ett tioredoxinreduktas kan delta i regenereringen av de oxiderade aktiva platserna för ovanstående enzymer. Bland de vanligaste kärnproteinerna förutspås psal_cds_232 som DNA-bindande och kan vara involverad i genomförpackning. Ett förmodat NAD-beroende aminoxidas (psal_cds_628) och ett FAD-kopplat dehydrogenas (psal_cds_1132) kompletterar panelen med konserverade förmodade redoxenzymer. Andra förutsagda kärnproteiner inkluderar ett Ser / thr-Kinas och fosfatas som är typiska reglerande funktioner. Ett serinproteas, ett lipas, ett patatinliknande fosfolipas och en avlägsen homolog av en nukleoporin kan vara en del av verktygslådan som används för att färja pandoravirusgenomerna till cytoplasman och sedan till kärnan (kompletterande tabell 3). Slutligen delar två kärnproteiner (psal_cds_118 och psal_cds_874) ett endoribonukleasmotiv och kan fungera som transkriptionsregulatorer riktade mot cellulärt mRNA.

vid motsatsen till att definiera uppsättningen kärnproteiner som delas av alla pandoravirioner undersökte vi också stamspecifika komponenter. Tyvärr är de flesta virionproteinerna som är unika för en given stam (cirka 10 i genomsnitt) anonyma och i låg överflöd. Ingen förutsägelse kunde göras om den funktionella konsekvensen av deras närvaro i partiklarna.