Mangfold og utviklingen av den nye Pandoraviridae familien
Miljø prøvetaking og isolering av pandoravirus stammer
vi brukte samme isolasjon protokollen som førte til oppdagelsen Av P. salinus og p. dulcis5. Det består i å blande det samplede materialet med kulturer Av Acanthamoeba tilpasset antibiotiske konsentrasjoner som er høye nok til å hemme veksten av andre miljømikroorganismer (spesielt bakterier og sopp). Prøver ble tatt tilfeldig fra fuktige miljøer utsatt for havn Acanthamoeba celler. Dette førte til isolering av tre nye pandoravirus stammer: P. quercus; P. neocaledonia; og p. macleodensis (Tabell 1, Se Metoder). De viser tilstrekkelig divergens for å begynne å vurdere de konserverte funksjonene og variabiliteten til Den nye Pandoraviridae-familien. Når det er hensiktsmessig, inkluderer våre analyser også data Fra P. inopinatum, isolert i et tysk laboratorium fra en pasient med En Acanthamoeba keratitt7.
Studie av replikasjonssykluser og virion ultrastrukturer
med utgangspunkt i rensede partikler inokulert I a. castellanii kulturer, vil vi analysert den smittsomme syklusen til hvert isolat ved hjelp av både lys-og transmisjonselektronmikroskopi (ultratynn seksjon). Som tidligere observert For P. salinus og p. dulcis, ble replikasjonssyklusene av disse nye pandoravirusene funnet å vare i gjennomsnitt 12 h5 (8 h for den raskeste P. neocaledonia). Den smittsomme prosessen er den samme for alle virus, som begynner med internalisering av individuelle partikler Av Acanthamoeba-celler. Etter åpningen av deres apikale pore overfører partiklene («pandoravirioner») deres gjennomsiktige innhold til cytoplasma gjennom fusjon av virion indre membran med fagosomets. Den tidlige fasen av infeksjonen er bemerkelsesverdig lik for alle isolater. Mens vi tidligere rapporterte at cellekjernen var fullstendig forstyrret i det sene stadiet av den smittsomme syklusen5, avslørte den grundige observasjonen av de nye stammene neo-syntetiserte partikler i cytoplasma av celler som fortsatt utviser kjernelignende rom hvor nukleolus ikke lenger var gjenkjennelig (Supplerende Fig. 1). Åtte timer etter infeksjon ble modne virioner synlige i vakuoler og frigjøres gjennom eksocytose (Supplerende Film). For alle isolater slutter den replikative syklusen med cellens lysis og frigjøring av omtrent hundre partikler(Fig. 1).
Genomsekvensering og annotasjon
Genomisk DNA Av p. neocaledonia, P. macleodensis Og P. quercus ble fremstilt fra rensede partikler og sekvensert ved Hjelp Av Enten PacBio-eller Illumina-plattformene (Se Metoder). Når Det gjelder P. salinus, p. dulcis5 og p. inopinatum7, ble de tre nye genomene samlet som enkle lineære dobbeltstrengede DNA (dsDNA) molekyler (≈60% g + C ) med størrelser fra 1,84 til 2 Mb. I tillegg til deres gjennomsiktige amforaformede partikler(Fig. 1), høyere Enn gjennomsnittet G + C innhold og genomisk gigantisme dermed forbli karakteristiske trekk deles Av Pandoraviridae5, 8. Gitt den høye andelen virale gener som koder for proteiner uten databasehomolog, er genprognoser basert på rent ab initio beregningsmessige tilnærminger (dvs. «ORFing» og kodende tilbøyelighetsestimater) notorisk upålitelige, noe som fører til uoverensstemmelser mellom lag som bruker forskjellige verdier av vilkårlige parametere (f.eks. minimal åpen leseramme (ORF) størrelse). For eksempel blant familier av store dsDNA-virus som infiserer eukaryoter, varierer gjennomsnittlig proteinkodende gent tetthet fra ett gen hver 335 bp (Phycodnaviridae, NCBI: NC_008724) opp til ett gen hver 2120 bp (Herpesviridae, NCBI: NC_003038), mens konsensus er tydelig rundt ett gen hver kb (for eksempel for bakterier). Som et resultat svinger man mellom situasjoner hvor mange gener er overpredikted og andre hvor mange virkelige gener sannsynligvis overses. Slik usikkerhet om hvilke gener som er «ekte» introduserer en betydelig støy i komparative genomiske analyser og etterfølgende testing av evolusjonære hypoteser. I tillegg er beregningsmetoder for det meste blinde for gener uttrykt som ikke-proteinkodende transkripsjoner.
for å overvinne de ovennevnte begrensningene utførte vi strengspesifikke rna-seq-eksperimenter og partikkelproteomanalyser, hvor resultatene ble kartlagt på genomsekvensene. Bare gener støttet av eksperimentelle bevis (eller protein likhet)ble beholdt i denne strenge reannotation protokollen (Se Metoder, Supplerende Fig. 2). På den ene siden førte denne nye prosedyren til et redusert sett med spådde proteiner, på den annen side tillot det oppdagelsen av et uventet stort antall ikke-kodende transkripsjoner (Tabell 1).
det nye settet med validerte proteinkodende gener viser en sterkt redusert andel ORFs kortere enn 100 rester, hvorav de fleste er unike for hver pandoravirusstamme (Supplerende Fig. 3). Den strenge annotasjonsprosedyren resulterte også i at gener viste en godt sentrert unimodal fordeling av codon adaptation index (cai) verdier(Supplerende Fig. 3).
for konsistens ekstrapolerte vi vår strenge annotasjonsprotokoll Til P. inopinatum og p. macleodensis, og reduserte antall forventede proteiner tatt i betraktning i videre sammenligninger (se Metoder, Tabell 1). Som forventet er avvikene mellom standard versus strenge genprognoser bare på grunn av overprediksjonen av små ORFs (lengde < 300 nukleotider). Slike vilkårlige ORFs er tilbøyelige til å oppstå tilfeldig I G + C-rike sekvenser innenfor hvilke stoppkodoner (TAA, TAG og TGA) er mindre sannsynlig å forekomme ved en tilfeldighet enn i de ikke-kodende områdene Av A + T-rike genomer. Faktisk er de ovennevnte standard og strenge merknadsprotokoller brukt På A + T-rich (74.8%) Megavirus chilensis genome3 resulterte i to svært like sett med spådde versus validerte proteinkodende gener (1120 versus 1108). Denne kontrollen indikerer at vår strenge merknad ikke bare forkaster til slutt korrekte genforutsigelser ved vilkårlig å øke en konfidensgrense, men spesifikt korrigere feil indusert Av G + C-rik sammensetning. Rent beregningsgen annotasjonsmetoder er dermed markant mindre pålitelige For G + C-rike genomer, spesielt når de koder for en stor andel ORFans (dvs.ORF uten database homolog), som for pandoravirus. Det er imidlertid verdt å merke seg at selv etter vår strenge reannotasjon forblir fraksjonen av spådde proteiner uten signifikant sekvenslikhet utenfor Pandoraviridae-familien ganske høy (fra 67 til 73%, Supplerende Fig. 4).En ekstra utfordring for den nøyaktige merknaden av pandoravirus-genomene er tilstedeværelsen av introner (nesten uoppdagelig ved beregningsmetoder når De forstyrrer ORFans). Kartleggingen av de samlede transkripsjonssekvensene på genomene Til P. salinus, P. dulcis, P. quercus og P. neocaledonia, tillot påvisning av spliceosomale introner i 7,5-13% av de validerte proteinkodende gener. Disse intronene ble funnet i de utranslerte områdene (UTRs) så vel som i kodingssekvensene, inkludert i gjennomsnitt 14 gener blant de som koder for de 200 mest omfattende proteinene som oppdages i partiklene (se nedenfor). Selv om spliceosomale introner finnes i andre virus med en nukleær fase som klorovirus9, er pandoravirus de eneste som spliceosomale introner har blitt validert for mer enn 10% av deres gener. Disse resultatene støtter vårt tidligere forslag om at minst en del av pandoravirus-transkripsjonene syntetiseres og behandles av vertens nukleare maskineri5. Likevel forblir antall intron per viralt gen mye lavere (rundt 1,2 i gjennomsnitt) enn for vertsgenene (6,2 i gjennomsnitt10). Pandoravirus-gener viser Også UTRs dobbelt så lenge (Supplerende Tabell 1) som Mimiviridae11.kartleggingen av rna-seq-dataene førte til uventet oppdagelse av et stort antall (157-268) lange ikke-kodende transkripsjoner (Lncrna) (Tabell 1, Supplerende Tabell 1 for detaljert statistikk). Disse Lncrna utviser en polyA hale og ca 4% av dem inneholder spliceosomale introner. Lncrna transkriberes oftest fra den omvendte strengen av validerte proteinkodende gener mens en mindre brøkdel uttrykkes i intergeniske (dvs. inter-ORF) regioner (Supplerende Fig. 5). Disse ikke-kodende transkripsjoner kan spille en rolle i reguleringen av pandoravirus gener uttrykk.Totalt blir 82,7–87% av pandoravirus-genomene transkribert (inkludert ORFs, UTRs og LncRNAs), men bare 62-68, 2% blir oversatt til proteiner. Slike verdier er mye lavere enn i gigantiske virus fra andre familier (f.eks. er 90% Av Mimivirus11-genomet oversatt), delvis på grunn av at De større UTRs flankerer pandoravirus-genene.
Sammenlignende genomikk
de seks proteinkodende gensettene oppnådd fra den ovenfor strenge merknaden ble deretter brukt som referanser for helgenomsammenligninger med sikte på å identifisere spesifikke trekk Ved Pandoraviridae-familien. Etter en sekvenslikhetsbasert klynging (Se Metoder) ble de relative overlappene av geninnholdet i de forskjellige stammene beregnet (Fig. 2a), produserer det vi refererer til som «proteinklynger».
vi beregnet deretter antall delte (dvs., «kjerne») og totale gener som vi inkorporert inkorporert genomene til de forskjellige isolatene i analysen ovenfor, for å estimere størrelsen på family core gensettet og det av tilbehør / fleksibelt gensett. Hvis de seks tilgjengelige isolatene syntes tilstrekkelig til å avgrense et kjernegenom som koder for 455 forskjellige proteinklynger, er «metningskurven» som fører til det totale gensettet langt fra å nå et platå, noe som tyder på At Pandoraviridae pan-genomet er åpent, med hver ekstra isolat spådd å bidra med mer enn 50 ekstra gener (Fig. 2b). Dette gjenstår å bli bekreftet ved analyse av Ytterligere Pandoraviridae isolater.Vi undersøkte deretter den globale likheten mellom de seks pandoravirus-isolatene ved å analysere deres felles geninnhold både i form av proteinsekvenslikhet og genomisk posisjon. Den parvise likheten mellom de forskjellige pandoravirus-isolatene varierer fra 54 til 88%, beregnet fra en superjustering av proteinproduktene til de ortologe genene (Supplerende Tabell 2). Et fylogenetisk tre beregnet med de samme dataene klynger pandoravirusene i to separate klader(Fig. 3).
Tolket i en geografisk sammenheng, formidler dette klyngemønsteret to viktige egenskaper til den nye familien. På den ene siden er de mest divergerende stammene ikke de som er isolert fra de fjerneste stedene (f.eks. Den Chilenske p. salinus versus den franske p. quercus; Den Neo-Caledonian P. neocaledonia versus Den Australske p. macleodensis). På den annen side er to isolater (f. eks. p. dulcis versus P. macleodensis) fra identiske miljøer (to dammer ligger 700 m fra hverandre og forbundet med en liten vannstrøm) er ganske forskjellige. I påvente av En større oversikt Over Pandoraviridae, tyder disse resultatene allerede på at medlemmer av denne familien distribueres over hele verden med lignende lokale og globale forskjeller.Vår analyse av posisjonene til de homologe genene i de forskjellige genomene viste at til tross for deres sekvensdivergens (Supplerende Tabell 2) forblir 80% av de ortologe genene kollineære. Som vist I Fig. 4, den langsiktige arkitekturen til pandoravirus-genomene (dvs., basert på posisjonene til ortologe gener) er globalt bevart, til tross for forskjellene i størrelser (1,83–2,47 Mb). Men halvparten av pandoravirus kromosomer (lengst til venstre region I Fig. 4) merkelig synes evolusjonære mer stabil enn den andre halvparten der de fleste av de ikke-homologe segmenter forekommer. Disse segmentene inneholder stamme – spesifikke gener og er beriket i tandem duplikasjoner av ikke-orthologe ankyrin, MORN, Og f-box motiv-holdige proteiner. Omvendt konsentrerer den stabile halvdelen av genomet de fleste genene som utgjør Pandoraviridae-kjernegenomet (øverst På Fig. 4). Interessant er den lokale inversjonen som skiller kromosomet til p. neocaledonia fra de andre stammene, lokalisert nær grensen mellom de stabile og ustabile områdene, og kan være knyttet til denne overgangen (selv om det kan være tilfeldig). Til slutt, alle genomer er også beriket i stamme-spesifikke gener (og/eller duplikasjoner) på begge ekstremiteter.
vi analyserte deretter fordelingen av de forutsagte proteiner blant standard brede funksjonelle kategorier (Fig. 5). Som det nå er tilbakevendende for store og gigantiske eukaryotiske DNA-virus, er den dominerende kategorien langt fra proteiner som mangler gjenkjennelige funksjonelle signaturer. Over de seks stammene svarer gjennomsnittlig 70% av de forutsagte proteinene til «ukjente funksjoner». En så høy andel er enda mer bemerkelsesverdig som det gjelder nøye validerte gensett, hvorfra tvilsomme ORFs har blitt eliminert. Det er således en biologisk realitet at et stort flertall av disse virusproteinene ikke kan knyttes til tidligere karakteriserte veier. Bemerkelsesverdig er andelen av slike anonyme proteiner fortsatt ganske høy (65%) blant produktene av pandoravirus kjernegenomet, som er blant de antagelig essensielle genene som deles av de seks tilgjengelige stammene (og sannsynligvis alle fremtidige familiemedlemmer, Ifølge Fig. 2b). Interessant nok forblir denne andelen også svært høy (≈80%) blant proteinene som detekteres som utgjør viruspartiklene. Videre dominerer andelen anonyme proteiner helt klassifiseringen av gener som er unike for hver stamme, på mer enn 95%. Den mest generiske funksjonelle kategorien, «protein-proteininteraksjon», er den nest største (fra 11,7 til 18,9%), som svarer til deteksjon av svært hyppige og uinformative motiver (f.eks. Samlet sett er andelen pandoravirus-proteiner som en virkelig informativ funksjon kan tilskrives, <20%, inkludert et komplett maskineri for DNA-replikasjon og transkripsjon.
Vi undersøkte deretter to evolusjonære prosesser muligens ved opprinnelsen til den ekstra store størrelsen på pandoravirus-genomene: horisontale gene transfers (hgts) og gene duplikasjoner. Oppkjøpet av gener VED HGT ble ofte påkalt for å forklare genomstørrelsen til ameba-infiserende virus sammenlignet med «vanlige» viruser12, 13. Vi beregnet at opptil en tredjedel av pandoravirus-proteinene viser sekvenslikheter (utenfor Pandoraviridae-familien) med proteiner fra de tre cellulære domenene (Eukarya, Archaea og Eubacteria) eller andre virus (Supplerende Fig. 4). Imidlertid betyr slike likheter ikke at disse genene ble horisontalt ervervet. De kan også betegne en felles forfedre eller en overføring fra et pandoravirus til andre mikroorganismer. Vi individuelt analysert fylogenetisk posisjon i hvert av disse tilfellene å antyde sin sannsynlige opprinnelse: forfedre-når de finnes utenfor klynger av cellulære eller virale homologer; horisontalt ervervet – når de finnes dypt innebygd i de ovennevnte klyngene; eller horisontalt overført til cellulære organismer eller ikke-relaterte virus i den omvendte situasjonen(dvs. et cellulært protein som ligger innenfor en pandoravirus – proteinklynge). Supplerende Fig. 6 oppsummerer resultatene av denne analysen.Vi kunne gjøre en entydig HGT-diagnose for 39% av tilfellene, resten forblir uopprettelig eller kompatibel med en forfedre opprinnelse. Blant den sannsynlige HGT foreslo 49% en horisontal gevinst ved pandoravirus, og 51% overføring av et gen fra et pandoravirus. Interessant, oppkjøpet av vertsgener, en prosess som vanligvis påberopes som viktig i utviklingen av virus, representerer bare en liten andel (13%) av de diagnostiserte Hgtene, og dermed mindre enn fra virusene til verten (18%). Kombinere ovennevnte statistikk med andelen gener (en tredjedel) vi startet fra, i hele genomet, antyder at maksimalt 15% (og minst 6%) av pandoravirus-geninnholdet kunne ha blitt oppnådd fra cellulære organismer (inkludert 5-2% fra deres samtidige Acanthamoeba-vert) eller andre virus. Slike verdier er sammenlignbare med det som tidligere ble estimert For Mimivirus14. HGT er dermed ikke den særegne prosessen ved opprinnelsen til det gigantiske pandoravirus-genomene.
vi undersøkte deretter forekomsten av duplikasjoner blant pandoravirus-gener. Figur 6a sammenligner andelene av enkelt versus duplisert (eller flere) protein-kodende gener av de seks tilgjengelige pandoravirus med det beregnet for representanter for de tre andre kjente familier av gigantiske DNA-virus infiserer Acanthamoeba. Det viser tydelig at andelen av flere kopigener (fra 55 til 44%) er høyere i pandoravirus enn for de andre virusfamiliene, selv om den ikke korrelerer perfekt med deres respektive genomstørrelser. Fordelingen av klyngestørrelser mellom de forskjellige pandoravirusstammene er lik. De fleste multiple-kopi gener finnes i klynge av størrelse 2 (duplisering) eller 3 (triplisering). Antallet større klynger reduseres deretter med deres størrelse(Supplerende Fig. 7).
Færre store klynger (størrelse> 20) tilsvarer proteiner som deler protein – protein interaksjonsmotiver, som Ankyrin, MORN og f-box repetisjoner. Overraskende nok er det absolutte antall enkeltkopierte gener i pandoravirus lik, Og noen ganger mindre (F.eks. P. neocaledonia, 2 Mb) enn Det I Mimivirus, med et genom (1,18 Mb) halvparten av størrelsen. Totalt antall forskjellige genklynger (Fig. 6b) overlapper Mellom Pandoraviridae (fra 607 til 775) Og Mimivirus (687), noe som tyder på at til tross for forskjellen i genom og partikkelstørrelser, deler disse virusene sammenlignbare genetiske kompleksiteter.gen duplisering er et så fremtredende trekk ved pandoravirus-genomene, vi undersøkte det videre på jakt etter mer innsikt om mekanismen. Først beregnet vi de genomiske avstandene mellom par nærmeste paraloger, mest sannsynlig som følge av de siste dupliseringshendelsene. Fordelingene av disse avstandene, tilsvarende for hvert pandoravirus, indikerer at de nærmeste paralogene oftest er plassert ved siden av hverandre (avstand = 1) eller adskilt av et enkelt gen (avstand = 2) (Supplerende Fig. 8).Vi forsøkte deretter å korrelere den fysiske avstanden som skiller dupliserte gener med deres sekvensdivergens som et (grovt) estimat av deres evolusjonære avstand. Vi oppnådde en signifikant korrelasjon mellom estimert «alder»av dupliseringshendelsen og den genomiske avstanden til de to nærmeste paralogene (Supplerende Fig. 9). Disse resultatene antyder et evolusjonært scenario hvor de fleste dupliseringer først forekommer i tandem, med påfølgende genomendringer (innsettinger, inversjoner og gent tap) gradvis slører dette signalet.
Sammenlignende proteomikk av pandoravirioner
Vår tidligere massespektrometri proteomisk analyse Av p. salinus partikler identifiserte 210 virale genprodukter, hvorav De fleste ORFans eller uten forutsigbar funksjon. I tillegg oppdaget vi 56 host (Acantamoeba) proteiner. Det er viktig at ingen av komponentene i det viruskodede transkripsjonsapparatet ble påvist i partiklene5. I dette arbeidet utførte vi de samme analysene på P. salinus, p. dulcis og to av de nye isolatene (P. quercus og p. neocaledonia) for å bestemme i hvilken grad de ovennevnte funksjonene ble bevart for medlemmer Av Pandoraviridae-familien med ulike nivåer av divergens, og identifisere kjernen versus tilbehørskomponentene til en generisk pandoravirion.På grunn av den konstante følsomhetsforbedringen i massespektrometri førte våre nye analyser av rensede virioner til pålitelig identifisering av 424 proteiner For P. salinus, 357 For P. quercus, 387 For p. dulcis og 337 For P. neocaledonia (Se Metoder). Dette økte antallet identifikasjoner tilsvarer imidlertid overflodsverdier (intensitetsbasert absolutt kvantifisering, iBAQ) som strekker seg over mer enn fem størrelsesordener. Mange av proteinene som er identifisert i lav overflodshalen, kan dermed ikke svare til bona fide partikkelkomponenter, men til tilfeldig lastede tilskuere,» klissete » proteiner eller gjenværende forurensninger fra infiserte celler. Denne forsiktige tolkningen er foreslått av flere observasjoner:
-
den lave overflod halen er progressivt beriket i virale proteiner identifisert i partiklene av en enkelt pandoravirus stamme (selv om andre stammer har de homologe gener),
-
andelen vertskodede proteiner som er antatt assosiert med partiklene øker ved de laveste overflodene,
-
mange av disse vertsproteinene ble tidligere påvist i partikler av virus som ikke er relatert til pandoravirusene, men infiserer den samme verten,
-
disse proteinene er rikelig i acanthamoeba proteomet (f. eks., actin, peroxidase, etc) gjør dem mer sannsynlig å bli beholdt som rensing forurensninger.
Dessverre viste ikke iBAQ-verdidistribusjonene knyttet til pandoravirionproteomene en diskontinuitet som kunne tjene som en objektiv overflodsterskel for å skille bona fide partikkelkomponenter fra tvilsomme. Antallet Identifiserte Acanthamoeba-proteiner øker imidlertid kraftig etter rang ≈200 i hele proteomet (Supplerende Fig. 10). Etter den samme konservative holdningen som for genom-reannotasjonen, bestemte vi oss for å se bort fra proteinene som ble identifisert under denne rangen som sannsynlige tilskuere, og inkluderte bare de 200 mest omfattende proteinene i våre videre analyser av partikkelproteomene (Supplerende Data 1, Supplerende Tabell 3). Ved å bruke denne strenge proteomdefinisjonen for hver av de fire forskjellige pandoravirionene, undersøkte vi først mangfoldet av deres konstituerende proteiner og deres bevaringsnivå sammenlignet med det globale geninnholdet i de tilsvarende pandoravirus-genomene.Figur 7 viser at partikkelproteomene inkluderer proteiner som tilhører 194 forskjellige klynger, hvorav 102 deles av de fire stammene. Kjerneproteomet er således strukturelt og funksjonelt mangfoldig. Det tilsvarer 52,6% av de totale proteinklyngene globalt identifisert i alle pandoravirioner. Til sammenligning representerer de 467 proteinklyngene kodet av kjernegenomet bare 41,6% (dvs. 467/1122) av det totale antallet pandoravirus-kodede proteinklynger. Pandoraviruset «boksen» som brukes til å forplante genomene til de forskjellige stammene, er dermed betydelig mer bevart enn deres geninnhold(p » 10-3, chi-square test). Genene som koder for kjerneproteomet viser også det sterkeste rensende valget blant alle pandoravirus-gener(Supplerende Fig. 11a).
for å evaluere påliteligheten av våre proteomanalyser vi sammenlignet abundance (ibaq) verdier bestemt for hver av de 200 mest tallrike proteiner for to tekniske replikater og for to biologiske replikater utført på samme pandoravirus stamme (supplerende fig. 12a & b). En veldig god korrelasjon (Pearsons R > 0.97) ble oppnådd i begge tilfeller for overflodsverdier som spenner over tre størrelsesordener. Vi sammenlignet deretter iBAQ-verdiene som ble oppnådd for ortologe proteiner som deles av virionproteomene i forskjellige isolater. Her igjen ble det observert en god korrelasjon (R > 0,81), som forventet mindre enn for de ovennevnte replikatene(Supplerende Fig. 12c & d). Disse resultatene tyder på at selv om partiklene av de forskjellige stammene vises morfologisk identiske (Supplerende Fig. 1), innrømmer de en konkret fleksibilitet både når det gjelder protein sett de er laget av (med 89% av parvis orthologues i gjennomsnitt), og i deres presise støkiometri.Vi undersøkte deretter de forutsagte funksjonene til proteinene som komponerte partiklene, fra de mest til de minst rikelige, i håp om å få litt innsikt om den tidlige smittsomme prosessen. Dessverre kan bare 19 proteinklynger knyttes til et funksjonelt / strukturelt motiv ut av de 102 forskjellige klyngene som definerer kjernepartikkelproteomet(Supplerende Data 1, Supplerende Tabell 3). Denne andelen er mindre enn for hele genomet(Fig. 5), bekrefter fremmed natur pandoravirus partikkel som allerede foreslått av sin unike morfologi og montering prosess5. Pandoravirions er for det meste laget av proteiner uten homologer utenfor Pandoraviridae familien. Ingen protein selv eksternt lik den vanligvis rikelig major capsid protein (MCP), en spådd DNA-bindende kjerneprotein, ELLER EN DNA-emballasje ATPase, kjennetegnene til de fleste eukaryote store DNA-virus, er oppdaget. Spesielt en P. salinus hypotetisk protein (tidligere ps_862 nå reannotated psal_cds_450) nylig foreslått av Sinclair et al.15 for å være en sterk MCP-kandidat ble Det ikke påvist I P. salinus-virionene, eller dets homologer i de andre stammeproteomene. Dette negative resultatet understreker behovet for eksperimentell validering av dataspådommer fra» twilight zone » av sekvenslikhet. Ingen spor av pandoravirus-kodet rna-polymerase oppdages heller, noe som bekrefter at den første infeksjonsfasen krever vertstranskripsjonsmaskineriet som ligger i kjernen. Spliceosomale introner ble validert for 56 pandoravirus-gener hvor produktene ble påvist i pandoravirusene (Supplerende Data 1). Dette indikerer bevaring av et funksjonelt spliceosom til slutten av den smittsomme syklusen, som forventet fra observasjon av ubrukte kjerner (Supplerende Fig. 1).
Blant de 19 ikke-anonyme proteinklyngene viser 4 generiske motiver uten spesifikk funksjonell anelse: 2 kollagenlignende domener og 1 Pan / APPLE-lignende domene som er involvert i protein-protein-interaksjoner, og 1 cupin – lignende domene som tilsvarer en generisk fatfold. Blant de 10 mest omfattende kjerneproteinene har 9 ingen spådd funksjon, bortsett fra at 1 har Et C-terminal tioredoksinlignende domene (psal_cds_383). Det er verdt å merke seg at det forutsagte membransegmentet av 22 aminosyrer (85-107) er bevart i alle pandoravirusstammer. 5 ‘ UTR av de tilsvarende gener utviser 2 introner (I P. salinus, P. dulcis og P. quercus) og 1 I P. neocaledonia. Tioredoksin katalyserer dithiol-disulfidutvekslingsreaksjoner gjennom reversibel oksidasjon av dets aktive senter. Dette proteinet, med en annen av samme familie (psal_cds_411, spådd som løselig), kan være involvert i å reparere/forhindre fagosomindusert oksidativ skade på virale proteiner før den første infeksjonsfasen. Partiklene deler også et annet rikelig redoksenzym, en erv-lignende tioloksidoreduktase som kan være involvert i modning Av Fe/s-proteiner. Et annet kjerneprotein (psal_cds_1260)med en ekstern likhet med en tioredoksinreduktase kan delta i regenerering av de oksiderte aktive stedene av de ovennevnte enzymer. Blant de mest omfattende kjerneproteinene er psal_cds_232 spådd SOM DNA-bindende, og kan være involvert i genomemballasje. En antatt nad-avhengig aminoksidase (psal_cds_628) og EN FAD-koblet dehydrogenase (psal_cds_1132) fullfører panelet med konserverte antatte redoksenzymer. Andre forventede kjerneproteiner inkluderer En Ser / thr kinase og fosfatase som er typiske regulatoriske funksjoner. En serinprotease, en lipase, en patatinlignende fosfolipase og en fjern homolog av et nukleoporin kan være en del av verktøykassen som brukes til å frakte pandoravirus-genomene til cytoplasma og deretter til kjernen (Supplerende Tabell 3). Til slutt deler to kjerneproteiner (psal_cds_118 og psal_cds_874) et endoribonukleasemotiv og kan fungere som transkripsjonsregulatorer rettet mot mobil mRNA.på motsatt side av å definere settet av kjerneproteiner som deles av alle pandoravirioner, undersøkte vi også stammespesifikke komponenter. Dessverre er de fleste virionproteiner som er unike for en gitt stamme (omtrent 10 i gjennomsnitt) anonyme og i lav overflod. Ingen prediksjon kunne gjøres om den funksjonelle konsekvensen av deres tilstedeværelse i partiklene.