Articles

kehittyvien Pandoraviridae-heimojen Monimuotoisuus ja evoluutio

Pandoraviruskantojen ympäristönäytteenotto ja eristäminen

käytimme samaa eristämisprotokollaa, joka johti P. salinuksen ja P. dulcis5: n löytämiseen. Se koostuu tutkittavan materiaalin sekoittamisesta Acanthamoeba-viljelmiin, jotka ovat sopeutuneet antibioottipitoisuuksiin, jotka ovat riittävän suuria estämään muiden ympäristön mikro-organismien (erityisesti bakteerien ja sienten) kasvua. Näytteet otettiin satunnaisesti kosteista ympäristöistä, jotka ovat alttiita akanthameeba-soluille. Tämä johti kolmen uuden pandoraviruskannan eristämiseen: P. quercus, P. neocaledonia ja P. macleodensis (Taulukko 1, ks.menetelmät). Niissä on riittävästi eroja, jotta voidaan alkaa arvioida kehittyvien Pandoraviridae-heimon säilyneitä ominaisuuksia ja vaihtelua. Tarvittaessa analyysimme sisältävät myös tietoja P. inopinatumista, joka on eristetty saksalaisessa laboratoriossa potilaasta, jolla on Acanthamoeba keratitis7.

Taulukko 1 Tiedot tässä työssä käytetyistä pandoravirusisolaateista

replikaatiosyklien ja virusten ultrarakenteiden tutkimus

alkaen puhdistetuista hiukkasista, jotka on inokuloitu A. castellanii-viljelmiin, analysoimme jokaisen isolaatin infektiosyklin sekä valo-että transmissioelektronimikroskopialla (ultrathin-jakso). Kuten aiemmin havaittiin P. salinuksella ja P. dulcisilla, näiden uusien pandoravirusten replikaatiosyklien havaittiin kestävän keskimäärin 12 h5 (8 h nopeimmalla P: llä. neokaledonia). Tarttuva prosessi on sama kaikille viruksille, alkaen yksittäisten hiukkasten sisäistämisestä Acanthamoeba-solujen toimesta. Apikaalisten huokosiensa auettua hiukkaset (”pandoravirionit”) siirtävät läpikuultavan sisältönsä sytoplasmaan virionin sisäkalvon fuusioituessa fagosomin kanssa. Infektion varhainen vaihe on huomattavan samanlainen kaikilla isolaateilla. Vaikka olemme aiemmin raportoineet, että solun tuma oli täysin häiriintynyt tarttuvan sykle5: n myöhäisessä vaiheessa, uusien kantojen perusteellinen havainnointi paljasti neosyntetisoituneita hiukkasia solujen sytoplasmassa, jossa oli edelleen tuman kaltaisia lokeroita, joissa nukleolus ei ollut enää tunnistettavissa (täydentävä Kuva. 1). Kahdeksan tuntia tartunnan jälkeen kypsät virionit tulivat näkyviin vakuoleissa ja vapautuvat eksosytoosin (täydentävä elokuva) kautta. Kaikkien isolaattien replikaatiosykli päättyy solujen hajoamiseen ja noin sadan partikkelin vapautumiseen (Kuva. 1).

Fig. 1
kuva1

uudet pandoravirusisolaatit. A. castellanii-solu tuottaa liikaa Pandoravirus macleodensis-virioneita ennen solujen hajoamista otetusta ympäristönäytteestä. Ympäristöbakteereita voidaan nähdä viljelyaineessa yhdessä P. macleodensis-virionien kanssa. (mittakaava on 10 µm). b TEM kuva A. castellanii-solun ultrathin-osasta P. neocaledonian aiheuttaman infektion varhaisvaiheessa. Ameba-pseudopodit ovat valmiita nielaisemaan ympäröivät virionit. Kymmenen minuutin pii, virionit ovat imeytyneet ja ovat vakuoleissa (mittakaava on 500 nm). c TEM-kuva A. castellanii-solun ultrathin-osasta P. salinus-virionin kokoamisprosessin aikana (mittakaari on 500 nm). d kuva orastavan P. quercus virionin ultrathin-osasta. (mittakaava on 500 nm). Eri kantojen kypsien hiukkasten rakenteissa ei ole havaittavaa eroa

genomin sekvensointi ja huomautus

P. neocaledonian, P. macleodensiksen ja P. quercus valmistettiin puhdistetuista hiukkasista ja sekvensoitiin joko PacBio-tai Illumina-alustoilla (KS. Mitä tulee P. salinukseen, P. dulcis5: een ja P. inopinatum7: ään, kolme uutta genomia on koottu yhteen lineaarisiksi kaksijuosteisiksi DNA (dsDNA)-molekyyleiksi (≈60% g + C), joiden koot vaihtelevat 1,84-2 Mb. Lisäksi niiden läpikuultava amforamainen hiukkasia (Kuva. 1), keskimääräistä korkeampi G + C-pitoisuus ja genominen gigantismi jäävät siten pandoraviridae5, 8: n jakamiksi ominaispiirteiksi. Koska viruksen geenien suuri osuus koodaa proteiineja ilman tietokantahomologia, puhtaasti ab initio-laskennallisiin lähestymistapoihin perustuvat geeniennusteet (eli” ORFing ” ja koodausalttiusarviot) ovat tunnetusti epäluotettavia, mikä johtaa epäjohdonmukaisuuksiin mielivaltaisten parametrien eri arvoja käyttävien ryhmien välillä (esim.minimal open reading frame (ORF) – koko). Esimerkiksi suurten eukaryootteja infektoivien dsDNA-virusten perheissä keskimääräinen proteiinia koodaavan geenin tiheys vaihtelee yhdestä geenistä 335 bp: n välein (Phycodnaviridae, NCBI: NC_008724) enintään yksi geeni 2120 bp: n välein (Herpesviridae, NCBI: NC_003038), kun konsensus on selvästi noin yksi geeni joka kb (kuten bakteereilla). Tämän seurauksena yksi värähtelee sellaisten tilanteiden välillä, joissa monet geenit ovat yliennettyjä ja toiset, joissa monet todelliset geenit luultavasti unohdetaan. Tällainen epävarmuus siitä, mitkä geenit ovat ”todellisia”, aiheuttaa merkittävää kohinaa vertailevissa genomianalyyseissä ja evoluutiohypoteesien myöhemmissä testeissä. Lisäksi laskennalliset menetelmät ovat enimmäkseen sokeita geeneille, jotka on ilmaistu ei-proteiinia koodaavina transkripteinä.

edellä mainittujen rajoitusten ylittämiseksi teimme lohkokohtaisia RNA-seq-kokeita ja hiukkasproteomianalyysejä, joiden tulokset kartoitettiin genomisekvensseistä. Vain geenit, jotka tukivat kokeellista näyttöä (tai proteiinin samankaltaisuutta), säilytettiin tässä tiukassa uudelleenannotointiprotokollassa (KS.menetelmät, täydentävä Kuva. 2). Toisaalta tämä uusi menettely johti ennustettujen proteiinien supistumiseen, toisaalta se mahdollisti odottamattoman suuren määrän ei-koodaavia transkriptejä (Taulukko 1).

uusissa validoiduissa proteiinia koodaavissa geeneissä esiintyy voimakkaasti vähentynyt osuus ORF: iä, jotka ovat alle 100 jäämää, joista useimmat ovat yksilöllisiä kullekin pandoraviruskannalle (täydentävä viikuna. 3). Tiukka merkintämenettely johti myös siihen, että geeneillä oli hyvin keskitetty unimodaalinen codon adaptation index (CAI) – arvojen jakautuminen (Supplementary Fig. 3).

johdonmukaisuuden vuoksi ekstrapoloimme tiukat merkintäprotokollamme P. inopinatumiin ja P. macleodensikseen, mikä vähensi vertailuissa huomioon otettujen ennustettujen proteiinien määrää (KS.menetelmät, Taulukko 1). Odotetusti eroavaisuudet standardin ja tiukkojen geeniennusteiden välillä johtuvat pelkästään pienten Orfien yliennustuksesta (pituus < 300 nukleotidia). Tällaiset mielivaltaiset ORF: t ovat alttiita syntymään satunnaisesti G + C-rikkaissa sekvensseissä, joiden sisällä pysähtyvät kodonit (TAA, TAG ja TGA) ovat epätodennäköisempiä sattumalta kuin A + T-rikkaiden genomien ei-koodaavilla alueilla. Itse asiassa edellä mainitut vakio-ja tiukat merkintäprotokollat sovellettiin A + T-rich (74.8%) Megavirus chilensis genome3 johti kahteen hyvin samanlaiseen sarjaan ennustettuja ja validoituja proteiinia koodaavia geenejä (1120 vs. 1108). Tämä kontrolli osoittaa, että meidän tiukka merkintätapa ei ole vain hylätä lopulta oikeita geeniennusteita mielivaltaisella luottamuskynnyksen nostamisella, vaan nimenomaan korjata G + C-rikkaan koostumuksen aiheuttamia virheitä. Puhtaasti laskennalliset geenimerkintämenetelmät ovat siten huomattavasti vähemmän luotettavia G + C-rikkaille genomeille, varsinkin kun ne koodaavat suuren osan orfaneista (eli ORF ilman tietokantahomologia), kuten pandoravirukset. On kuitenkin syytä huomata, että tiukan uudelleenannotointimme jälkeenkin ennustettujen proteiinien osuus ilman merkittävää sekvenssin samankaltaisuutta Pandoraviridae-heimon ulkopuolella pysyi melko korkeana (67-73%, täydentävä viikuna. 4).

lisähaasteena pandoraviruksen genomien tarkalle merkinnälle on intronien esiintyminen (laskennallisin menetelmin ne eivät käytännössä ole havaittavissa, kun ne keskeyttävät Orfanit). Koottujen transkriptiosekvenssien kartoittaminen P. salinuksen, P. dulcisin, P. quercuksen ja P. neokaledonia mahdollisti spliseosomaalisten intronien havaitsemisen 7, 5-13%: ssa validoiduista proteiinia koodaavista geeneistä. Näitä introneja löytyi transloitumattomilta alueilta (UTRs) sekä koodaussekvensseistä, mukaan lukien keskimäärin 14 geeniä niiden joukossa, jotka koodaavat hiukkasissa havaittuja 200: aa runsainta proteiinia (KS.alla). Vaikka spliseosomaalisia introneja esiintyy muissakin viruksissa, joilla on ydinvaihe, kuten kloroviruksissa9, pandoravirukset ovat ainoita, joille on validoitu yli 10 prosenttia niiden geeneistä. Nämä tulokset tukevat aikaisempaa ehdotustamme, jonka mukaan ainakin osa pandoraviruksen transkripteistä syntetoidaan ja käsitellään isäntäkoneen ydinmateriaalissa5. Silti intronin määrä virusgeeniä kohti on edelleen paljon pienempi (noin 1,2 keskimäärin) kuin isäntägeenien (6,2 keskimäärin 10). Pandoraviruksen geeneissä esiintyy myös kaksi kertaa niin pitkiä UTR-arvoja (täydentävä Taulukko 1) Kuin mimiviridae11-geeneissä.

RNA-seq-aineiston kartoitus johti odottamattomaan suuren määrän (157-268) pitkien koodaamattomien transkriptien (Lncrnas) löytymiseen (Taulukko 1, täydentävä taulukko 1 yksityiskohtaisten tilastojen osalta). Näillä Lncrnoilla on polyahäntä ja noin 4% niistä sisältää spliseosomaalisia introneja. Lncrnat on useimmiten transkriboitu validoitujen proteiinia koodaavien geenien käänteisjuosteesta, kun taas pienempi fraktio ilmaistaan intergeenisillä (eli inter-ORF) alueilla (Supplementary Fig. 5). Näillä ei-koodaavilla transkripteillä voi olla merkitystä pandoravirusgeenien ilmentymisen säätelyssä.

kaiken kaikkiaan 82, 7–87% pandoraviruksen genomeista transkriboituu (mukaan lukien ORFs, UTRs ja LncRNAs), mutta vain 62-68, 2% muuntuu proteiineiksi. Tällaiset arvot ovat paljon alhaisemmat kuin muiden sukujen jättiläisviruksilla (esimerkiksi 90% Mimivirus11-genomista on käännetty), mikä johtuu osittain pandoravirusgeenejä täydentävistä suuremmista UTR-arvoista.

vertaileva genomiikka

edellä esitetystä tiukasta merkinnästä saatuja kuutta proteiinia koodaavaa geenijoukkoa käytettiin sitten viitteinä koko genomin vertailuissa, joiden tarkoituksena oli tunnistaa Pandoraviridae-heimon erityispiirteitä. Sekvenssin samankaltaisuuteen perustuvan ryhmittelyn (KS.menetelmät) jälkeen eri kantojen geenisisällön suhteelliset päällekkäisyydet laskettiin (Fig. 2a) tuottaen niin sanottuja proteiiniklustereita.

Fig. 2
figure2

Vertailu pandoravirusgeenin sisällöstä. a kaikkien jaettujen proteiiniklusterien yhdistelmien jakautuminen on esitetty. Pikkukuva tiivistää klustereiden ja geenien määrän 6, 5, 4, 3, 2, ja 1 pandoravirukset. B: n perimä ja pan-genomi on arvioitu kuudesta saatavilla olevasta pandoraviruksesta. Estimoitu heap-lain α-parametri (α < 1) on ominaista avoimelle pan-genomi50: lle ja fluiditeettiparametrin arvo suurelle osalle uniikkeja geneitä 51. Ruutukaavoissa näkyy mediaani, 25. ja 75. prosenttipiste. Viikset vastaavat ääritietopisteitä

laskimme sitten jaettujen (ts., ”core”) ja kokonaisgeenit, kun yhdistimme eri isolaattien genomit edellä mainittuun analyysiin arvioidaksemme perheen ytimen geenijoukon kokoa ja lisälaitteen/joustavan geenijoukon kokoa. Jos kuusi saatavilla olevaa isolaattia näyttivät riittävän 455 eri proteiiniklusterin perusgenomin määrittelyyn, kokonaisgeenikokoelmaan johtava” saturaatiokäyrä ” ei ole lähelläkään tasannetta, mikä viittaa siihen, että Pandoraviridae-pan-genomi on avoin, ja jokaisen ylimääräisen isolaatin ennustetaan tuovan mukanaan yli 50 uutta geeniä (Kuva. 2b). Tämä on vielä vahvistettava analysoimalla muita Pandoraviridae-isolaatteja.

tämän jälkeen selvitimme kuuden pandoravirusisolaatin maailmanlaajuista samankaltaisuutta analysoimalla niiden yhteistä geenisisältöä sekä proteiinisekvenssin samankaltaisuuden että genomiasennon kannalta. Pandoraviruksen eri isolaattien parivivahteinen samankaltaisuus vaihtelee välillä 54-88% ortologisten geenien proteiinituotteiden superlinjauksen perusteella (täydentävä Taulukko 2). Fylogeneettinen puu laski samoista dataklustereista pandoravirukset kahdeksi erilliseksi kladiksi (Kuva. 3).

Fig. 3
kuva3

ehdotetun Pandoraviridae-heimon fylogeneettinen rakenne. Resamplingista arvioidut Bootstrap-arvot ovat kaikki yhtä kuin 1, joten niitä ei raportoitu. Synonyymit ei-synonyymeille substituutioprosenteille (ω) laskettiin kahdelle erilliselle kladille, ja ne ovat merkittävästi erilaisia (asteikkotanko on 0.07 substitution/site)

maantieteellisessä kontekstissa tulkittuna tämä ryhmittymäkuvio välittää kaksi kehittyvän perheen tärkeää ominaisuutta. Toisaalta, eniten toisistaan poikkeavat kannat eivät ole eristyksissä kaukaisimmista paikoista (esim.chileläinen P. salinus vastaan ranskalainen P. quercus; Uuskaledonialainen P. neocaledonia vastaan australialainen P. macleodensis). Toisaalta, kaksi isolaattia (esim., P. dulcis vs. P. macleodensis) identtisistä ympäristöistä (kaksi lampea, jotka sijaitsevat 700 metrin päässä toisistaan ja joita yhdistää pieni vesivirtaus) ovat varsin erilaisia. Odotettaessa Pandoraviridae-heimon laajempaa inventointia nämä tulokset viittaavat jo siihen, että tämän heimon jäsenet ovat jakautuneet maailmanlaajuisesti samalla tavalla paikallisesti ja maailmanlaajuisesti.

analyysimme homologisten geenien asemista eri genomeissa paljasti, että niiden sekvenssien eroista huolimatta (täydentävä Taulukko 2) 80% ortologisista geeneistä on edelleen kollineaarisia. Kuten kuvassa. 4, pandoraviruksen genomien pitkän kantaman arkkitehtuuri (ts., ortologisten geenien asentojen perusteella) on maailmanlaajuisesti säilytetty, vaikka niiden kokoerot (1,83–2,47 Mb). Kuitenkin puolet pandoraviruksen kromosomeista (vasemmanpuoleisin alue kuviossa. 4) omituisesti näyttää Evolution vakaampi kuin toinen puoli, jossa useimmat ei-homologiset segmentit esiintyvät. Nämä segmentit sisältävät kantaspesifisiä geenejä, ja ne rikastuvat yhdessä ei-ortologisten ankyriini -, MORN-ja F-box motif-proteiinien kanssa. Vastaavasti genomin stabiili puolisko keskittää suurimman osan pandoraviridae-ydingenomin muodostavista geeneistä (viikunan yläosa. 4). Mielenkiintoista on, että paikallinen inversio, joka erottaa P. neocaledonian kromosomin muista kannoista, sijaitsee lähellä stabiilien ja epävakaiden alueiden rajaa, ja se saattaa liittyä tähän siirtymiseen (vaikkakin se voi olla sattumaa). Lopuksi kaikki genomit rikastuvat myös kantaspesifisissä geeneissä (ja / tai kaksoiskappaleissa) molemmissa raajoissa.

Fig. 4
figure4

Saatavilla olevien pandoravirusgenomien Kollineaarisuus. Ydingeenien kumulatiivinen frekvenssi on esitetty yläosassa. Säilyneet kollineaariset lohkot ovat samanvärisiä kaikissa viruksissa. Valkoiset lohkot vastaavat säilymättömiä DNA-segmenttejä (asteikko bar on 500 kb)

tämän jälkeen analysoimme ennustettujen proteiinien jakautumisen standardinmukaisiin laajoihin funktionaalisiin kategorioihin (Fig. 5). Koska se on nykyään toistuva suurten ja suurten eukaryoottisten DNA-virusten kohdalla, vallitseva luokka on selvästi sellaisten proteiinien luokka, joilta puuttuvat tunnistettavat toiminnalliset allekirjoitukset. Kaikissa kuudessa kannassa keskimäärin 70% ennustetuista proteiineista vastaa ”tuntemattomia toimintoja”. Näin suuri osuus on sitäkin merkittävämpi, koska se koskee huolellisesti validoituja geenisarjoja, joista epäilyttävät ORF: t on eliminoitu. On siis biologinen tosiasia, että suurta osaa näistä virusproteiineista ei voida yhdistää aiemmin ominaisiin reitteihin. Huomattavaa on, että tällaisten nimettömien proteiinien osuus on edelleen melko suuri (65%) pandoraviruksen ydingeenissä, joka kuuluu kuuden saatavilla olevan kannan (ja luultavasti kaikkien tulevien perheenjäsenten, mukaan fig. 2b). Mielenkiintoista on, että tämä osuus on edelleen erittäin suuri (≈80%) viruspartikkeleina Havaittujen proteiinien joukossa. Lisäksi nimettömien proteiinien osuus hallitsee täysin kullekin kannalle ominaisten geenien luokittelua, yli 95%. Yleisin funktionaalinen luokka, ”proteiini-proteiini vuorovaikutus” on seuraavaksi suurin (11,7-18,9%), mikä vastaa erittäin usein esiintyvien ja epätietoisten motiivien havaitsemista (esim.ankyriini toistuu). Kaiken kaikkiaan pandoravirusproteiinien osuus, jolle voidaan katsoa olevan todella informatiivinen tehtävä, on <20%, mukaan lukien täydellinen DNA: n replikaatio-ja transkriptiokoneisto.

Fig. 5
figure5

toiminnalliset selitykset

tämän jälkeen tutkimme kahta evoluutioprosessia, jotka mahdollisesti olivat pandoraviruksen genomien erityisen suuren koon taustalla: horisontaaliset geeninsiirrot (hgts) ja geenien monistukset. HGT: n geenien hankintaan vedottiin usein amebaa infektoivien virusten genomin koon selittämiseksi verrattuna ”tavallisiin” viruksiin12, 13. Laskimme, että jopa kolmannes pandoravirusproteiineista on sekvenssin yhtäläisyyksiä (pandoraviridae-heimon ulkopuolella) kolmen solutyypin (Eukarya, Archaea ja Eubacteria) proteiinien tai muiden virusten kanssa (täydentävä viikuna. 4). Tällaiset yhtäläisyydet eivät kuitenkaan tarkoita, että nämä geenit olisi hankittu vaakatasossa. Ne voivat myös merkitä yhteistä esi-isien alkuperää tai siirtymistä pandoraviruksesta muihin mikro-organismeihin. Analysoimme erikseen kunkin tapauksen fylogeneettisen sijainnin päättääksemme niiden todennäköisen alkuperän.: ancestral—kun Löytyy ulkopuolella klustereita solu-tai virus homologs; horisontaalisesti hankittu – kun Löytyy syvälle upotettu edellä klustereita; tai horisontaalisesti siirretty solueliöihin tai liittymättömiä viruksia converse tilanteessa (ts., solu proteiini makaa sisällä pandoravirus proteiini klusterin). Täydentävä Kuva. 6 esittää yhteenvedon tämän analyysin tuloksista.

voisimme tehdä yksiselitteisen HGT-diagnoosin 39 prosentille tapauksista, loput jäävät epäselviksi tai yhteensopiviksi esi-isien alkuperän kanssa. Todennäköisistä HGT: stä 49% ehdotti pandoravirusten horisontaalista vahvistumista ja 51% pandoraviruksen geenin siirtämistä. Mielenkiintoista on, että isäntägeenien hankinta, jota yleensä pidetään tärkeänä virusten evoluutiossa, edustaa vain pientä osaa (13%) diagnosoiduista HGTs: istä eli vähemmän kuin viruksista isäntäeläimeen (18%). Yhdistämällä edellä mainitut tilastot niiden geenien osuuteen (kolmasosa), joista aloitimme, koko genomissa, voidaan päätellä, että enintään 15% (ja vähintään 6%) pandoravirusgeenin sisällöstä on voinut olla peräisin solueliöistä (mukaan lukien 5-2% niiden nykyisestä Acanthamoeba-isännästä) tai muista viruksista. Tällainen arvoalue on verrattavissa siihen, mitä aiemmin arvioitiin Mimivirus14: lle. HGT ei siis ole jättiläispandoraviruksen genomien alkulähteillä erottuva prosessi.

tämän jälkeen selvitimme pandoravirusgeenien päällekkäisyyksien yleisyyttä. Kuvassa 6a verrataan kuuden saatavilla olevan pandoraviruksen yksittäisten ja kahdennettujen (tai useampien) proteiinia koodaavien geenien osuutta kolmen muun tunnetun acanthamoebaan tarttuvien jättiläis-DNA-virusten suvun edustajille laskettuun osuuteen. Se osoittaa selvästi, että monikopioisten geenien osuus (55-44%) on suurempi pandoraviruksissa kuin muissa virusperheissä, vaikka se ei täysin korreloi niiden genomikokojen kanssa. Eri pandoraviruskantojen klusterikokojen jakaumat ovat samankaltaiset. Useimmat monikopioiset geenit löytyvät klusterista, jonka koko on 2 (kahdennus) tai 3 (kolmikanta). Isompien klustereiden määrä vähenee sitten niiden koon mukaan(täydentävä Kuva. 7).

Fig. 6
figure6

analyysi geenin kahdentumisesta eri jättivirusperheissä. kerta-kopio-ja monikopiogeenien jakautuminen jättiviruksissa. b erillisten geeniklusterien määrä

harvemmat suuret klusterit (koko > 20) vastaavat proteiineja, jotka jakavat proteiini–proteiini-vuorovaikutusmotiiveja, kuten Ankyriini, MORN ja F-box-toistot. Yllättäen yhden kopion geenien absoluuttinen määrä pandoraviruksissa on samanlainen, ja joskus pienempi (esim.P. neocaledonia, 2 Mb) kuin Mimiviruksessa, jonka perimä (1,18 Mb) on puolet pienempi. Kaiken kaikkiaan erillisten geeniklusterien määrä (Kuva. 6b) pandoraviridae (607-775) ja Mimivirus (687) ovat päällekkäisiä, mikä viittaa siihen, että perimän ja hiukkaskoon erosta huolimatta näillä viruksilla on vastaavia geneettisiä komplekseja.

geenin kahdentuminen on niin merkittävä piirre pandoraviruksen genomeissa, että tutkimme sitä edelleen etsien lisää tietoa sen mekanismista. Ensin laskimme lähimpien parien väliset genomietäisyydet, jotka todennäköisesti johtuvat viimeisimmistä päällekkäisyystapahtumista. Näiden etäisyyksien jakaumat, jotka ovat samanlaiset jokaisella pandoraviruksella, osoittavat, että lähimmät paralogit ovat useimmiten vierekkäin (etäisyys = 1) tai yhden geenin erottamia (etäisyys = 2) (täydentävä Kuva. 8).

tämän jälkeen yritimme korreloida kahdentuneita geenejä erottavan fysikaalisen etäisyyden niiden sekvenssierottuvuuteen (karkeana) arviona niiden evolutionaarisesta etäisyydestä. Saimme merkittävän korrelaation kahdentumistapahtuman arvioidun ”iän” ja kahden lähimmän paralogin genomietäisyyden välillä (täydentävä Kuva. 9). Nämä tulokset viittaavat evolutiiviseen skenaarioon, jossa useimmat päällekkäisyydet tapahtuvat ensin yhdessä, ja myöhemmät genomimuutokset (insertiot, inversiot ja geenitappiot) asteittain hämärtävät tätä signaalia.

Pandoravirioiden vertaileva proteomiikka

edellisessä P. salinus-hiukkasten massaspektrometrisessä proteomianalyysissä tunnistettiin 210 viruksen geenituotetta, joista suurin osa Orfaaneja tai ilman ennustettavaa funktiota. Lisäksi havaitsimme 56 isäntäproteiinia (Acantamoeba). Tärkeää on, että ainuttakaan viruksen koodaaman transkriptiolaitteen komponenttia ei havaittu hiukkasissa5. Tässä työssä teimme samat analyysit P. salinuksesta, P. dulcisista ja kahdesta uudesta isolaatista (P. quercus ja P. neocaledonia) selvittääksemme, missä määrin edellä mainitut ominaisuudet säilyivät Pandoraviridae-heimon jäsenillä, joilla oli eritasoisia eroavaisuuksia, ja tunnistaaksemme geneerisen pandoravirionin ytimen ja lisälaitteiden komponentit.

massaspektrometrian jatkuvan herkkyyden paranemisen vuoksi puhdistettujen virionien uudet analyysit johtivat 424 proteiinin luotettavaan tunnistamiseen P. salinukselle, 357 P. quercus-proteiinille, 387 P. dulcis-proteiinille ja 337 P. neocaledonia-proteiinille (KS.menetelmät). Tämä lisääntynyt tunnistusmäärä vastaa kuitenkin runsausarvoja (intensiteettiin perustuva absoluuttinen kvantifiointi, iBAQ), jotka ulottuvat yli viiteen suuruusluokkaan. Monet vähäisen runsauden pyrstössä tunnistetuista proteiineista eivät siis välttämättä vastaa bona fide-hiukkasosia, vaan sattumanvaraisesti kuormittuneita sivullisia, ”tahmeita” proteiineja tai infektoituneista soluista peräisin olevia jäämiä. Varovaiseen tulkintaan viittaavat useat havainnot:

  • vähäisen runsauden pyrstö rikastuu asteittain virusproteiineilla, jotka on tunnistettu yhden pandoraviruskannan hiukkasista (vaikka muilla kannoilla on homologiset geenit),

  • hiukkasiin oletettavasti liittyvien isäntäproteiinien osuus kasvaa pienimmillä pitoisuuksilla,

  • monia näistä isäntäproteiineista on aiemmin havaittu pandoraviruksiin liittymättömissä mutta samaan isäntään tarttuvissa viruspartikkeleissa,

  • näitä proteiineja on runsaasti Acanthamoeba-proteomissa (esim., aktiini, peroksidaasi jne.), mikä tekee niistä todennäköisemmin säilyviä puhdistusaineina.

pandoravirion-proteomeihin liittyvissä iBAQ-arvojakaumissa ei valitettavasti esiintynyt epäjatkuvuutta, joka voisi toimia objektiivisena runsauskynnyksenä, joka erottaisi bona fide-hiukkaskomponentit epäilyttävistä. Tunnistettujen Akanthamoeba-proteiinien määrä kasvaa kuitenkin jyrkästi sijoitus ≈200: n jälkeen koko proteomissa (täydentävä viikuna. 10). Perimän uudelleenannotoinnissa noudatetun konservatiivisen asenteen mukaisesti päätimme jättää huomiotta tämän tason alapuolella olevat proteiinit todennäköisinä sivullisina ja sisällyttää vain 200 runsainta proteiinia hiukkasproteomien lisäanalyyseihimme (lisätieto 1, täydentävä Taulukko 3). Käyttämällä tätä tiukkaa proteomin määritelmää jokaiselle neljälle eri pandoravirionille tutkimme ensin niiden muodostavien proteiinien moninaisuutta ja niiden suojelutasoa verrattuna vastaavien pandoraviruksen genomien maailmanlaajuiseen geenisisältöön.

kuva 7 osoittaa, että hiukkasproteomit sisältävät proteiineja, jotka kuuluvat 194 erilliseen klusteriin, joista 102 on neljän kannan yhteisiä. Ydinproteomi on siis rakenteellisesti ja toiminnallisesti monimuotoinen. Se vastaa 52, 6%: a kaikista pandoravirioneissa maailmanlaajuisesti tunnistetuista proteiiniklustereista. Vertailun vuoksi perusgenomin koodaamat 467 proteiiniklusteria edustavat vain 41,6% (eli 467/1122) pandoraviruksen koodaamien proteiiniklusterien kokonaismäärästä. Pandoraviruksen” laatikko”, jota käytetään eri kantojen genomien levittämiseen, on siten huomattavasti säilyneempi kuin niiden geenisisältö (p ” 10-3, chi-neliötesti). Ydinproteomia koodaavilla geeneillä on myös kaikista pandoravirusgeeneistä voimakkain puhdistava valinta (Supplementary Fig. 11 a).

Fig. 7
figure7

Venn kaavio neljän eri pandoraviruskannan hiukkasproteomeista

proteomianalyysien luotettavuuden arvioimiseksi me vertailtiin kullekin 200: lle runsaimmalle proteiinille määritettyjä runsausarvoja (ibaq) kahden teknisen toisinnon ja kahden samalla pandoraviruskannalla suoritetun biologisen toisinnon osalta (supplementary Fig). 12a & b). Erittäin hyvä korrelaatio (Pearsonin R > 0.97) saatiin molemmissa tapauksissa yli kolmen suuruusluokan yltäkylläisyysarvoille. Tämän jälkeen vertailimme iBAQ-arvoja, jotka on saatu eri isolaattien virion-proteomien yhteisille ortologisille proteiineille. Tässäkin havaittiin hyvä korrelaatio (r > 0, 81), odotetusti pienempi kuin edellä mainituilla rinnakkaisnäytteillä (täydentävä Kuva. 12c & d). Nämä tulokset viittaavat siihen, että vaikka eri kantojen hiukkaset näyttävät morfologisesti identtisiltä (Supplementary Fig. 1), ne myöntävät konkreettisen joustavuuden sekä niiden proteiinisarjojen osalta, joista ne on valmistettu (keskimäärin 89% pairwise-ortologioista), että niiden täsmällisessä stoikiometriassa.

tämän jälkeen tutkimme hiukkasten muodostavien proteiinien ennustettuja toimintoja kaikkein runsaimmasta vähiten runsaaseen, toivoen saavamme joitakin oivalluksia varhaisesta infektioprosessista. Valitettavasti vain 19 proteiiniklusteria voitiin liittää toiminnalliseen / rakenteelliseen motiiviin ydinhiukkasproteomin määrittelevistä 102 eri klusterista (lisätieto 1, täydentävä Taulukko 3). Tämä osuus on pienempi kuin koko genomin (Kuva. 5), joka vahvistaa pandoravirushiukkasen vieraan luonteen, kuten sen ainutlaatuinen morfologia ja kokoonpanoprosessi jo ehdottavat5. Pandoravirionit koostuvat useimmiten pandoraviridae-heimon ulkopuolisista proteiineista, joilla ei ole homologeja. Mitään proteiinia, joka muistuttaa etäisesti yleensä runsasta pääkapsidiproteiinia (MCP), ennustettua DNA: ta sitovaa ydinproteiinia tai DNA: ta pakkaavaa Atpaasia, joka on useimpien eukaryoottisten suurten DNA-virusten tunnusmerkki. Erityisesti P. salinus hypoteettinen proteiini (aiemmin ps_862 nyt reannotated psal_cds_450)äskettäin ehdotti Sinclair et al.15 vahvaa MCP-kandidaattia ei havaittu P. salinuksen virioneilla, eikä sen homologeja muilla kannan proteomeilla. Tämä negatiivinen tulos korostaa tarvetta kokeelliseen validointiin tietokone ennustukset tehty ”Hämärän rajamailla” sekvenssin samankaltaisuus. Myöskään pandoraviruksen koodaamaa RNA-polymeraasia ei ole havaittu, mikä vahvistaa, että infektion alkuvaihe vaatii tumassa sijaitsevan isäntäkoneiston. Spliseosomaaliset intronit validoitiin 56 pandoravirusgeenille, joiden tuotteita havaittiin pandoravirioneissa (lisätiedot 1). Tämä osoittaa funktionaalisen spliceosomin säilymistä infektiosyklin loppuun saakka, kuten katkeamattomien ytimien havainnoinnista odotetaan (täydentävä Kuva. 1).

19 ei-anonyymin proteiiniklusterin joukossa 4 esiintyy yleisiä motiiveja ilman erityistä toiminnallista johtolankaa: 2 kollageenin kaltaista domeenia ja 1 Pan / omenan kaltaista domeenia, jotka osallistuvat proteiinin ja proteiinin vuorovaikutukseen, ja 1 cupinin kaltaista domeenia, joka vastaa yleistä tynnyrin taitosta. 10 runsaimmasta ydinproteiinista 9: llä ei ole ennustettua tehtävää, paitsi 1: llä, jolla on C-terminaalinen tioredoksiinin kaltainen domeeni (psal_cds_383). On syytä huomata, että ennustettu 22 aminohapon (85-107) kalvon läpäisevä segmentti säilyy kaikissa pandoraviruskannoissa. Vastaavien geenien 5 ’ UTR: ssä esiintyy 2 intronia (P. salinuksella, P. dulcisilla ja P. quercuksella) ja 1 P. neokaledonialla. Tioredoksiini katalysoi ditiolin-disulfidin vaihtoreaktioita sen aktiivisen keskuksen palautuvan hapettumisen kautta. Tämä proteiini, jossa on toinen saman perheen (psal_cds_411, ennustetaan liukoinen), saattaa olla mukana korjaus/estää fagosomin aiheuttama oksidatiivinen vaurioita viruksen proteiineja ennen alkuvaiheessa infektio. Hiukkasilla on myös toinen runsas redox-entsyymi, ERV: n kaltainen tiolioksidoreduktaasi, joka voi osallistua Fe/s-proteiinien kypsymiseen. Toinen ydinproteiini (psal_cds_1260), jolla on etäinen samankaltaisuus tioredoksiinireduktaasin kanssa, voi osallistua edellä mainittujen entsyymien hapettuneiden aktiivisten kohtien regenerointiin. Runsaimpiin ydinproteiineihin lukeutuvan psal_cds_232: n ennustetaan sitovan DNA: ta, ja se saattaa olla mukana genomipakkauksissa. Yksi putatiivinen NAD-riippuvainen amiinioksidaasi (psal_cds_628) ja yksi FAD-kytketty dehydrogenaasi (psal_cds_1132) täydentävät säilyneiden putatiivisten redox-entsyymien paneelin. Muita ennustettuja ydinproteiineja ovat Ser / thr-kinaasi ja fosfataasi, jotka ovat tyypillisiä säätelytoimintoja. Yksi seriiniproteaasi, yksi lipaasi, yksi patatiinin kaltainen fosfolipaasi ja yksi nukleoporiinin etähomologiaosuus voivat olla osa työkalupakkia, jota käytetään pandoraviruksen genomien kuljettamiseen sytoplasmaan ja sitten tumaan (täydentävä Taulukko 3). Lopuksi kaksi ydinproteiinia (psal_cds_118 ja psal_cds_874) jakavat endoribonukleaasimotiivin ja voivat toimia transkriptiosäätelijöinä, jotka kohdistuvat soluun mRNA.

kaikkien pandoravirionien yhteisten ydinproteiinien määrittelyn vastakohtana tutkimme myös kantakohtaisia komponentteja. Valitettavasti suurin osa tietyn kannan virion-proteiineista (keskimäärin noin 10) on anonyymejä ja niitä on vähän. Niiden esiintymisen partikkeleissa toiminnallista seurausta ei voitu ennustaa.