diversitatea și evoluția familiei pandoraviridae emergente
prelevarea de probe de mediu și izolarea tulpinilor de pandoravirus
am utilizat același protocol de izolare care a dus la descoperirea P. salinus și P. dulcis5. Constă în amestecarea materialului eșantionat cu culturi de Acanthamoeba adaptate la concentrații de antibiotice suficient de mari pentru a inhiba creșterea altor microorganisme de mediu (în special bacterii și ciuperci). Probele au fost prelevate aleatoriu din medii umede susceptibile de a adăposti celule Acanthamoeba. Aceasta a dus la izolarea a trei noi tulpini de pandoravirus: P. quercus; P. neocaledonia; și P. macleodensis (Tabelul 1, vezi metode). Acestea prezintă o divergență adecvată pentru a începe evaluarea caracteristicilor conservate și a variabilității familiei Pandoraviridae emergente. Atunci când este cazul, analizele noastre includ și date de la P. inopinatum, izolate într-un laborator German de la un pacient cu keratită Acanthamoeba7.
studiul ciclurilor de replicare și ultrastructurilor de virion
pornind de la particule purificate inoculate în culturi A. castellanii, s-au analizat ciclul infecțios al fiecărui izolat utilizând atât microscopia electronică de lumină, cât și cea de transmisie (secțiunea ultrathin). Așa cum s-a observat anterior pentru P. salinus și P. dulcis, ciclurile de replicare ale acestor noi pandoravirusuri s-au dovedit a dura în medie 12 h5 (8 h pentru cel mai rapid P. neocaledonia). Procesul infecțios este același pentru toți virușii, începând cu internalizarea particulelor individuale de către celulele Acanthamoeba. După deschiderea porului lor apical, particulele („pandoravirionii”) își transferă conținutul translucid în citoplasmă prin fuziunea membranei interne a virionului cu cea a fagozomului. Stadiul incipient al infecției este remarcabil de similar pentru toate izolatele. În timp ce am raportat anterior că nucleul celular a fost complet perturbat în stadiul final al ciclului infecțios5, observarea aprofundată a noilor tulpini a relevat particule neosintetizate în citoplasma celulelor care prezintă încă compartimente asemănătoare nucleului în care nucleolul nu mai era recunoscut (Fig suplimentar. 1). La opt ore după infecție, virionii maturi au devenit vizibili în vacuole și sunt eliberați prin exocitoză (Film suplimentar). Pentru toate izolatele, ciclul replicativ se încheie cu liza celulelor și eliberarea a aproximativ o sută de particule (Fig. 1).
secvențierea și adnotarea genomului
ADN Genomic de P. neocaledonia, P. macleodensis și P. quercus au fost preparate din particule purificate și secvențiate folosind fie platformele PacBio, fie Illumina (vezi metode). În ceea ce privește P. salinus, P. dulcis5 și P. inopinatum7, cele trei noi genomi s-au asamblat ca molecule de ADN dublu catenar (dsDNA) liniare simple (60% g + C) cu dimensiuni cuprinse între 1,84 și 2 Mb. Pe lângă particulele lor translucide în formă de amforă (Fig. 1), Conținutul G + C mai mare decât media și gigantismul genomic rămân astfel trăsături caracteristice împărtășite de Pandoraviridae5, 8. Având în vedere proporția mare de gene virale care codifică proteine fără omolog de bază de date, predicțiile genelor bazate pe abordări computaționale pur ab initio (adică „ORFing” și estimări ale înclinației de codificare) sunt notoriu nesigure, ducând la inconsecvențe între echipe care utilizează diferite valori ale parametrilor arbitrari (de exemplu, dimensiunea minimă a cadrului de citire deschis (ORF)). De exemplu, în rândul familiilor de virusuri dsDNA mari care infectează eucariote, densitatea medie a genei care codifică proteinele variază de la o genă la fiecare 335 bp( Phycodnaviridae, NCBI: NC_008724) până la o genă la fiecare 2120 bp (Herpesviridae, NCBI: NC_003038), în timp ce consensul este în mod clar în jurul unei gene la fiecare kb (cum ar fi pentru bacterii). Drept urmare, se oscilează între situațiile în care multe gene sunt exagerate și altele în care multe gene reale sunt probabil trecute cu vederea. O astfel de incertitudine cu privire la genele „reale” introduce un zgomot semnificativ în analizele genomice comparative și testarea ulterioară a ipotezelor evolutive. În plus, metodele de calcul sunt în mare parte orb la gene exprimate ca Transcrieri care nu codifică proteine.
pentru a depăși limitările de mai sus, am efectuat experimente ARN-seq specifice catenei și analize ale proteomilor particulelor, ale căror rezultate au fost mapate pe secvențele genomului. Numai genele susținute de dovezi experimentale (sau similitudine proteică) au fost reținute în acest protocol strict de reanotare (vezi metode, Fig suplimentar. 2). Pe de o parte, această nouă procedură a condus la un set redus de proteine prezise, pe de altă parte a permis descoperirea unui număr mare neașteptat de transcrieri necodificatoare (Tabelul 1).
noul set de gene codificatoare de proteine validate prezintă o proporție puternic diminuată de ORFs mai mici de 100 de reziduuri, dintre care majoritatea sunt unice pentru fiecare tulpină de pandoravirus (Fig suplimentar. 3). Procedura strictă de adnotare a dus, de asemenea, la gene care prezintă o distribuție unimodală bine centrată a valorilor indicelui de adaptare a codonilor (CAI) (Fig suplimentar. 3).
pentru consecvență, am extrapolat protocolul nostru strict de adnotare la P. inopinatum și P. macleodensis, reducând numărul de proteine prezise luate în considerare în comparații ulterioare (vezi metode, Tabelul 1). Așa cum era de așteptat, discrepanțele dintre predicțiile genice standard și stricte se datorează doar supra-predicției ORF-urilor mici (lungime < 300 nucleotide). Astfel de ORF-uri arbitrare sunt predispuse să apară aleatoriu în secvențe bogate în G + C în care codonii stop (TAA, TAG și TGA) sunt mai puțin susceptibili să apară întâmplător decât în regiunile necodificate ale genomurilor bogate în A + T. Într-adevăr, protocoalele de adnotare standard și stricte de mai sus s-au aplicat la A + T-rich (74.8%) genomul Megavirus chilensis3 a dus la două seturi foarte similare de gene prezise față de cele validate de codificare a proteinelor (1120 față de 1108). Acest control indică faptul că adnotarea noastră strictă nu este pur și simplu aruncarea predicțiilor genetice corecte în cele din urmă prin ridicarea arbitrară a unui prag de încredere, ci corectarea specifică a erorilor induse de compoziția bogată în G + C. Metodele de adnotare a genelor pur computaționale sunt astfel semnificativ mai puțin fiabile pentru genomii bogați în G + C, mai ales atunci când codifică o proporție mare de orfani (adică ORF fără omolog de bază de date), ca și pentru pandoravirusuri. Cu toate acestea, este de remarcat faptul că, chiar și după reannotarea noastră strictă, fracțiunea de proteine prezise fără similitudine semnificativă a secvenței în afara familiei Pandoraviridae a rămas destul de mare (de la 67 la 73%, Fig suplimentar. 4).
o provocare suplimentară pentru adnotarea exactă a genomurilor pandoravirusului este prezența intronilor (practic nedetectabili prin Metode computaționale atunci când întrerup orfanii). Cartografierea secvențelor de transcriere asamblate pe genomii lui P. salinus, P. dulcis, P. quercus și P. neocaledonia, a permis detectarea intronilor spliceozomali în 7,5-13% din genele validate de codificare a proteinelor. Acești introni au fost găsiți în regiunile netraduse (UTR), precum și în secvențele de codificare, incluzând în medie 14 gene dintre cele care codifică cele mai abundente 200 de proteine detectate în particule (vezi mai jos). Deși intronii spliceozomali se găsesc în alte virusuri cu o fază nucleară, cum ar fi clorovirusele9, pandoravirusurile sunt singurele pentru care intronii spliceozomali au fost validați pentru mai mult de 10% din genele lor. Aceste rezultate susțin sugestia noastră anterioară că cel puțin o parte din transcrierile pandoravirusului sunt sintetizate și prelucrate de către mașina nucleară gazdă5. Cu toate acestea, numărul de introni per genă virală rămâne mult mai mic (aproximativ 1,2 în medie) decât pentru genele gazdă (6,2 în medie10). Genele pandoravirusului prezintă, de asemenea, UTR-uri de două ori mai lungi (tabelul suplimentar 1) decât cele ale Mimiviridei11.
cartografierea datelor ARN-seq a dus la descoperirea neașteptată a unui număr mare (157-268) de transcrieri lungi necodificate (LncRNAs) (Tabelul 1, Tabelul suplimentar 1 pentru statistici detaliate). Aceste Lncrn-uri prezintă o coadă polyA și aproximativ 4% dintre ele conțin introni spliceozomali. Lncrn-urile sunt cel mai adesea transcrise din catena inversă a genelor validate care codifică proteinele, în timp ce o fracție mai mică este exprimată în regiuni intergenice (adică inter-ORF) (Fig suplimentar. 5). Aceste transcrieri necodificate pot juca un rol în reglarea expresiei genelor pandoravirusului.
În general, 82,7–87% din genomul pandoravirusului este transcris (inclusiv ORFs, UTRs și LncRNAs), dar numai 62-68, 2% este tradus în proteine. Astfel de valori sunt mult mai mici decât în cazul virusurilor uriașe din alte familii (de exemplu, 90% din genomul Mimivirus11 este tradus), în parte datorită UTR-urilor mai mari care flancează genele pandoravirusului.
genomică comparativă
cele șase seturi de gene codificatoare de proteine obținute din adnotarea strictă de mai sus au fost apoi utilizate ca referințe pentru comparații ale întregului genom cu scopul de a identifica caracteristicile specifice ale familiei Pandoraviridae. În urma unei grupări bazate pe similitudinea secvenței (vezi metode), s-au calculat suprapunerile relative ale conținutului genic al diferitelor tulpini (Fig. 2a), producând ceea ce numim „grupuri de proteine”.
apoi am calculat numărul de partajat (adică., „core”) și gene totale pe măsură ce am încorporat incremental genomii diferitelor izolate în analiza de mai sus, pentru a estima dimensiunea setului de gene de bază al familiei și cea a setului de gene accesorii/flexibile. Dacă cele șase izolate disponibile au apărut suficiente pentru a delimita un genom de bază care codifică 455 de grupuri de proteine diferite, „curba de saturație” care duce la setul total de gene este departe de a ajunge la un platou, sugerând că pan-genomul Pandoraviridae este deschis, cu fiecare izolat suplimentar prevăzut să contribuie cu mai mult de 50 de gene suplimentare (Fig. 2b). Acest lucru rămâne să fie confirmat de analiza izolatelor Pandoraviridae suplimentare.
am investigat apoi similitudinea globală a celor șase izolate pandoravirus analizând conținutul lor genic comun atât în ceea ce privește similitudinea secvenței proteice, cât și poziția genomică. Similitudinea perechilor dintre diferitele izolate pandoravirus variază de la 54 la 88%, calculată dintr-o superaliniere a produselor proteice ale genelor ortologice (tabelul suplimentar 2). Un arbore filogenetic calculat cu aceleași date grupează pandoravirusurile în două clade separate (Fig. 3).
interpretat într-un context geografic, acest model de grupare transmite două proprietăți importante ale familiei emergente. Pe de o parte, cele mai divergente tulpini nu sunt cele izolate din cele mai îndepărtate locații (de exemplu, Chilian P. salinus versus francez P. quercus; Neo-Caledonian P. neocaledonia versus Australian P. macleodensis). Pe de altă parte, două izolate (de exemplu, P. dulcis versus P. macleodensis) din medii identice (două iazuri situate la 700 m distanță și conectate printr-un debit mic de apă) sunt destul de diferite. În așteptarea unui inventar la scară mai mare al Pandoraviridae, aceste rezultate sugerează deja că membrii acestei familii sunt distribuiți în întreaga lume cu diversități locale și globale similare.
analiza noastră a pozițiilor genelor omoloage în diferitele genomi a arătat că, în ciuda divergenței secvenței lor (tabelul suplimentar 2), 80% din genele ortologe rămân coliniare. Așa cum se arată în Fig. 4, arhitectura pe distanțe lungi a genomurilor pandoravirusului (adică., pe baza pozițiilor genelor ortologice) este conservată la nivel global, în ciuda diferențelor lor de dimensiuni (1,83–2,47 Mb). Cu toate acestea, jumătate din cromozomii pandoravirusului (regiunea din stânga din Fig. 4) în mod curios apare evolutiv mai stabil decât cealaltă jumătate în care apar majoritatea segmentelor non-omoloage. Aceste segmente conțin gene specifice tulpinii și sunt îmbogățite În duplicări tandem ale non-ortolog ankyrin, MORN, și F-box motiv-conținând proteine. În schimb, jumătatea stabilă a genomului concentrează majoritatea genelor care constituie genomul miezului Pandoraviridae (partea de sus a Fig. 4). Interesant este că inversiunea locală care distinge cromozomul P. Neocaledonia de celelalte tulpini este situată în apropierea graniței dintre regiunile stabile și instabile și poate fi legată de această tranziție (deși poate fi întâmplătoare). În cele din urmă, toate genomurile sunt, de asemenea, îmbogățite în gene specifice tulpinii (și/sau duplicări) la ambele extremități.
am analizat apoi distribuția proteinelor prezise între categoriile funcționale largi standard (Fig. 5). Deoarece este acum recurent pentru virusurile ADN eucariote mari și uriașe, categoria dominantă este de departe cea a proteinelor lipsite de semnături funcționale recunoscute. În cele șase tulpini, o medie de 70% din proteinele prezise corespund „funcțiilor necunoscute”. O proporție atât de mare este cu atât mai remarcabilă cu cât se aplică seturilor de gene validate cu atenție, din care au fost eliminate ORF-urile dubioase. Prin urmare, este o realitate biologică că o mare majoritate a acestor proteine virale nu pot fi legate de căile caracterizate anterior. În mod remarcabil, proporția acestor proteine anonime rămâne destul de ridicată (65%) printre produsele genomului de bază al pandoravirusului, adică printre genele probabil esențiale împărtășite de cele șase tulpini disponibile (și probabil toți viitorii membri ai familiei, conform Fig. 2b). Interesant este că această proporție rămâne, de asemenea, foarte mare (80%) în rândul proteinelor detectate ca constituind particulele virale. Mai mult, proporția de proteine anonime domină total clasificarea genelor unice pentru fiecare tulpină, la mai mult de 95%. Cea mai generică categorie funcțională, „interacțiunea proteină–proteină”, este următoarea cea mai mare (de la 11,7 la 18,9%), corespunzătoare detectării unor motive foarte frecvente și neinformative (de exemplu, repetări ale ankirinei). În general, proporția de proteine pandoravirus la care ar putea fi atribuită o funcție cu adevărat informativă este <20%, inclusiv un mecanism complet pentru replicarea și transcrierea ADN-ului.
am investigat apoi două procese evolutive posibil la originea dimensiunii extra-mari a genomurilor pandoravirusului: transferuri de gene (hgts) și duplicări de gene. Achiziționarea de gene de către HGT a fost frecvent invocată pentru a explica dimensiunea genomului virusurilor care infectează ameba în comparație cu virușii „obișnuiți” 12, 13. Am calculat că până la o treime din proteinele pandoravirusului prezintă asemănări de secvență (în afara familiei Pandoraviridae) cu proteine din cele trei domenii celulare (Eukarya, Archaea și Eubacteria) sau alte virusuri (Fig suplimentar. 4). Cu toate acestea, astfel de asemănări nu implică faptul că aceste gene au fost dobândite orizontal. De asemenea, ar putea denota o origine ancestrală comună sau un transfer de la un pandoravirus la alte microorganisme. Am analizat individual poziția filogenetică a fiecăruia dintre aceste cazuri pentru a deduce originea lor probabilă: ancestral – când este găsit în afara grupurilor de omologi celulari sau virali; dobândit orizontal—când este găsit adânc încorporat în grupurile de mai sus; sau transferat orizontal către organisme celulare sau viruși fără legătură în situația conversă (adică o proteină celulară situată într-un grup de proteine pandoravirus). Fig Suplimentar. 6 rezumă rezultatele acestei analize.
am putea face un diagnostic HGT neechivoc pentru 39% din cazuri, restul rămânând indecidabil sau compatibil cu o origine ancestrală. Dintre HGT probabil, 49% au sugerat un câștig orizontal prin pandoravirusuri, iar 51% transferul unei gene de la un pandoravirus. Interesant este că achiziția genelor gazdă, proces invocat de obicei ca fiind important în evoluția virusurilor, reprezintă doar o mică proporție (13%) din HGT-urile diagnosticate, deci mai puțin decât de la viruși la gazdă (18%). Combinând statisticile de mai sus cu proporția de gene (o treime) de la care am pornit, în întregul genom, sugerează că cel mult 15% (și cel puțin 6%) din conținutul genei pandoravirusului ar fi putut fi obținut din organisme celulare (inclusiv 5-2% din gazda lor Acanthamoeba contemporană) sau alți viruși. Acest interval de valori este comparabil cu cel estimat anterior pentru Mimivirus14. Prin urmare, HGT nu este procesul distinctiv la originea genomului gigant pandoravirus.
am investigat apoi prevalența duplicărilor în rândul genelor pandoravirusului. Figura 6a compară proporțiile genelor de codificare a proteinelor unice versus duplicate (sau mai multe) ale celor șase pandoravirusuri disponibile cu cele calculate pentru reprezentanții celorlalte trei familii cunoscute de virusuri ADN gigant care infectează Acanthamoeba. Se arată în mod clar că proporția genelor cu mai multe copii (variind de la 55 la 44%) este mai mare în pandoravirusuri, decât pentru celelalte familii de virusuri, deși nu se corelează perfect cu dimensiunile genomului respectiv. Distribuțiile dimensiunilor clusterului între diferitele tulpini de pandoravirus sunt similare. Cele mai multe gene cu copiere multiplă se găsesc în grupul de dimensiuni 2 (duplicare) sau 3 (triplicare). Numărul de clustere mai mari scade apoi odată cu dimensiunea lor (suplimentar Fig. 7).
Mai puține clustere mari (Dimensiune> 20) corespund proteinelor care împărtășesc motive de interacțiune proteină–proteină, cum ar fi Ankyrin, MORN și F-Box se repetă. În mod surprinzător, numărul absolut de gene cu o singură copie în pandoravirusuri este similar și uneori mai mic (de exemplu, P. Neocaledonia, 2 Mb) decât cel din Mimivirus, cu un genom (1,18 Mb) jumătate din Dimensiune. În general, numărul de clustere genetice distincte (Fig. 6B) se suprapune între Pandoraviridae (de la 607 la 775) și Mimivirus (687), sugerând că, în ciuda diferenței lor de genom și dimensiuni ale particulelor, acești viruși împărtășesc complexități genetice comparabile.
duplicarea genelor fiind o caracteristică atât de proeminentă a genomurilor pandoravirusului, am investigat-o în continuare căutând mai multe informații despre mecanismul său. În primul rând, am calculat distanțele genomice dintre perechile celor mai apropiați paralogi, cel mai probabil rezultate din cele mai recente evenimente de duplicare. Distribuțiile acestor distanțe, similare pentru fiecare pandoravirus, indică faptul că cei mai apropiați paralogi sunt cel mai adesea localizați unul lângă celălalt (distanța = 1) sau separați de o singură genă (distanța = 2) (Fig suplimentar. 8).
am încercat apoi să corelăm distanța fizică care separă genele duplicate cu divergența secvenței lor ca o estimare (brută) a distanței lor evolutive. Am obținut o corelație semnificativă între „vârsta” estimată a evenimentului de duplicare și distanța genomică a celor doi paralogi apropiați (Fig suplimentar. 9). Aceste rezultate sugerează un scenariu evolutiv prin care majoritatea duplicărilor apar mai întâi în tandem, cu modificări ulterioare ale genomului (inserții, inversiuni și pierderi de gene) estompând progresiv acest semnal.
proteomic comparativ al pandoravirionilor
analiza proteomică a spectrometriei de masă anterioare a particulelor P. salinus a identificat 210 produse genetice virale, dintre care majoritatea orfane sau fără funcție previzibilă. În plus, am detectat 56 de proteine gazdă (Acantamoeba). Este important faptul că niciuna dintre componentele aparatului de transcripție codificat de virus nu a fost detectată în particule5. În această lucrare am efectuat aceleași analize pe P. salinus, P. dulcis și două dintre noile izolate (P. quercus și P. Neocaledonia) pentru a determina în ce măsură caracteristicile de mai sus au fost conservate pentru membrii familiei Pandoraviridae cu diferite niveluri de divergență și pentru a identifica nucleul versus componentele accesorii ale unui pandoravirion generic.datorită îmbunătățirii constante a sensibilității spectrometriei de masă, noile noastre analize ale virionilor purificați au condus la identificarea fiabilă a 424 de proteine pentru P. salinus, 357 pentru P. quercus, 387 pentru P. dulcis și 337 pentru P. Neocaledonia (vezi metodele). Cu toate acestea, acest număr crescut de identificări corespunde valorilor abundenței (cuantificare absolută bazată pe intensitate, iBAQ) care acoperă mai mult de cinci ordine de mărime. Multe dintre proteinele identificate în coada cu abundență scăzută ar putea astfel să nu corespundă componentelor particulelor de bună credință, ci spectatorilor încărcați aleatoriu, proteinelor „lipicioase” sau contaminanților reziduali din celulele infectate. Această interpretare prudentă este sugerată de mai multe observații:
-
coada abundenței scăzute este îmbogățită progresiv în proteine virale identificate în particulele unei singure tulpini de pandoravirus (chiar dacă alte tulpini posedă genele omoloage),
-
proporția proteinelor codificate de gazdă asociate cu particulele crește la cele mai mici abundențe,
-
multe dintre aceste proteine gazdă au fost detectate anterior în particule de virus fără legătură cu pandoravirusurile, dar infectând aceeași gazdă,
-
aceste proteine sunt abundente în proteomul Acanthamoeba (de ex., actină, peroxidază etc.), ceea ce le face mai susceptibile de a fi reținute ca contaminanți de purificare.
Din păcate, distribuțiile de valori iBAQ asociate proteomilor pandoravirion nu au prezentat o discontinuitate care ar putea servi drept prag obiectiv de abundență pentru a distinge componentele particulelor de bună credință de cele dubioase. Cu toate acestea, numărul de proteine Acanthamoeba identificate crește brusc după rangul 200 la nivelul întregului proteom (suplimentar Fig. 10). Urmând aceeași atitudine conservatoare ca și pentru reannotarea genomului, am decis să nu luăm în considerare proteinele identificate sub acest rang ca fiind probabile și am inclus doar cele mai abundente 200 de proteine în analizele noastre ulterioare ale proteomilor particulelor (date suplimentare 1, Tabelul suplimentar 3). Folosind această definiție strictă a proteomilor pentru fiecare dintre cei patru pandoravirioni diferiți, am investigat mai întâi diversitatea proteinelor lor constitutive și nivelul lor de conservare în comparație cu conținutul genic global al genomurilor pandoravirusului corespunzător.
Figura 7 arată că proteomii particulelor includ proteine aparținând a 194 de clustere distincte, dintre care 102 sunt împărțite de cele patru tulpini. Proteomul de bază este astfel divers din punct de vedere structural și funcțional. Aceasta corespunde la 52,6% din totalul grupurilor de proteine identificate la nivel global în toate pandoravirionii. Prin comparație, cele 467 de clustere de proteine codificate de genomul de bază reprezintă doar 41,6% (adică 467/1122) din numărul total de clustere de proteine codificate de pandoravirus. „Cutia” pandoravirusului utilizată pentru propagarea genomilor diferitelor tulpini este astfel semnificativ mai conservată decât conținutul genei lor (p ” 10-3, testul chi-pătrat). Genele care codifică proteomul de bază prezintă, de asemenea, cea mai puternică selecție purificatoare dintre toate genele pandoravirusului (Fig suplimentar. 11a).
pentru a evalua fiabilitatea analizelor noastre de proteomi, am comparat valorile abundenței (ibaq) determinate pentru fiecare dintre cele mai abundente 200 de proteine pentru două replici tehnice și pentru două replici biologice efectuate pe aceeași tulpină de pandoravirus (suplimentar fig. 12a & b). O corelație foarte bună (Pearson ‘ s r > 0.97) a fost obținut în ambele cazuri pentru valori de abundență cuprinse între trei ordine de mărime. Am comparat apoi valorile iBAQ obținute pentru proteinele ortologice împărtășite de proteomii virionici ai diferitelor izolate. Aici, din nou, s-a observat o corelație bună (R > 0,81), așa cum era de așteptat mai mică decât pentru replicatele de mai sus (Fig suplimentar. 12C & d). Aceste rezultate sugerează că, deși particulele diferitelor tulpini par identice morfologic(Fig suplimentar. 1), admit o flexibilitate tangibilă atât în ceea ce privește seturile de proteine din care sunt alcătuite (cu 89% din ortologii perechi în medie), cât și în stoichiometria lor precisă.
am examinat apoi funcțiile prezise ale proteinelor care compun particulele, de la cele mai multe la cele mai puțin abundente, sperând să obținem câteva informații despre procesul infecțios timpuriu. Din păcate, doar 19 clustere de proteine ar putea fi asociate unui motiv funcțional/structural din cele 102 clustere diferite care definesc proteomul particulei de bază (date suplimentare 1, Tabelul suplimentar 3). Această proporție este mai mică decât pentru întregul genom (Fig. 5), confirmând natura extraterestră a particulei pandoravirus, așa cum a sugerat deja morfologia sa unică și procesul de asamblare5. Pandoravirionii sunt în mare parte făcuți din proteine fără omologi în afara familiei Pandoraviridae. Nu este detectată nicio proteină nici măcar de la distanță similară cu proteina majoră de capsidă (MCP), de obicei abundentă, o proteină de bază care leagă ADN-ul prezis sau o ATPază de ambalare a ADN-ului, semne distinctive ale majorității virusurilor ADN mari eucariote. În special, un P. proteina ipotetică salinus (anterior ps_862 acum reannotată psal_cds_450) sugerată recent de Sinclair și colab.15 pentru a fi un candidat puternic MCP nu a fost detectat în virionii P. salinus, nici omologii săi în celelalte proteomi de tulpină. Acest rezultat negativ subliniază necesitatea validării experimentale a predicțiilor computerizate făcute din „zona crepusculară” a asemănării secvenței. Nici o urmă de ARN polimerază codificată cu pandoravirus nu este detectată, confirmând că stadiul inițial al infecției necesită echipamentul de transcripție gazdă situat în nucleu. Intronii spliceozomali au fost validați pentru 56 de gene pandoravirus ale căror produse au fost detectate în pandoravirioni (date suplimentare 1). Aceasta indică conservarea unui spliceozom funcțional până la sfârșitul ciclului infecțios, așa cum era de așteptat din observarea nucleelor neîntrerupte (Fig suplimentar. 1).
printre cele 19 grupuri de proteine non-anonime, 4 prezintă motive generice fără indiciu funcțional specific: 2 domenii asemănătoare colagenului și 1 domeniu Pan / APPLE care sunt implicate în interacțiunile proteine-proteine și 1 domeniu asemănător cupinei care corespunde unui pliu generic de butoi. Dintre cele mai abundente 10 proteine de bază, 9 nu au nicio funcție prezisă, cu excepția 1 care prezintă un domeniu asemănător tioredoxinei C-terminale (psal_cds_383). Este de remarcat faptul că segmentul prevăzut cu membrană de 22 de aminoacizi (85-107) este conservat în toate tulpinile de pandoravirus. 5 ‘ UTR a genelor corespunzătoare prezintă 2 introni (în P. salinus, P. dulcis și P. quercus) și 1 În P. Neocaledonia. Tioredoxina catalizează reacțiile de schimb ditiol-disulfură prin oxidarea reversibilă a centrului său activ. Această proteină, cu o alta din aceeași familie (psal_cds_411, prezisă ca solubilă), ar putea fi implicată în repararea/prevenirea daunelor oxidative induse de fagozomi la proteinele virale înainte de stadiul inițial al infecției. Particulele împărtășesc, de asemenea, o altă enzimă redox abundentă, o tiol oxidoreductază asemănătoare ERV care poate fi implicată în maturarea proteinelor Fe/s. O altă proteină de bază (psal_cds_1260) cu o asemănare la distanță cu o tioredoxină reductază poate participa la regenerarea siturilor active oxidate ale enzimelor de mai sus. Printre cele mai abundente proteine de bază, psal_cds_232 este prezis ca legarea ADN-ului și poate fi implicat în ambalarea genomului. O amină oxidază dependentă de NAD (psal_cds_628) și o dehidrogenază cuplată cu FAD (psal_cds_1132) completează panoul de enzime redox presupuse conservate. Alte proteine de bază prezise includ o ser / THR kinază și fosfatază care sunt funcții tipice de reglare. O serin protează, o lipază, o fosfolipază asemănătoare patatinei și un omolog la distanță al unei nucleoporine ar putea face parte din setul de instrumente utilizat pentru a transporta genomii pandoravirusului către citoplasmă și apoi către nucleu (tabelul suplimentar 3). În cele din urmă, două proteine de bază (psal_cds_118 și psal_cds_874) împărtășesc un motiv endoribonuclează și ar putea funcționa ca regulatori transcripționali care vizează ARNm celular.
la opusul definirii setului de proteine de bază împărtășite de toți pandoravirionii, am investigat și componentele specifice tulpinii. Din păcate, majoritatea proteinelor virion unice pentru o anumită tulpină (aproximativ 10 în medie) sunt anonime și în abundență redusă. Nu s-a putut face nicio predicție cu privire la consecința funcțională a prezenței lor în particule.