Articles

Diversità ed evoluzione della famiglia Pandoraviridae emergente

Campionamento ambientale e isolamento dei ceppi di pandoravirus

Abbiamo utilizzato lo stesso protocollo di isolamento che ha portato alla scoperta di P. salinus e P. dulcis5. Consiste nel mescolare il materiale campionato con colture di Acanthamoeba adattate a concentrazioni antibiotiche abbastanza elevate da inibire la crescita di altri microrganismi ambientali (in particolare batteri e funghi). I campioni sono stati prelevati casualmente da ambienti umidi sensibili alle cellule di Acanthamoeba. Ciò ha portato all’isolamento di tre nuovi ceppi di pandoravirus: P. quercus; P. neocaledonia; e P. macleodensis (Tabella 1, vedi Metodi). Mostrano una divergenza adeguata per iniziare a valutare le caratteristiche conservate e la variabilità della famiglia Pandoraviridae emergente. Se del caso, le nostre analisi includono anche i dati di P. inopinatum, isolato in un laboratorio tedesco da un paziente con una cheratite di Acanthamoeba7.

Tabella 1 Dati sulla pandoravirus isolati utilizzato in questo lavoro

Studio dei cicli di replica e virione ultrastrutture

a Partire da purificata particelle inoculati in A. castellani culture, abbiamo analizzato il ciclo infettivo di ogni isolato utilizzando sia la luce e microscopia elettronica della trasmissione (sezione ultrasottile). Come osservato in precedenza per P. salinus e P. dulcis, i cicli di replicazione di questi nuovi pandoravirus sono risultati durare in media 12 h5 (8 h per il P più veloce. neocaledonia). Il processo infettivo è lo stesso per tutti i virus, a cominciare dall’internalizzazione delle singole particelle da parte delle cellule di Acanthamoeba. Dopo l’apertura del loro poro apicale, le particelle (“pandoravirioni”) trasferiscono il loro contenuto traslucido al citoplasma attraverso la fusione della membrana interna del virione con quella del fagosoma. La fase iniziale dell’infezione è notevolmente simile per tutti gli isolati. Mentre in precedenza abbiamo riportato che il nucleo cellulare è stato completamente interrotto durante la fase avanzata del ciclo infettivo5, l’osservazione approfondita dei nuovi ceppi ha rivelato particelle neo-sintetizzate nel citoplasma di cellule che presentano ancora compartimenti simili a nuclei in cui il nucleolo non era più riconoscibile (Fig. 1). Otto ore dopo l’infezione, i virioni maturi sono diventati visibili nei vacuoli e vengono rilasciati attraverso l’esocitosi (film supplementare). Per tutti gli isolati, il ciclo replicativo termina con la lisi delle cellule e il rilascio di circa un centinaio di particelle (Fig. 1).

Fig. 1
figure1

Il nuovo pandoravirus isola. una sovrapproduzione da una cellula di A. castellanii di virioni Pandoravirus macleodensis dal campione ambientale precedente lisi cellulare. I batteri ambientali possono essere visti nel mezzo di coltura insieme ai virioni di P. macleodensis. (la barra della scala è 10 µm). immagine di b TEM di una sezione ultrasottile della cellula di A. castellanii durante la fase iniziale dell’infezione da P. neocaledonia. Gli pseudopodi di ameba sono pronti a inghiottire i virioni circostanti. Dieci minuti pi, virioni sono stati inghiottiti e sono in vacuoli (scala bar è 500 nm). immagine C TEM di una sezione ultrasottile della cella A. castellanii durante il processo di assemblaggio di un virione P. salinus (la barra di scala è di 500 nm). d TEM immagine di una sezione ultrasottile di un nascente P. quercus virion. (la barra della scala è 500 nm). Le strutture delle particelle mature dei diversi ceppi non presentano alcuna differenza notevole

Sequenziamento e annotazione del genoma

DNA genomico di P. neocaledonia, P. macleodensis e P. quercus sono stati preparati da particelle purificate e sequenziati utilizzando le piattaforme PacBio o Illumina (vedi Metodi). Per quanto riguarda P. salinus, P. dulcis5 e P. inopinatum7, i tre nuovi genomi assemblati come molecole di DNA a doppio filamento lineare (dsDNA) (≈60% G + C) con dimensioni che vanno da 1,84 a 2 Mb. Oltre alle loro particelle traslucide a forma di anfora (Fig. 1), il contenuto di G + C superiore alla media e il gigantismo genomico rimangono quindi caratteristiche condivise dai Pandoravirida5, 8. Data l’alta percentuale di geni virali che codificano le proteine senza l’omologo del database, le previsioni genetiche basate su approcci computazionali puramente ab initio (ad esempio, “ORFing” e stime di propensione alla codifica) sono notoriamente inaffidabili, portando a incongruenze tra team che utilizzano valori diversi di parametri arbitrari (ad esempio, dimensione minima del frame di lettura aperto (ORF)). Ad esempio tra le famiglie di grandi virus dsDNA che infettano gli eucarioti, la densità genica media che codifica le proteine varia da un gene ogni 335 bp (Phycodnaviridae, NCBI: NC_008724) fino a un gene ogni 2120 bp (Herpesviridae, NCBI: NC_003038), mentre il consenso è chiaramente intorno a un gene ogni kb (come per i batteri). Di conseguenza, si oscilla tra situazioni in cui molti geni sono sopravvalutati e altri in cui molti geni reali sono probabilmente trascurati. Tale incertezza su quali geni siano “reali” introduce un rumore significativo nelle analisi genomiche comparative e nella successiva sperimentazione di ipotesi evolutive. Inoltre, i metodi computazionali sono per lo più ciechi ai geni espressi come trascritti non codificanti proteine.

Per superare le limitazioni di cui sopra, abbiamo eseguito esperimenti specifici di RNA-seq e analisi di proteomi di particelle, i cui risultati sono stati mappati sulle sequenze del genoma. Solo i geni supportati da prove sperimentali (o similarità proteica) sono stati mantenuti in questo rigoroso protocollo di riannotazione (vedi Metodi, Fig. 2). Da un lato, questa nuova procedura ha portato a un set ridotto di proteine previste, dall’altro ha permesso la scoperta di un numero inaspettato di trascritti non codificanti (Tabella 1).

Il nuovo set di geni codificanti proteine convalidati mostra una percentuale fortemente diminuita di ORFS più breve di 100 residui, la maggior parte dei quali sono unici per ogni ceppo di pandoravirus (Fig. 3). La rigorosa procedura di annotazione ha anche portato a geni che mostrano una distribuzione unimodale ben centrata dei valori dell’indice di adattamento del codone (CAI) (Fig. 3).

Per coerenza, abbiamo estrapolato il nostro rigoroso protocollo di annotazione a P. inopinatum e P. macleodensis, riducendo il numero di proteine previste prese in considerazione in ulteriori confronti (vedi Metodi, Tabella 1). Come previsto, le discrepanze tra le previsioni genetiche standard e rigorose sono semplicemente dovute all’eccessiva predizione di piccoli ORF (lunghezza < 300 nucleotidi). Tali ORF arbitrari sono inclini a sorgere casualmente in sequenze ricche di G + C all’interno delle quali i codoni di arresto (TAA, TAG e TGA) hanno meno probabilità di verificarsi per caso rispetto alle regioni non codificanti dei genomi ricchi di A + T. Infatti, i protocolli di annotazione standard e rigorosi sopra applicati al A + T-rich (74.8%) Megavirus chilensis genome3 ha portato a due gruppi molto simili di geni codificanti proteine predetti rispetto a quelli convalidati (1120 rispetto a 1108). Questo controllo indica che la nostra rigorosa annotazione non sta semplicemente scartando le previsioni genetiche eventualmente corrette aumentando arbitrariamente una soglia di confidenza, ma correggendo specificamente gli errori indotti dalla composizione ricca di G + C. I metodi di annotazione genica puramente computazionali sono quindi marcatamente meno affidabili per genomi ricchi di G + C, specialmente quando codificano una grande percentuale di ORFAN (cioè ORF senza homolog di database), come per i pandoravirus. Tuttavia, vale la pena notare che anche dopo la nostra rigorosa riannotazione, la frazione delle proteine previste senza una significativa somiglianza di sequenza al di fuori della famiglia Pandoraviridae è rimasta piuttosto alta (dal 67 al 73%, Fig. 4).

Un’ulteriore sfida per l’annotazione accurata dei genomi pandoravirus è la presenza di introni (praticamente non rilevabili con metodi computazionali quando interrompono ORFans). La mappatura delle sequenze di trascrizione assemblate sui genomi di P. salinus, P. dulcis, P. quercus e P. neocaledonia, ha permesso il rilevamento di introni spliceosomiali nel 7,5-13% dei geni codificanti proteine convalidati. Questi introni sono stati trovati nelle regioni non tradotte (UTRs) e nelle sequenze codificanti, inclusi in media 14 geni tra quelli che codificano le 200 proteine più abbondanti rilevate nelle particelle (vedi sotto). Sebbene gli introni spliceosomiali si trovino in altri virus con una fase nucleare come i clorovirusi9, i pandoravirus sono gli unici per i quali gli introni spliceosomiali sono stati convalidati per oltre il 10% dei loro geni. Questi risultati supportano il nostro precedente suggerimento che almeno una parte delle trascrizioni di pandoravirus siano sintetizzate ed elaborate dalla macchina nucleare ospitante5. Tuttavia, il numero di introni per gene virale rimane molto più basso (circa 1,2 in media) rispetto ai geni ospiti (6,2 in media10). I geni del pandoravirus presentano anche UTRS due volte più lunghi (Tabella supplementare 1) di quelli di Mimiviridae11.

La mappatura dei dati RNA-seq ha portato alla scoperta inaspettata di un gran numero (157-268) di trascritti lunghi non codificanti (LNCRNA) (Tabella 1, Tabella supplementare 1 per statistiche dettagliate). Questi LncRNAs esibiscono una coda di polyA e circa 4% di loro contengono introni spliceosomal. Gli LNCRNA sono spesso trascritti dal filamento inverso di geni codificanti proteine convalidati mentre una frazione più piccola è espressa in regioni intergeniche (cioè inter-ORF) (Fig. 5). Queste trascrizioni non codificanti possono svolgere un ruolo nella regolazione dell’espressione genica del pandoravirus.

Nel complesso, l ‘ 82,7–87% dei genomi del pandoravirus viene trascritto (inclusi ORFs, UTRs e LNCRNA), ma solo il 62-68, 2% viene tradotto in proteine. Tali valori sono molto più bassi rispetto ai virus giganti di altre famiglie (ad esempio, il 90% del genoma di Mimivirus11 è tradotto), in parte a causa delle UTR più grandi che fiancheggiano i geni del pandoravirus.

Genomica comparativa

I sei set di geni codificanti proteine ottenuti dalla precedente annotazione rigorosa sono stati quindi utilizzati come riferimenti per confronti di tutto il genoma con l’obiettivo di identificare caratteristiche specifiche della famiglia Pandoraviridae. Seguendo un clustering basato sulla similarità di sequenza (vedi Metodi), sono state calcolate le sovrapposizioni relative dei contenuti genici dei vari ceppi (Fig. 2a), producendo ciò che chiamiamo “cluster proteici”.

Fig. 2
figure2

Confronto dei contenuti del gene pandoravirus. a Viene mostrata la distribuzione di tutte le combinazioni di cluster proteici condivisi. L’inserto riassume il numero di cluster e geni condivisi da 6, 5, 4, 3, 2, e 1 pandoravirus. b Nucleo genoma e pan-genoma stimato dai sei pandoravirus disponibili. Il parametro α della legge heap stimata (α < 1) è caratteristico di un pan-genome50 aperto e il valore del parametro di fluidità caratteristico di una grande frazione di geni unici51. I riquadri mostrano la mediana, il 25 ° e il 75 ° percentile. I baffi corrispondono ai punti dati estremi

Abbiamo quindi calcolato il numero di condivisioni (cioè,” core”) e geni totali come abbiamo incorporato in modo incrementale i genomi dei vari isolati nell’analisi di cui sopra, per stimare la dimensione del set genico nucleo familiare e quella del set genico accessorio/flessibile. Se i sei isolati disponibili sembravano sufficienti a delineare un genoma di base che codifica per 455 diversi cluster proteici, la “curva di saturazione” che porta al set genico totale è lontana dal raggiungere un plateau, suggerendo che il pan-genoma di Pandoraviridae è aperto, con ogni isolato aggiuntivo previsto per contribuire a più di 50 geni aggiuntivi (Fig. 2 ter). Ciò deve essere confermato dall’analisi di ulteriori isolati di Pandoraviridae.

Abbiamo quindi studiato la somiglianza globale dei sei isolati di pandoravirus analizzando il loro contenuto genetico condiviso sia in termini di somiglianza della sequenza proteica che di posizione genomica. La somiglianza a coppie tra i diversi isolati di pandoravirus varia dal 54 all ‘ 88%, come calcolato da un super allineamento dei prodotti proteici dei geni ortologhi (Tabella supplementare 2). Un albero filogenetico calcolato con gli stessi dati raggruppa i pandoravirus in due cladi separati(Fig. 3).

Fig. 3
figure3

Struttura filogenetica della famiglia Pandoraviridae proposta. I valori di Bootstrap stimati dal ricampionamento sono tutti uguali a 1 e quindi non sono stati segnalati. Sinonimo di tassi di sostituzione non sinonimi i rapporti (ω) sono stati calcolati per i due cladi separati e sono significativamente diversi (la barra di scala è 0.07 substitution/site)

Interpretato in un contesto geografico, questo modello di clustering trasmette due importanti proprietà della famiglia emergente. Da un lato, i ceppi più divergenti non sono quelli isolati dalle località più lontane (ad esempio, il cileno P. salinus contro il francese P. quercus; il neo-caledoniano P. neocaledonia contro l’australiano P. macleodensis). D’altra parte, due isolati (ad esempio, P. dulcis contro P. macleodensis) da ambienti identici (due stagni situati a 700 m l’uno dall’altro e collegati da un piccolo flusso d’acqua) sono molto diversi. In attesa di un inventario su larga scala dei Pandoraviridae, questi risultati suggeriscono già che i membri di questa famiglia sono distribuiti in tutto il mondo con diversità locali e globali simili.

La nostra analisi delle posizioni dei geni omologhi nei vari genomi ha rivelato che nonostante la loro divergenza di sequenza (Tabella supplementare 2), l ‘ 80% dei geni ortologhi rimane collineare. Come mostrato in Fig. 4, l’architettura a lungo raggio dei genomi pandoravirus (cioè, in base alle posizioni dei geni ortologhi) è conservato globalmente, nonostante le loro differenze nelle dimensioni (1.83-2.47 Mb). Tuttavia, la metà dei cromosomi pandoravirus (la regione più a sinistra in Fig. 4) curiosamente appare evolutivo più stabile rispetto all’altra metà dove si verificano la maggior parte dei segmenti non omologhi. Questi segmenti contengono geni specifici del ceppo e sono arricchiti in duplicazioni tandem di proteine contenenti motivi ankyrin, MORN e F-box non ortologhi. Al contrario, la metà stabile del genoma concentra la maggior parte dei geni che costituiscono il genoma nucleo Pandoraviridae (in alto Fig. 4). È interessante notare che l’inversione locale che distingue il cromosoma di P. neocaledonia dagli altri ceppi si trova vicino al confine tra le regioni stabili e instabili e può essere collegata a questa transizione (anche se può essere casuale). Infine, tutti i genomi sono anche arricchiti in geni specifici del ceppo (e / o duplicazioni) ad entrambe le estremità.

Fig. 4
figure4

Collinearità dei genomi di pandoravirus disponibili. La frequenza cumulativa dei geni core è mostrata in alto. I blocchi collineari conservati sono colorati nello stesso colore in tutti i virus. I blocchi bianchi corrispondono a segmenti di DNA non conservati (la barra di scala è 500 kb)

Abbiamo quindi analizzato la distribuzione delle proteine previste tra le grandi categorie funzionali standard (Fig. 5). Poiché è ormai ricorrente per i virus a DNA eucarioti grandi e giganti, la categoria dominante è di gran lunga quella delle proteine prive di firme funzionali riconoscibili. Attraverso i sei ceppi, una media del 70% delle proteine previste corrisponde a “funzioni sconosciute”. Una proporzione così elevata è tanto più notevole in quanto si applica a set di geni accuratamente validati, da cui sono stati eliminati ORF dubbiosi. È quindi una realtà biologica che una grande maggioranza di queste proteine virali non può essere collegata a percorsi precedentemente caratterizzati. Sorprendentemente, la percentuale di tali proteine anonime rimane piuttosto alta (65%) tra i prodotti del genoma del nucleo del pandoravirus, cioè tra i geni presumibilmente essenziali condivisi dai sei ceppi disponibili (e probabilmente tutti i futuri membri della famiglia, secondo Fig. 2 ter). È interessante notare che questa percentuale rimane anche molto alta (≈80%) tra le proteine rilevate come costituenti le particelle virali. Inoltre, la percentuale di proteine anonime domina totalmente la classificazione dei geni unici per ogni ceppo, a più del 95%. La categoria funzionale più generica,” interazione proteina–proteina “è la successiva più grande (dall’ 11,7 al 18,9%), corrispondente alla rilevazione di motivi molto frequenti e non informativi (ad esempio, ripetizioni di ankyrin). Nel complesso, la percentuale di proteine pandoravirus a cui potrebbe essere attribuita una funzione veramente informativa è <20%, incluso un macchinario completo per la replicazione e la trascrizione del DNA.

Fig. 5
figure5

annotazioni Funzionali

Abbiamo quindi studiato due processi evolutivi, eventualmente, all’origine di un extra-grandi dimensioni del pandoravirus genomi: trasferimento genico orizzontale (HGTs) e duplicazioni del gene. L’acquisizione di geni da parte di HGT è stata spesso invocata per spiegare la dimensione del genoma dei virus che infettano ameba rispetto ai virus” regolari ” 12, 13. Abbiamo calcolato che fino a un terzo delle proteine del pandoravirus presentano somiglianze di sequenza (al di fuori della famiglia Pandoraviridae) con proteine dei tre domini cellulari (Eukarya, Archaea e Eubacteria) o altri virus (Fig. 4). Tuttavia, tali somiglianze non implicano che questi geni siano stati acquisiti orizzontalmente. Potrebbero anche denotare un’origine ancestrale comune o un trasferimento da un pandoravirus ad altri microrganismi. Abbiamo analizzato individualmente la posizione filogenetica di ciascuno di questi casi per dedurne la probabile origine: ancestrale-quando si trova al di fuori di cluster di omologhi cellulari o virali; acquisito orizzontalmente—quando si trova profondamente incorporato nei cluster di cui sopra; o trasferito orizzontalmente a organismi cellulari o virus non correlati nella situazione inversa (cioè, una proteina cellulare che si trova all’interno di un cluster di proteine pandoravirus). Fig.supplementare 6 riassume i risultati di questa analisi.

Potremmo fare una diagnosi HGT inequivocabile per il 39% dei casi, il resto rimane indecidibile o compatibile con un’origine ancestrale. Tra i probabili HGT, il 49% ha suggerito un guadagno orizzontale da parte dei pandoravirus e il 51% il trasferimento di un gene da un pandoravirus. È interessante notare che l’acquisizione di geni ospiti, un processo solitamente invocato come importante nell’evoluzione dei virus, rappresenta solo una piccola percentuale (13%) degli HGT diagnosticati, quindi meno che dai virus all’ospite (18%). Combinando le statistiche di cui sopra con la percentuale di geni (un terzo) da cui siamo partiti, nell’intero genoma, suggerisce che al massimo il 15% (e almeno il 6%) del contenuto genico del pandoravirus potrebbe essere stato ottenuto da organismi cellulari (incluso il 5-2% dal loro ospite contemporaneo di Acanthamoeba) o da altri virus. Tale intervallo di valori è paragonabile a quello precedentemente stimato per Mimivirus14. L’HGT non è quindi il processo distintivo all’origine dei genomi del pandoravirus gigante.

Abbiamo quindi studiato la prevalenza di duplicazioni tra i geni del pandoravirus. La figura 6a confronta le proporzioni di geni codificanti proteine singoli o duplicati (o più) dei sei pandoravirus disponibili con quella calcolata per i rappresentanti delle altre tre famiglie note di virus giganti a DNA che infettano l’Acanthamoeba. Mostra chiaramente che la percentuale di geni a copia multipla (che vanno dal 55 al 44%) è più alta nei pandoravirus, rispetto alle altre famiglie di virus, sebbene non sia perfettamente correlata con le rispettive dimensioni del genoma. Le distribuzioni delle dimensioni dei cluster tra i diversi ceppi di pandoravirus sono simili. La maggior parte dei geni a copia multipla si trovano in cluster di dimensione 2 (duplicazione) o 3 (triplicazione). Il numero di cluster più grandi diminuisce quindi con la loro dimensione (Fig. 7).

Fig. 6
figure6

Analisi della duplicazione genica in varie famiglie di virus giganti. una distribuzione di geni a copia singola contro copia multipla in virus giganti. b Numero di cluster di geni distinti

Meno cluster di grandi dimensioni (dimensione> 20) corrispondono a proteine che condividono motivi di interazione proteina–proteina, come le ripetizioni Ankyrin, MORN e F-box. Sorprendentemente, il numero assoluto di geni a copia singola nei pandoravirus è simile e talvolta più piccolo (ad esempio, P. neocaledonia, 2 Mb) rispetto a quello dei Mimivirus, con un genoma (1,18 Mb) della metà delle dimensioni. Nel complesso, il numero di cluster di geni distinti (Fig. 6b) si sovrappone tra i Pandoraviridae (da 607 a 775) e Mimivirus (687), suggerendo che nonostante la loro differenza nel genoma e nelle dimensioni delle particelle, questi virus condividono complessità genetiche comparabili.

La duplicazione del gene essendo una caratteristica così importante dei genomi del pandoravirus, l’abbiamo studiata ulteriormente cercando maggiori informazioni sul suo meccanismo. In primo luogo, abbiamo calcolato le distanze genomiche tra coppie di paralog più vicini, molto probabilmente derivanti dagli eventi di duplicazione più recenti. Le distribuzioni di queste distanze, simili per ogni pandoravirus, indicano che i paralog più vicini si trovano più spesso l’uno accanto all’altro (distanza = 1) o separati da un singolo gene (distanza = 2) (Fig. 8).

Abbiamo quindi tentato di correlare la distanza fisica che separa i geni duplicati con la loro divergenza di sequenza come stima (approssimativa) della loro distanza evolutiva. Abbiamo ottenuto una correlazione significativa tra l ‘ “età” stimata dell’evento di duplicazione e la distanza genomica dei due paralog più vicini (Fig. 9). Questi risultati suggeriscono uno scenario evolutivo in cui la maggior parte delle duplicazioni si verificano per la prima volta in tandem, con successive alterazioni del genoma (inserimenti, inversioni e perdite geniche) che confondono progressivamente questo segnale.

Proteomica comparativa dei pandoravirioni

La nostra precedente analisi proteomica di spettrometria di massa delle particelle di P. salinus ha identificato 210 prodotti genici virali, la maggior parte dei quali ORFani o senza funzione prevedibile. Inoltre, abbiamo rilevato 56 proteine ospite (Acantamoeba). È importante sottolineare che nessuno dei componenti dell’apparato di trascrizione codificato dal virus è stato rilevato nelle particelle5. In questo lavoro abbiamo eseguito le stesse analisi su P. salinus, P. dulcis, e due dei nuovi isolati (P. quercus e P. neocaledonia) per determinare in che misura le caratteristiche di cui sopra sono stati conservati per i membri del Pandoraviridae famiglia con vari livelli di divergenza, e identificare il core rispetto a un accessorio componenti di un generico pandoravirion.

A causa del costante miglioramento della sensibilità nella spettrometria di massa, le nostre nuove analisi dei virioni purificati hanno portato all’identificazione affidabile di 424 proteine per P. salinus, 357 per P. quercus, 387 per P. dulcis e 337 per P. neocaledonia (vedi Metodi). Tuttavia, questo numero maggiore di identificazioni corrisponde a valori di abbondanza (quantificazione assoluta basata sull’intensità, iBAQ) che coprono più di cinque ordini di grandezza. Molte delle proteine identificate nella coda a bassa abbondanza potrebbero quindi non corrispondere a componenti di particelle in buona fede, ma a astanti caricati casualmente, proteine “appiccicose” o contaminanti residui provenienti da cellule infette. Questa cauta interpretazione è suggerita da diverse osservazioni:

  • la bassa abbondanza di coda è progressivamente arricchito in proteine virali identificati nelle particelle di un singolo pandoravirus ceppo (anche se altri ceppi di possedere i geni omologhi),

  • la percentuale di host proteine codificate putativamente associato alle particelle aumenta al minor abbondanza,

  • molte di queste proteine sono state precedentemente rilevate in particelle di virus estranei alla pandoraviruses ma infettare lo stesso host,

  • queste proteine sono abbondanti in Acanthamoeba proteoma (ad es., actina, perossidasi, ecc) che li rende più probabilità di essere trattenuti come contaminanti di purificazione.

Sfortunatamente, le distribuzioni di valore iBAQ associate ai proteomi pandoravirion non hanno mostrato una discontinuità che potrebbe servire come soglia di abbondanza oggettiva per distinguere i componenti di particelle in buona fede da quelli dubbi. Tuttavia, il numero di proteine Acanthamoeba identificate aumenta bruscamente dopo il rango ≈200 nell’intero proteoma (Fig. 10). Seguendo lo stesso atteggiamento conservativo della riannotazione del genoma, abbiamo deciso di ignorare le proteine identificate al di sotto di questo rango come probabili astanti e abbiamo incluso solo le 200 proteine più abbondanti nelle nostre ulteriori analisi dei proteomi delle particelle (Dati supplementari 1, Tabella supplementare 3). Usando questa definizione rigorosa del proteoma per ciascuno dei quattro pandoravirioni differenti, in primo luogo abbiamo studiato la diversità delle loro proteine costituenti ed il loro livello di conservazione confrontato al contenuto globale del gene dei genomi corrispondenti del pandoravirus.

La figura 7 mostra che i proteomi delle particelle includono proteine appartenenti a 194 cluster distinti, 102 dei quali sono condivisi dai quattro ceppi. Il proteoma di base è quindi strutturalmente e funzionalmente diverso. Corrisponde al 52,6% dei cluster proteici totali identificati globalmente in tutti i pandoravirioni. In confronto, i 467 cluster proteici codificati dal genoma principale rappresentano solo il 41,6% (cioè 467/1122) del numero complessivo di cluster proteici codificati da pandoravirus. La “scatola” del pandoravirus utilizzata per propagare i genomi dei diversi ceppi è quindi significativamente più conservata del loro contenuto genico (p ” 10-3, test del chi-quadrato). I geni che codificano il proteoma di base mostrano anche la più forte selezione purificante tra tutti i geni pandoravirus (Fig. 11 bis).

Fig. 7
figure7

diagramma di Venn della particella proteomi di quattro diversi pandoravirus ceppi

Per valutare l’affidabilità della nostra analisi del proteoma abbiamo confrontato l’abbondanza (iBAQ) i valori determinati per ciascuna delle 200 più abbondanti proteine per i due tecnici replica e per due repliche biologiche eseguite lo stesso pandoravirus ceppo (Complementare Fig. 12a& b). Una correlazione molto buona (R di Pearson > 0.97) è stato ottenuto in entrambi i casi per valori di abbondanza che vanno oltre tre ordini di grandezza. Abbiamo quindi confrontato i valori di iBAQ ottenuti per proteine ortologhe condivise dai proteomi virionici di diversi isolati. Anche in questo caso, è stata osservata una buona correlazione (R > 0.81), come previsto più piccola rispetto alle repliche precedenti (Fig. 12c& d). Questi risultati suggeriscono che sebbene le particelle dei diversi ceppi appaiano morfologicamente identiche (Fig. 1), ammettono una flessibilità tangibile sia in termini di insiemi proteici di cui sono fatti (con l ‘ 89% di ortologhi a coppie in media), sia nella loro stechiometria precisa.

Abbiamo quindi esaminato le funzioni previste delle proteine che compongono le particelle, dalle più abbondanti alle meno abbondanti, sperando di ottenere alcune intuizioni sul processo infettivo precoce. Sfortunatamente, solo 19 cluster proteici potrebbero essere associati a un motivo funzionale/strutturale dei 102 diversi cluster che definiscono il proteoma della particella principale (Dati supplementari 1, Tabella supplementare 3). Questa proporzione è inferiore a quella dell’intero genoma (Fig. 5), confermando la natura aliena della particella pandoravirus come già suggerito dalla sua morfologia unica e dal suo processo di assemblaggio5. I pandoravirioni sono per lo più costituiti da proteine senza omologhi al di fuori della famiglia Pandoraviridae. Nessuna proteina nemmeno lontanamente simile alla proteina principale del capside (MCP) solitamente abbondante, una proteina di nucleo DNA-legante prevista, o un ATPasi DNA-packaging, caratteristiche della maggior parte dei virus a DNA di grandi dimensioni eucarioti, viene rilevato. In particolare, un P. salinus ipotetica proteina (precedentemente ps_862 ora riannotato psal_cds_450) recentemente suggerito da Sinclair et al.15 per essere un forte candidato MCP non è stato rilevato nei virioni P. salinus, né i suoi omologhi negli altri proteomi di ceppo. Questo risultato negativo sottolinea la necessità della convalida sperimentale delle previsioni del computer fatte dalla “zona crepuscolare” della somiglianza delle sequenze. Nessuna traccia della RNA polimerasi codificata dal pandoravirus viene rilevata, confermando che lo stadio iniziale dell’infezione richiede il macchinario di trascrizione dell’ospite situato nel nucleo. Gli introni spliceosomiali sono stati convalidati per 56 geni di pandoravirus i cui prodotti sono stati rilevati nei pandoravirioni (Dati supplementari 1). Ciò indica la conservazione di uno spliceosoma funzionale fino alla fine del ciclo infettivo, come previsto dall’osservazione di nuclei ininterrotti (Fig. 1).

Tra i 19 cluster proteici non anonimi, 4 presentano motivi generici senza indizio funzionale specifico: 2 domini simili al collagene e 1 dominio simile a Pan / MELA che sono coinvolti nelle interazioni proteina-proteina e 1 dominio simile a cupina corrispondente a una piega generica del barile. Tra le 10 proteine core più abbondanti, 9 non hanno alcuna funzione prevista, ad eccezione di 1 che mostra un dominio tioredossina-simile C-terminale (psal_cds_383). Vale la pena notare che il segmento di membrana previsto di 22 aminoacidi (85-107) è conservato in tutti i ceppi di pandoravirus. Il 5 ‘ UTR dei geni corrispondenti mostra 2 introni (in P. salinus, P. dulcis e P. quercus) e 1 in P. neocaledonia. La tioredossina catalizza le reazioni di scambio ditiolo-disolfuro attraverso l’ossidazione reversibile del suo centro attivo. Questa proteina, con un’altra della stessa famiglia (psal_cds_411, predetta come solubile), potrebbe essere coinvolta nella riparazione/prevenzione dei danni ossidativi indotti dal fagosoma alle proteine virali prima della fase iniziale dell’infezione. Le particelle condividono anche un altro enzima redox abbondante, una tiolo ossidoreduttasi simile a ERV che può essere coinvolta nella maturazione delle proteine Fe / S. Un’altra proteina di nucleo (psal_cds_1260) con una somiglianza remota a una tioredossina reduttasi può partecipare alla rigenerazione dei siti attivi ossidati degli enzimi di cui sopra. Tra le proteine core più abbondanti, psal_cds_232 è previsto come legame al DNA e può essere coinvolto nel confezionamento del genoma. Una ammina ossidasi putativa NAD-dipendente (psal_cds_628) e una deidrogenasi accoppiata a FAD (psal_cds_1132) completano il pannello di enzimi redox putativi conservati. Altre proteine core previste includono una chinasi Ser / thr e fosfatasi che sono tipiche funzioni regolatorie. Una serina proteasi, una lipasi, una fosfolipasi simile alla patatina e un omologo remoto di una nucleoporina potrebbero essere parte della cassetta degli attrezzi utilizzata per traghettare i genomi del pandoravirus al citoplasma e quindi al nucleo (Tabella supplementare 3). Infine, due proteine principali (psal_cds_118 e psal_cds_874) condividono un motivo endoribonucleasi e potrebbero funzionare come regolatori trascrizionali mirati all’mRNA cellulare.

Al contrario della definizione dell’insieme di proteine core condivise da tutti i pandoravirioni, abbiamo anche studiato i componenti specifici del ceppo. Sfortunatamente, la maggior parte delle proteine del virione uniche per un dato ceppo (circa 10 in media) sono anonime e in bassa abbondanza. Nessuna previsione potrebbe essere fatta circa la conseguenza funzionale della loro presenza nelle particelle.