Fig. 6
Analisi della duplicazione genica in varie famiglie di virus giganti. una distribuzione di geni a copia singola contro copia multipla in virus giganti. b Numero di cluster di geni distinti
Meno cluster di grandi dimensioni (dimensione> 20) corrispondono a proteine che condividono motivi di interazione proteina–proteina, come le ripetizioni Ankyrin, MORN e F-box. Sorprendentemente, il numero assoluto di geni a copia singola nei pandoravirus è simile e talvolta più piccolo (ad esempio, P. neocaledonia, 2 Mb) rispetto a quello dei Mimivirus, con un genoma (1,18 Mb) della metà delle dimensioni. Nel complesso, il numero di cluster di geni distinti (Fig. 6b) si sovrappone tra i Pandoraviridae (da 607 a 775) e Mimivirus (687), suggerendo che nonostante la loro differenza nel genoma e nelle dimensioni delle particelle, questi virus condividono complessità genetiche comparabili.
La duplicazione del gene essendo una caratteristica così importante dei genomi del pandoravirus, l’abbiamo studiata ulteriormente cercando maggiori informazioni sul suo meccanismo. In primo luogo, abbiamo calcolato le distanze genomiche tra coppie di paralog più vicini, molto probabilmente derivanti dagli eventi di duplicazione più recenti. Le distribuzioni di queste distanze, simili per ogni pandoravirus, indicano che i paralog più vicini si trovano più spesso l’uno accanto all’altro (distanza = 1) o separati da un singolo gene (distanza = 2) (Fig. 8).
Abbiamo quindi tentato di correlare la distanza fisica che separa i geni duplicati con la loro divergenza di sequenza come stima (approssimativa) della loro distanza evolutiva. Abbiamo ottenuto una correlazione significativa tra l ‘ “età” stimata dell’evento di duplicazione e la distanza genomica dei due paralog più vicini (Fig. 9). Questi risultati suggeriscono uno scenario evolutivo in cui la maggior parte delle duplicazioni si verificano per la prima volta in tandem, con successive alterazioni del genoma (inserimenti, inversioni e perdite geniche) che confondono progressivamente questo segnale.
Proteomica comparativa dei pandoravirioni
La nostra precedente analisi proteomica di spettrometria di massa delle particelle di P. salinus ha identificato 210 prodotti genici virali, la maggior parte dei quali ORFani o senza funzione prevedibile. Inoltre, abbiamo rilevato 56 proteine ospite (Acantamoeba). È importante sottolineare che nessuno dei componenti dell’apparato di trascrizione codificato dal virus è stato rilevato nelle particelle5. In questo lavoro abbiamo eseguito le stesse analisi su P. salinus, P. dulcis, e due dei nuovi isolati (P. quercus e P. neocaledonia) per determinare in che misura le caratteristiche di cui sopra sono stati conservati per i membri del Pandoraviridae famiglia con vari livelli di divergenza, e identificare il core rispetto a un accessorio componenti di un generico pandoravirion.
A causa del costante miglioramento della sensibilità nella spettrometria di massa, le nostre nuove analisi dei virioni purificati hanno portato all’identificazione affidabile di 424 proteine per P. salinus, 357 per P. quercus, 387 per P. dulcis e 337 per P. neocaledonia (vedi Metodi). Tuttavia, questo numero maggiore di identificazioni corrisponde a valori di abbondanza (quantificazione assoluta basata sull’intensità, iBAQ) che coprono più di cinque ordini di grandezza. Molte delle proteine identificate nella coda a bassa abbondanza potrebbero quindi non corrispondere a componenti di particelle in buona fede, ma a astanti caricati casualmente, proteine “appiccicose” o contaminanti residui provenienti da cellule infette. Questa cauta interpretazione è suggerita da diverse osservazioni:
la bassa abbondanza di coda è progressivamente arricchito in proteine virali identificati nelle particelle di un singolo pandoravirus ceppo (anche se altri ceppi di possedere i geni omologhi),
la percentuale di host proteine codificate putativamente associato alle particelle aumenta al minor abbondanza,
molte di queste proteine sono state precedentemente rilevate in particelle di virus estranei alla pandoraviruses ma infettare lo stesso host,
queste proteine sono abbondanti in Acanthamoeba proteoma (ad es., actina, perossidasi, ecc) che li rende più probabilità di essere trattenuti come contaminanti di purificazione.
Sfortunatamente, le distribuzioni di valore iBAQ associate ai proteomi pandoravirion non hanno mostrato una discontinuità che potrebbe servire come soglia di abbondanza oggettiva per distinguere i componenti di particelle in buona fede da quelli dubbi. Tuttavia, il numero di proteine Acanthamoeba identificate aumenta bruscamente dopo il rango ≈200 nell’intero proteoma (Fig. 10). Seguendo lo stesso atteggiamento conservativo della riannotazione del genoma, abbiamo deciso di ignorare le proteine identificate al di sotto di questo rango come probabili astanti e abbiamo incluso solo le 200 proteine più abbondanti nelle nostre ulteriori analisi dei proteomi delle particelle (Dati supplementari 1, Tabella supplementare 3). Usando questa definizione rigorosa del proteoma per ciascuno dei quattro pandoravirioni differenti, in primo luogo abbiamo studiato la diversità delle loro proteine costituenti ed il loro livello di conservazione confrontato al contenuto globale del gene dei genomi corrispondenti del pandoravirus.
La figura 7 mostra che i proteomi delle particelle includono proteine appartenenti a 194 cluster distinti, 102 dei quali sono condivisi dai quattro ceppi. Il proteoma di base è quindi strutturalmente e funzionalmente diverso. Corrisponde al 52,6% dei cluster proteici totali identificati globalmente in tutti i pandoravirioni. In confronto, i 467 cluster proteici codificati dal genoma principale rappresentano solo il 41,6% (cioè 467/1122) del numero complessivo di cluster proteici codificati da pandoravirus. La “scatola” del pandoravirus utilizzata per propagare i genomi dei diversi ceppi è quindi significativamente più conservata del loro contenuto genico (p ” 10-3, test del chi-quadrato). I geni che codificano il proteoma di base mostrano anche la più forte selezione purificante tra tutti i geni pandoravirus (Fig. 11 bis).
Fig. 7
diagramma di Venn della particella proteomi di quattro diversi pandoravirus ceppi
Per valutare l’affidabilità della nostra analisi del proteoma abbiamo confrontato l’abbondanza (iBAQ) i valori determinati per ciascuna delle 200 più abbondanti proteine per i due tecnici replica e per due repliche biologiche eseguite lo stesso pandoravirus ceppo (Complementare Fig. 12a& b). Una correlazione molto buona (R di Pearson > 0.97) è stato ottenuto in entrambi i casi per valori di abbondanza che vanno oltre tre ordini di grandezza. Abbiamo quindi confrontato i valori di iBAQ ottenuti per proteine ortologhe condivise dai proteomi virionici di diversi isolati. Anche in questo caso, è stata osservata una buona correlazione (R > 0.81), come previsto più piccola rispetto alle repliche precedenti (Fig. 12c& d). Questi risultati suggeriscono che sebbene le particelle dei diversi ceppi appaiano morfologicamente identiche (Fig. 1), ammettono una flessibilità tangibile sia in termini di insiemi proteici di cui sono fatti (con l ‘ 89% di ortologhi a coppie in media), sia nella loro stechiometria precisa.
Abbiamo quindi esaminato le funzioni previste delle proteine che compongono le particelle, dalle più abbondanti alle meno abbondanti, sperando di ottenere alcune intuizioni sul processo infettivo precoce. Sfortunatamente, solo 19 cluster proteici potrebbero essere associati a un motivo funzionale/strutturale dei 102 diversi cluster che definiscono il proteoma della particella principale (Dati supplementari 1, Tabella supplementare 3). Questa proporzione è inferiore a quella dell’intero genoma (Fig. 5), confermando la natura aliena della particella pandoravirus come già suggerito dalla sua morfologia unica e dal suo processo di assemblaggio5. I pandoravirioni sono per lo più costituiti da proteine senza omologhi al di fuori della famiglia Pandoraviridae. Nessuna proteina nemmeno lontanamente simile alla proteina principale del capside (MCP) solitamente abbondante, una proteina di nucleo DNA-legante prevista, o un ATPasi DNA-packaging, caratteristiche della maggior parte dei virus a DNA di grandi dimensioni eucarioti, viene rilevato. In particolare, un P. salinus ipotetica proteina (precedentemente ps_862 ora riannotato psal_cds_450) recentemente suggerito da Sinclair et al.15 per essere un forte candidato MCP non è stato rilevato nei virioni P. salinus, né i suoi omologhi negli altri proteomi di ceppo. Questo risultato negativo sottolinea la necessità della convalida sperimentale delle previsioni del computer fatte dalla “zona crepuscolare” della somiglianza delle sequenze. Nessuna traccia della RNA polimerasi codificata dal pandoravirus viene rilevata, confermando che lo stadio iniziale dell’infezione richiede il macchinario di trascrizione dell’ospite situato nel nucleo. Gli introni spliceosomiali sono stati convalidati per 56 geni di pandoravirus i cui prodotti sono stati rilevati nei pandoravirioni (Dati supplementari 1). Ciò indica la conservazione di uno spliceosoma funzionale fino alla fine del ciclo infettivo, come previsto dall’osservazione di nuclei ininterrotti (Fig. 1).
Tra i 19 cluster proteici non anonimi, 4 presentano motivi generici senza indizio funzionale specifico: 2 domini simili al collagene e 1 dominio simile a Pan / MELA che sono coinvolti nelle interazioni proteina-proteina e 1 dominio simile a cupina corrispondente a una piega generica del barile. Tra le 10 proteine core più abbondanti, 9 non hanno alcuna funzione prevista, ad eccezione di 1 che mostra un dominio tioredossina-simile C-terminale (psal_cds_383). Vale la pena notare che il segmento di membrana previsto di 22 aminoacidi (85-107) è conservato in tutti i ceppi di pandoravirus. Il 5 ‘ UTR dei geni corrispondenti mostra 2 introni (in P. salinus, P. dulcis e P. quercus) e 1 in P. neocaledonia. La tioredossina catalizza le reazioni di scambio ditiolo-disolfuro attraverso l’ossidazione reversibile del suo centro attivo. Questa proteina, con un’altra della stessa famiglia (psal_cds_411, predetta come solubile), potrebbe essere coinvolta nella riparazione/prevenzione dei danni ossidativi indotti dal fagosoma alle proteine virali prima della fase iniziale dell’infezione. Le particelle condividono anche un altro enzima redox abbondante, una tiolo ossidoreduttasi simile a ERV che può essere coinvolta nella maturazione delle proteine Fe / S. Un’altra proteina di nucleo (psal_cds_1260) con una somiglianza remota a una tioredossina reduttasi può partecipare alla rigenerazione dei siti attivi ossidati degli enzimi di cui sopra. Tra le proteine core più abbondanti, psal_cds_232 è previsto come legame al DNA e può essere coinvolto nel confezionamento del genoma. Una ammina ossidasi putativa NAD-dipendente (psal_cds_628) e una deidrogenasi accoppiata a FAD (psal_cds_1132) completano il pannello di enzimi redox putativi conservati. Altre proteine core previste includono una chinasi Ser / thr e fosfatasi che sono tipiche funzioni regolatorie. Una serina proteasi, una lipasi, una fosfolipasi simile alla patatina e un omologo remoto di una nucleoporina potrebbero essere parte della cassetta degli attrezzi utilizzata per traghettare i genomi del pandoravirus al citoplasma e quindi al nucleo (Tabella supplementare 3). Infine, due proteine principali (psal_cds_118 e psal_cds_874) condividono un motivo endoribonucleasi e potrebbero funzionare come regolatori trascrizionali mirati all’mRNA cellulare.
Al contrario della definizione dell’insieme di proteine core condivise da tutti i pandoravirioni, abbiamo anche studiato i componenti specifici del ceppo. Sfortunatamente, la maggior parte delle proteine del virione uniche per un dato ceppo (circa 10 in media) sono anonime e in bassa abbondanza. Nessuna previsione potrebbe essere fatta circa la conseguenza funzionale della loro presenza nelle particelle.