Articles

Diversidad y evolución de la familia Pandoraviridae emergente

Muestreo ambiental y aislamiento de cepas de pandoravirus

Utilizamos el mismo protocolo de aislamiento que condujo al descubrimiento de P. salinus y P. dulcis5. Consiste en mezclar el material muestreado con cultivos de Acanthamoeba adaptados a concentraciones de antibióticos lo suficientemente altas como para inhibir el crecimiento de otros microorganismos ambientales (especialmente bacterias y hongos). Se tomaron muestras aleatoriamente de ambientes húmedos susceptibles a células de Acanthamoeba. Esto llevó al aislamiento de tres nuevas cepas de pandoravirus: P. quercus, P. neocaledonia y P. macleodensis (Tabla 1, ver Métodos). Presentan una divergencia adecuada para comenzar a evaluar las características conservadas y la variabilidad de la familia Pandoraviridae emergente. Cuando es apropiado, nuestros análisis también incluyen datos de P. inopinatum, aislado en un laboratorio alemán de un paciente con queratitis de Acanthamoeba 7.

Datos de la tabla 1 sobre los aislados de pandoravirus utilizados en este trabajo

Estudio de los ciclos de replicación y ultraestructuras de viriones

A partir de partículas purificadas inoculadas en cultivos de A. castellanii, se analizó el ciclo infeccioso de cada aislado utilizando microscopía electrónica de luz y transmisión (sección ultrafina). Como se observó anteriormente para P. salinus y P. dulcis, se encontró que los ciclos de replicación de estos nuevos pandoravirus duraban un promedio de 12 h5 (8 h para el P más rápido. neocaledonia). El proceso infeccioso es el mismo para todos los virus, comenzando con la internalización de partículas individuales por las células de Acanthamoeba. Tras la apertura de su poro apical, las partículas («pandoraviriones») transfieren su contenido translúcido al citoplasma a través de la fusión de la membrana interna del virión con la del fagosoma. La etapa inicial de la infección es notablemente similar para todos los aislados. Mientras hemos informado anteriormente de que el núcleo de la célula fue completamente removida durante la etapa tardía de la infección cycle5, la observación minuciosa de las nuevas cepas reveló neo-sintetizado partículas en el citoplasma de las células que exhiben núcleo-como los compartimentos en que el nucleolo ya no era reconocible (Complementario de la Fig. 1). Ocho horas después de la infección, viriones maduros se hicieron visibles en vacuolas y se liberaron a través de exocitosis (Película Suplementaria). Para todos los aislados, el ciclo replicativo termina con la lisis celular y la liberación de un centenar de partículas (Fig. 1).

Fig. 1
figura 1.

La nueva pandoravirus aislados. a Overproduction by an A. castellanii cell of Pandoravirus macleodensis virions from the environmental sample prior cell lisis. Se pueden observar bacterias ambientales en el medio de cultivo junto con viriones de P. macleodensis. (la barra de escala es de 10 µm). imagen TEM de una sección ultrafina de la célula de A. castellanii durante la fase temprana de la infección por P. neocaledonia. Los pseudópodos de ameba están listos para envolver a los viriones circundantes. Diez minutos pi, viriones han sido engullidos y están en vacuolas (la barra de escala es de 500 nm). c imagen TEM de una sección ultrafina de la célula A. castellanii durante el proceso de ensamblaje de un virión de P. salinus (la barra de escala es de 500 nm). imagen de una sección ultrafina de un virión naciente de P. quercus. (la barra de escala es de 500 nm). Las estructuras de las partículas maduras de las diferentes cepas no muestran ninguna diferencia notable

Secuenciación y anotación del genoma

ADN genómico de P. neocaledonia, P. macleodensis y P. los quercus se prepararon a partir de partículas purificadas y se secuenciaron utilizando las plataformas PacBio o Illumina (ver Métodos). En cuanto a P. salinus, P. dulcis5 y P. inopinatum7, los tres nuevos genomas se ensamblaron como moléculas de ADN de doble cadena lineal simple (ADND) (≈60% G + C) con tamaños que oscilan entre 1,84 y 2 Mb. Además de sus partículas translúcidas en forma de ánfora (Fig. 1), un contenido de G + C superior a la media y el gigantismo genómico, por lo tanto, siguen siendo rasgos característicos compartidos por los Pandoravirida5, 8. Dada la alta proporción de genes virales que codifican proteínas sin homólogo de base de datos, las predicciones de genes basadas en enfoques computacionales puramente ab initio (es decir, estimaciones de propensión a «ORFing» y codificación) son notoriamente poco confiables, lo que lleva a inconsistencias entre equipos que usan diferentes valores de parámetros arbitrarios (por ejemplo, tamaño de marco de lectura abierto mínimo (ORF)). Por ejemplo, entre las familias de grandes virus dsDNA que infectan a los eucariotas, la densidad media de genes codificadores de proteínas varía de un gen cada 335 bp (Phycodnaviridae, NCBI: NC_008724) hasta un gen cada 2120 bp (Herpesviridae, NCBI: NC_003038), mientras que el consenso está claramente en torno a un gen cada kb (como para bacterias). Como resultado, uno oscila entre situaciones en las que muchos genes están sobre predicidos y otras en las que muchos genes reales probablemente se pasan por alto. Tal incertidumbre sobre qué genes son «reales» introduce un ruido significativo en los análisis genómicos comparativos y las pruebas posteriores de hipótesis evolutivas. Además, los métodos computacionales son en su mayoría ciegos a los genes expresados como transcripciones no codificantes de proteínas.

Para superar las limitaciones anteriores, realizamos experimentos de ARN-seq específicos de hebras y análisis de proteomas de partículas, cuyos resultados se mapearon en las secuencias del genoma. Solo los genes apoyados por evidencia experimental (o similitud de proteínas) se retuvieron en este estricto protocolo de reasignación (ver Métodos, Suplemento Fig. 2). Por un lado, este nuevo procedimiento condujo a un conjunto reducido de proteínas predichas, por otro, permitió el descubrimiento de un gran número inesperado de transcripciones no codificantes (Tabla 1).

El nuevo conjunto de genes codificadores de proteínas validados muestra una proporción fuertemente disminuida de ORF menores de 100 residuos, la mayoría de los cuales son únicos para cada cepa de pandoravirus (Suplemento Fig. 3). El estricto procedimiento de anotación también resultó en genes que exhibían una distribución unimodal bien centrada de los valores del índice de adaptación de codones (CAI) (Fig. 3).

Para la consistencia, extrapolamos nuestro estricto protocolo de anotación a P. inopinatum y P. macleodensis, reduciendo el número de proteínas previstas que se tienen en cuenta en comparaciones adicionales (ver Métodos, Tabla 1). Como era de esperar, las discrepancias entre las predicciones genéticas estándar y estrictas se deben simplemente a la sobrepredicción de pequeños ORF (longitud < 300 nucleótidos). Tales ORF arbitrarios son propensos a surgir aleatoriamente en secuencias ricas en G + C dentro de las cuales los codones de parada (TAA, TAG y TGA) son menos propensos a ocurrir por casualidad que en las regiones no codificantes de los genomas ricos en A + T. De hecho, los protocolos de anotación estándar y estrictos anteriores se aplicaron a los ricos en A + T (74.8%) Genoma chilensis de Megavirus 3 dio lugar a dos conjuntos muy similares de genes codificadores de proteínas predichos versus validados (1120 versus 1108). Este control indica que nuestra estricta anotación no es simplemente descartar predicciones genéticas eventualmente correctas al elevar arbitrariamente un umbral de confianza, sino corregir específicamente los errores inducidos por la composición rica en G + C. Los métodos de anotación de genes puramente computacionales son, por lo tanto, marcadamente menos confiables para genomas ricos en G + C, especialmente cuando codifican una gran proporción de orfanos (es decir, ORF sin homólogo de base de datos), como para pandoravirus. Sin embargo, vale la pena notar que incluso después de nuestra estricta re-anotación, la fracción de proteínas predichas sin similitud de secuencia significativa fuera de la familia Pandoraviridae se mantuvo bastante alta (del 67 al 73%, Suplemento Fig. 4).

Un desafío adicional para la anotación precisa de los genomas de pandoravirus es la presencia de intrones (virtualmente indetectables por métodos computacionales cuando interrumpen Orfanes). The mapping of the assembled transcript sequences onto the genomes of P. salinus, P. dulcis, P. quercus, and P. la neocaledonia permitió la detección de intrones spliceosómicos en el 7,5–13% de los genes codificadores de proteínas validados. Estos intrones se encontraron en las regiones no traducidas (UTRs), así como en las secuencias codificantes, incluyendo en promedio 14 genes entre los que codifican las 200 proteínas más abundantes detectadas en las partículas (ver más abajo). Aunque los intrones spliceosómicos se encuentran en otros virus con fase nuclear, como los clorovirusos9, los pandoravirus son los únicos para los que los intrones spliceosómicos han sido validados para más del 10% de sus genes. Estos resultados apoyan nuestra sugerencia anterior de que al menos una parte de las transcripciones del pandoravirus sean sintetizadas y procesadas por la máquina nuclear receptora 5. Sin embargo, el número de intrones por gen viral sigue siendo mucho menor (alrededor de 1,2 en promedio) que para los genes del huésped (6,2 en promedio 10). Los genes del pandoravirus también exhiben UTR dos veces más largos (Tabla suplementaria 1) que los de Mimiviridae 11.

El mapeo de los datos de ARN-seq llevó al descubrimiento inesperado de un gran número (157-268) de transcripciones largas no codificantes (lncRNAs) (Tabla 1, Tabla Suplementaria 1 para estadísticas detalladas). Estos lncRNAs exhiben una cola de poliA y alrededor del 4% de ellos contienen intrones spliceosómicos. Los lncRNAs se transcriben más a menudo de la cadena inversa de genes codificadores de proteínas validados, mientras que una fracción más pequeña se expresa en regiones intergénicas (es decir, inter-ORF) (Fig.Suplementaria. 5). Estas transcripciones no codificantes pueden desempeñar un papel en la regulación de la expresión de los genes del pandoravirus.

En general, el 82,7–87% de los genomas del pandoravirus se transcriben (incluidos ORF, UTRs e lncRNAs), pero solo el 62-68, 2% se traduce a proteínas. Tales valores son mucho más bajos que en los virus gigantes de otras familias (por ejemplo, se traduce el 90% del genoma de Mimivirus11), en parte debido a las UTR más grandes que flanquean los genes del pandoravirus.

Genómica comparativa

Los seis conjuntos de genes codificadores de proteínas obtenidos de la estricta anotación anterior se utilizaron como referencias para comparaciones de genoma completo con el objetivo de identificar características específicas de la familia Pandoraviridae. Siguiendo un agrupamiento basado en la similitud de secuencias (ver Métodos), se calcularon las superposiciones relativas de los contenidos genéticos de las diversas cepas (Fig. 2a), produciendo lo que llamamos «grupos de proteínas».

Fig. 2
figura2

la Comparación de los pandoravirus gen contenidos. a Se muestra la distribución de todas las combinaciones de grupos de proteínas compartidos. El recuadro resume el número de grupos y genes compartidos por 6, 5, 4, 3, 2, y 1 pandoravirus. b Genoma central y pan-genoma estimado a partir de los seis pandoravirus disponibles. El parámetro α de ley de montón estimado (α < 1) es característico de un genoma panabierto50 y el valor del parámetro de fluidez es característico de una gran fracción de genes51 únicos. Las gráficas de caja muestran la mediana, los percentiles 25 y 75. Los bigotes corresponden a los extremos de datos de puntos

Nos calcula el número de compartidos (es decir,, «núcleo») y genes totales a medida que incorporamos de forma incremental los genomas de los diversos aislados en el análisis anterior, para estimar el tamaño del conjunto de genes núcleo de la familia y el del conjunto de genes accesorios/flexibles. Si los seis aislados disponibles parecían suficientes para delinear un genoma central codificado para 455 grupos de proteínas diferentes, la «curva de saturación» que conduce al conjunto total de genes está lejos de alcanzar una meseta, lo que sugiere que el pan-genoma de Pandoraviridae está abierto, y se prevé que cada aislado adicional contribuya con más de 50 genes adicionales (Fig. 2b). Esto queda por confirmar mediante el análisis de otros aislados de Pandoraviridae.

Luego investigamos la similitud global de los seis aislados de pandoravirus mediante el análisis de su contenido genético compartido, tanto en términos de similitud de secuencia de proteínas como de posición genómica. La similitud entre pares entre los diferentes aislados de pandoravirus oscila entre el 54 y el 88%, calculada a partir de una súper alineación de los productos proteicos de los genes ortólogos (Tabla Suplementaria 2). Un árbol filogenético calculado con los mismos datos agrupa los pandoravirus en dos clados separados (Fig. 3).

Fig. 3
figura 3

Estructura filogenética de la familia Pandoraviridae propuesta. Los valores de arranque estimados a partir del remuestreo son todos iguales a 1 y, por lo tanto, no se reportaron. Las relaciones de tasas de sustitución sinónimos a no sinónimos (ω) se calcularon para los dos clados separados y son significativamente diferentes (la barra de escala es 0.07 sustitución / sitio)

Interpretado en un contexto geográfico, este patrón de agrupación transmite dos propiedades importantes de la familia emergente. Por un lado, las cepas más divergentes no son las aisladas de los lugares más distantes (por ejemplo, el P. salinus chileno versus el P. quercus francés; el P. neocaledonio neocaledonia versus el P. macleodensis australiano). Por otro lado, dos aislamientos (por ejemplo, P. dulcis versus P. macleodensis) de ambientes idénticos (dos estanques ubicados a 700 m de distancia y conectados por un pequeño flujo de agua) son bastante diferentes. A la espera de un inventario a mayor escala de Pandoraviridae, estos resultados ya sugieren que los miembros de esta familia están distribuidos en todo el mundo con diversidades locales y globales similares.

Nuestro análisis de las posiciones de los genes homólogos en los distintos genomas reveló que, a pesar de la divergencia de su secuencia (Tabla Suplementaria 2), el 80% de los genes ortólogos permanecen colineales. Como se muestra en la Fig. 4, la arquitectura de largo alcance de los genomas de pandoravirus (i. e., basado en las posiciones de los genes ortólogos) se conserva globalmente, a pesar de sus diferencias de tamaño (1,83–2,47 Mb). Sin embargo, la mitad de los cromosomas del pandoravirus (la región más a la izquierda de la Fig. 4) curiosamente parece evolutivo más estable que la otra mitad, donde ocurren la mayoría de los segmentos no homólogos. Estos segmentos contienen genes específicos de la cepa y están enriquecidos en duplicaciones en tándem de proteínas que contienen motivos de anquirina no ortóloga, MORN y F-box. Por el contrario, la mitad estable del genoma concentra la mayoría de los genes que constituyen el genoma central de Pandoraviridae (parte superior de la Fig. 4). Curiosamente, la inversión local que distingue el cromosoma de P. neocaledonia de las otras cepas se encuentra cerca del límite entre las regiones estable e inestable, y puede estar vinculada a esta transición (aunque puede ser coincidencia). Finalmente, todos los genomas también están enriquecidos en genes específicos de la cepa (y / o duplicaciones) en ambas extremidades.

Fig. 4
figura 4

la Colinealidad de los disponibles pandoravirus genomas. La frecuencia acumulada de los genes centrales se muestra en la parte superior. Los bloques colineales conservados tienen el mismo color en todos los virus. Los bloques blancos corresponden a segmentos de ADN no conservados (la barra de escala es de 500 kb)

A continuación analizamos la distribución de las proteínas predichas entre las categorías funcionales generales estándar (Fig. 5). Como ahora es recurrente para virus de ADN eucariótico grandes y gigantes, la categoría dominante es, con mucho, la de proteínas que carecen de firmas funcionales reconocibles. A través de las seis cepas, un promedio del 70% de las proteínas predichas corresponden a «funciones desconocidas». Una proporción tan alta es tanto más notable cuanto que se aplica a conjuntos de genes cuidadosamente validados, de los que se han eliminado ORF dudosos. Por lo tanto, es una realidad biológica que una gran mayoría de estas proteínas virales no pueden vincularse a vías previamente caracterizadas. Sorprendentemente, la proporción de estas proteínas anónimas sigue siendo bastante alta (65%) entre los productos del genoma central del pandoravirus, que se encuentra entre los genes supuestamente esenciales compartidos por las seis cepas disponibles (y probablemente todos los miembros futuros de la familia, según la Fig. 2b). Curiosamente, esta proporción sigue siendo también muy alta (≈80%) entre las proteínas detectadas como constituyentes de las partículas virales. Además, la proporción de proteínas anónimas domina totalmente la clasificación de genes únicos de cada cepa, en más del 95%. La categoría funcional más genérica, «interacción proteína–proteína», es la siguiente más grande (del 11,7% al 18,9%), correspondiente a la detección de motivos muy frecuentes y poco informativos (por ejemplo, repeticiones de anquirina). En general, la proporción de proteínas de pandoravirus a las que se podría atribuir una función verdaderamente informativa es <20%, incluida una maquinaria completa para la replicación y transcripción del ADN.

Fig. 5
figura 5

Anotaciones funcionales

Luego investigamos dos procesos evolutivos posiblemente en el origen del tamaño extragrande de los genomas del pandoravirus: transferencias horizontales de genes (HGTs) y duplicaciones de genes. La adquisición de genes por TGH se invocó con frecuencia para explicar el tamaño del genoma de los virus que infectan ameba en comparación con los virus «regulares» 12, 13. Calculamos que hasta un tercio de las proteínas de pandoravirus exhiben similitudes de secuencia (fuera de la familia Pandoraviridae) con proteínas de los tres dominios celulares (Eukarya, Archaea y Eubacteria) u otros virus (Suplemento Fig. 4). Sin embargo, tales similitudes no implican que estos genes fueron adquiridos horizontalmente. También podrían denotar un origen ancestral común o una transferencia de un pandoravirus a otros microorganismos. Analizamos individualmente la posición filogenética de cada uno de estos casos para inferir su probable origen: ancestral – cuando se encuentra fuera de grupos de homólogos celulares o virales; adquirido horizontalmente—cuando se encuentra profundamente incrustado en los grupos anteriores; o transferido horizontalmente a organismos celulares o virus no relacionados en la situación inversa (es decir, una proteína celular que se encuentra dentro de un grupo de proteínas de pandoravirus). Suplemento Fig. 6 resume los resultados de este análisis.

Se pudo realizar un diagnóstico inequívoco de TGH para el 39% de los casos, el resto permaneciendo indecidible o compatible con un origen ancestral. Entre los probables TGH, el 49% sugirieron una ganancia horizontal por pandoravirus, y el 51% la transferencia de un gen de un pandoravirus. Curiosamente, la adquisición de genes del huésped, un proceso que generalmente se invoca como importante en la evolución de los virus, solo representa una pequeña proporción (13%) de los TGH diagnosticados, por lo tanto, menos que de los virus al huésped (18%). La combinación de las estadísticas anteriores con la proporción de genes (un tercio) de la que partimos, en todo el genoma, sugiere que como máximo el 15% (y al menos el 6%) del contenido del gen pandoravirus podría haberse obtenido de organismos celulares (incluido el 5-2% de su huésped Acanthamoeba contemporáneo) u otros virus. Este rango de valores es comparable a lo que se estimó previamente para Mimivirus14. Por lo tanto, la TGH no es el proceso distintivo en el origen de los genomas del pandoravirus gigante.

Luego investigamos la prevalencia de duplicaciones entre genes de pandoravirus. La Figura 6a compara las proporciones de genes codificadores de proteínas simples versus duplicados (o más) de los seis pandoravirus disponibles con la calculada para representantes de las otras tres familias conocidas de virus ADN gigantes que infectan a la Acanthamoeba. Muestra claramente que la proporción de genes de copia múltiple (que van del 55 al 44%) es mayor en pandoravirus que en las otras familias de virus, aunque no se correlaciona perfectamente con sus respectivos tamaños de genoma. Las distribuciones de tamaños de racimo entre las diferentes cepas de pandoravirus son similares. La mayoría de los genes de copia múltiple se encuentran en grupos de tamaño 2 (duplicación) o 3 (triplicación). El número de racimos más grandes disminuye con su tamaño (Fig. 7).

Fig. 6
figura 6

Análisis de duplicación de genes en varias familias de virus gigantes. distribución de genes de copia única versus genes de copia múltiple en virus gigantes. b Número de grupos de genes distintos

Menos grupos grandes (tamaño > 20) corresponden a proteínas que comparten motivos de interacción proteína–proteína, como repeticiones de Anquirina, MORN y F-box. Sorprendentemente, el número absoluto de genes de una sola copia en pandoravirus es similar y a veces más pequeño (por ejemplo, P. neocaledonia, 2 Mb) que el de Mimivirus, con un genoma (1,18 Mb) de la mitad de tamaño. En general, el número de grupos de genes distintos (Fig. 6b) se superponen entre Pandoraviridae (de 607 a 775) y Mimivirus (687), lo que sugiere que, a pesar de su diferencia en el tamaño del genoma y de las partículas, estos virus comparten complejidades genéticas comparables.

La duplicación de genes es una característica tan prominente de los genomas del pandoravirus, que investigamos más a fondo buscando más información sobre su mecanismo. En primer lugar, calculamos las distancias genómicas entre pares de paralogos más cercanos, probablemente como resultado de los eventos de duplicación más recientes. Las distribuciones de estas distancias, similares para cada pandoravirus, indican que los paralogos más cercanos se encuentran más a menudo uno al lado del otro (distancia = 1) o separados por un solo gen (distancia = 2) (Fig.Suplementaria. 8).

Luego intentamos correlacionar la distancia física que separa los genes duplicados con su divergencia de secuencia como una estimación (aproximada) de su distancia evolutiva. Se obtuvo una correlación significativa entre la «edad» estimada del evento de duplicación y la distancia genómica de los dos paralogos más cercanos (Fig.Suplementaria. 9). Estos resultados sugieren un escenario evolutivo en el que la mayoría de las duplicaciones se producen primero en tándem, con alteraciones del genoma posteriores (inserciones, inversiones y pérdidas de genes) que difuminan progresivamente esta señal.

Proteómica comparativa de pandoraviriones

Nuestro análisis proteómico por espectrometría de masas previo de partículas de P. salinus identificó 210 productos de genes virales, la mayoría de los cuales orfanos o sin función predecible. Además, detectamos 56 proteínas huésped (Acantameba). Es importante destacar que ninguno de los componentes del aparato de transcripción codificado por virus se detectó en las particles5. En este trabajo realizamos los mismos análisis en P. salinus, P. dulcis y dos de los nuevos aislados (P. quercus y P. neocaledonia) para determinar en qué medida las características anteriores se conservaban para miembros de la familia Pandoraviridae con varios niveles de divergencia, e identificar el núcleo versus los componentes accesorios de un pandoravirion genérico.

Debido a la mejora constante de la sensibilidad en la espectrometría de masas, nuestros nuevos análisis de viriones purificados llevaron a la identificación confiable de 424 proteínas para P. salinus, 357 para P. quercus, 387 para P. dulcis y 337 para P. neocaledonia (ver Métodos). Sin embargo, este mayor número de identificaciones corresponde a valores de abundancia (cuantificación absoluta basada en la intensidad, iBAQ) que abarcan más de cinco órdenes de magnitud. Muchas de las proteínas identificadas en la cola de baja abundancia podrían, por lo tanto, no corresponder a componentes de partículas de buena fe, sino a transeúntes cargados aleatoriamente, proteínas «pegajosas» o contaminantes residuales de células infectadas. Varias observaciones sugieren esta interpretación cautelosa:

  • la cola de baja abundancia se enriquece progresivamente en proteínas virales identificadas en las partículas de una sola cepa de pandoravirus (a pesar de que otras cepas poseen los genes homólogos),

  • la proporción de proteínas codificadas por el huésped supuestamente asociadas a las partículas aumenta a las abundancias más bajas,

  • muchas de estas proteínas del huésped se detectaron previamente en partículas de virus no relacionadas con los pandoravirus pero que infectan al mismo huésped,

  • estas proteínas son abundantes en el proteoma de Acanthamoeba (p. ej., actina, peroxidasa, etc.), por lo que es más probable que se retengan como contaminantes de purificación.

Desafortunadamente, las distribuciones de valores de iBAQ asociadas a los proteomas de pandoravirión no exhibieron una discontinuidad que pudiera servir como un umbral de abundancia objetivo para distinguir los componentes de partículas de buena fe de los dudosos. Sin embargo, el número de proteínas de Acanthamoeba identificadas aumenta bruscamente después de rank ≈200 en todo el proteoma (Suplemento Fig. 10). Siguiendo la misma actitud conservadora que para la reanotación del genoma, decidimos no tener en cuenta las proteínas identificadas por debajo de este rango como posibles espectadores y solo incluimos las 200 proteínas más abundantes en nuestros análisis posteriores de los proteomas de partículas (Datos Suplementarios 1, Tabla Suplementaria 3). Usando esta estricta definición de proteoma para cada uno de los cuatro pandoraviriones diferentes, primero investigamos la diversidad de sus proteínas constitutivas y su nivel de conservación en comparación con el contenido global de genes de los genomas de pandoravirus correspondientes.

La Figura 7 muestra que los proteomas de partículas incluyen proteínas pertenecientes a 194 grupos distintos, 102 de los cuales son compartidos por las cuatro cepas. Por lo tanto, el proteoma central es estructural y funcionalmente diverso. Corresponde al 52,6% del total de grupos proteicos identificados globalmente en todos los pandoraviriones. En comparación, los 467 grupos de proteínas codificados por el genoma central solo representan el 41,6% (es decir, 467/1122) del número total de grupos de proteínas codificados por pandoravirus. La «caja» del pandoravirus utilizada para propagar los genomas de las diferentes cepas está significativamente más conservada que su contenido genético (p » 10-3, prueba de chi-cuadrado). Los genes que codifican el proteoma central también exhiben la selección purificadora más fuerte entre todos los genes del pandoravirus (Suplemento Fig. 11a).

Fig. 7
figura 7

Diagrama Venn de los proteomas de partículas de cuatro cepas diferentes de pandoravirus

Para evaluar la fiabilidad de nuestros análisis de proteomas, comparamos los valores de abundancia (iBAQ) determinados para cada una de las 200 proteínas más abundantes para dos réplicas técnicas y para dos réplicas biológicas realizadas en la misma cepa de pandoravirus (Suplemento Fig. 12a & b). Una correlación muy buena (Pearson’s R > 0.97) se obtuvo en ambos casos para valores de abundancia de más de tres órdenes de magnitud. A continuación, comparamos los valores de iBAQ obtenidos para las proteínas ortólogas compartidas por los proteomas de viriones de diferentes aislados. De nuevo, se observó una buena correlación (R > 0,81), como se esperaba menor que para las réplicas anteriores (Fig. Suplementaria. 12c & d). Estos resultados sugieren que, aunque las partículas de las diferentes cepas parecen morfológicamente idénticas (Fig. 1), admiten una flexibilidad tangible tanto en términos de los conjuntos de proteínas de los que están hechos (con un 89% de ortólogos en parejas en promedio), como en su estequiometría precisa.

Luego examinamos las funciones predichas de las proteínas que componen las partículas, desde las más abundantes hasta las menos abundantes, con la esperanza de obtener algunas ideas sobre el proceso infeccioso temprano. Desafortunadamente, solo 19 grupos de proteínas podrían estar asociados a un motivo funcional/estructural de los 102 grupos diferentes que definen el proteoma de la partícula central (Datos Suplementarios 1, Tabla Suplementaria 3). Esta proporción es menor que para todo el genoma (Fig. 5), confirmando la naturaleza alienígena de la partícula pandoravirus como ya lo sugiere su morfología única y su proceso de ensamble 5. Los pandoraviriones están hechos principalmente de proteínas sin homólogos fuera de la familia Pandoraviridae. No se detecta ninguna proteína ni remotamente similar a la proteína de la cápside mayor (MCP), una proteína central de unión al ADN prevista, o una ATPasa empaquetadora de ADN, características distintivas de la mayoría de los virus eucarióticos de ADN de gran tamaño. En particular, una P. proteína hipotética de salinus (anteriormente ps_862 ahora re-anotada psal_cds_450) recientemente sugerida por Sinclair et al.15 no se detectó un candidato fuerte a PCM en los viriones de P. salinus, ni en sus homólogos en los proteomas de la otra cepa. Este resultado negativo enfatiza la necesidad de la validación experimental de predicciones de computadora hechas desde la «dimensión desconocida» de similitud de secuencias. Tampoco se detecta rastro de ARN polimerasa codificada por pandoravirus, lo que confirma que la etapa inicial de la infección requiere la maquinaria de transcripción del huésped ubicada en el núcleo. Los intrones spliceosómicos se validaron para 56 genes de pandoravirus cuyos productos se detectaron en los pandoraviriones (Datos suplementarios 1). Esto indica la preservación de un spliceosoma funcional hasta el final del ciclo infeccioso, como se espera de la observación de núcleos intactos (Suplemento Fig. 1).

Entre los 19 grupos de proteínas no anónimos, 4 exhiben motivos genéricos sin clave funcional específica: 2 dominios similares al colágeno y 1 dominio similar a Pan / MANZANA que están involucrados en las interacciones proteína–proteína, y 1 dominio similar a cupín que corresponde a un pliegue de barril genérico. Entre las 10 proteínas centrales más abundantes, 9 no tienen ninguna función predicha, a excepción de 1 que exhibe un dominio C-terminal similar a la tiorredoxina (psal_cds_383). Vale la pena notar que el segmento predicho de membrana de 22 aminoácidos (85-107) se conserva en todas las cepas de pandoravirus. El 5’UTR de los genes correspondientes presenta 2 intrones (en P. salinus, P. dulcis y P. quercus) y 1 en P. neocaledonia. La tiorredoxina cataliza las reacciones de intercambio ditiol-disulfuro a través de la oxidación reversible de su centro activo. Esta proteína, con otra de la misma familia (psal_cds_411, predicha como soluble), podría estar involucrada en la reparación/prevención de los daños oxidativos inducidos por fagosomas a las proteínas virales antes de la etapa inicial de la infección. Las partículas también comparten otra enzima redox abundante, una tiol oxidorreductasa similar al VER que puede estar involucrada en la maduración de las proteínas Fe/S. Otra proteína central (psal_cds_1260) con una similitud remota con una tiorredoxina reductasa puede participar en la regeneración de los sitios activos oxidados de las enzimas anteriores. Entre las proteínas centrales más abundantes, psal_cds_232 se predice como unión al ADN, y puede estar involucrada en el empaquetado del genoma. Una amina oxidasa dependiente de NAD (psal_cds_628) y una deshidrogenasa acoplada a FAD (psal_cds_1132) completan el panel de enzimas redox conservadas. Otras proteínas centrales predichas incluyen una quinasa Ser / thr y fosfatasa que son funciones reguladoras típicas. Una serina proteasa, una lipasa, una fosfolipasa similar a la patatina y un homólogo remoto de una nucleoporina podrían ser parte de la caja de herramientas utilizada para transportar los genomas del pandoravirus al citoplasma y luego al núcleo (Tabla Suplementaria 3). Finalmente, dos proteínas centrales (psal_cds_118 y psal_cds_874) comparten un motivo de endoribonucleasa y podrían funcionar como reguladores transcripcionales dirigidos al ARNm celular.

Al contrario de definir el conjunto de proteínas básicas compartidas por todos los pandoraviriones, también investigamos los componentes específicos de la cepa. Desafortunadamente, la mayoría de las proteínas de virión únicas de una cepa determinada (alrededor de 10 en promedio) son anónimas y en baja abundancia. No se pudo predecir la consecuencia funcional de su presencia en las partículas.