Muestreo ambiental y aislamiento de cepas de pandoravirus
Utilizamos el mismo protocolo de aislamiento que condujo al descubrimiento de P. salinus y P. dulcis5. Consiste en mezclar el material muestreado con cultivos de Acanthamoeba adaptados a concentraciones de antibióticos lo suficientemente altas como para inhibir el crecimiento de otros microorganismos ambientales (especialmente bacterias y hongos). Se tomaron muestras aleatoriamente de ambientes húmedos susceptibles a células de Acanthamoeba. Esto llevó al aislamiento de tres nuevas cepas de pandoravirus: P. quercus, P. neocaledonia y P. macleodensis (Tabla 1, ver Métodos). Presentan una divergencia adecuada para comenzar a evaluar las características conservadas y la variabilidad de la familia Pandoraviridae emergente. Cuando es apropiado, nuestros análisis también incluyen datos de P. inopinatum, aislado en un laboratorio alemán de un paciente con queratitis de Acanthamoeba 7.
Estudio de los ciclos de replicación y ultraestructuras de viriones
A partir de partículas purificadas inoculadas en cultivos de A. castellanii, se analizó el ciclo infeccioso de cada aislado utilizando microscopía electrónica de luz y transmisión (sección ultrafina). Como se observó anteriormente para P. salinus y P. dulcis, se encontró que los ciclos de replicación de estos nuevos pandoravirus duraban un promedio de 12 h5 (8 h para el P más rápido. neocaledonia). El proceso infeccioso es el mismo para todos los virus, comenzando con la internalización de partículas individuales por las células de Acanthamoeba. Tras la apertura de su poro apical, las partículas («pandoraviriones») transfieren su contenido translúcido al citoplasma a través de la fusión de la membrana interna del virión con la del fagosoma. La etapa inicial de la infección es notablemente similar para todos los aislados. Mientras hemos informado anteriormente de que el núcleo de la célula fue completamente removida durante la etapa tardía de la infección cycle5, la observación minuciosa de las nuevas cepas reveló neo-sintetizado partículas en el citoplasma de las células que exhiben núcleo-como los compartimentos en que el nucleolo ya no era reconocible (Complementario de la Fig. 1). Ocho horas después de la infección, viriones maduros se hicieron visibles en vacuolas y se liberaron a través de exocitosis (Película Suplementaria). Para todos los aislados, el ciclo replicativo termina con la lisis celular y la liberación de un centenar de partículas (Fig. 1).
Secuenciación y anotación del genoma
ADN genómico de P. neocaledonia, P. macleodensis y P. los quercus se prepararon a partir de partículas purificadas y se secuenciaron utilizando las plataformas PacBio o Illumina (ver Métodos). En cuanto a P. salinus, P. dulcis5 y P. inopinatum7, los tres nuevos genomas se ensamblaron como moléculas de ADN de doble cadena lineal simple (ADND) (≈60% G + C) con tamaños que oscilan entre 1,84 y 2 Mb. Además de sus partículas translúcidas en forma de ánfora (Fig. 1), un contenido de G + C superior a la media y el gigantismo genómico, por lo tanto, siguen siendo rasgos característicos compartidos por los Pandoravirida5, 8. Dada la alta proporción de genes virales que codifican proteínas sin homólogo de base de datos, las predicciones de genes basadas en enfoques computacionales puramente ab initio (es decir, estimaciones de propensión a «ORFing» y codificación) son notoriamente poco confiables, lo que lleva a inconsistencias entre equipos que usan diferentes valores de parámetros arbitrarios (por ejemplo, tamaño de marco de lectura abierto mínimo (ORF)). Por ejemplo, entre las familias de grandes virus dsDNA que infectan a los eucariotas, la densidad media de genes codificadores de proteínas varía de un gen cada 335 bp (Phycodnaviridae, NCBI: NC_008724) hasta un gen cada 2120 bp (Herpesviridae, NCBI: NC_003038), mientras que el consenso está claramente en torno a un gen cada kb (como para bacterias). Como resultado, uno oscila entre situaciones en las que muchos genes están sobre predicidos y otras en las que muchos genes reales probablemente se pasan por alto. Tal incertidumbre sobre qué genes son «reales» introduce un ruido significativo en los análisis genómicos comparativos y las pruebas posteriores de hipótesis evolutivas. Además, los métodos computacionales son en su mayoría ciegos a los genes expresados como transcripciones no codificantes de proteínas.
Para superar las limitaciones anteriores, realizamos experimentos de ARN-seq específicos de hebras y análisis de proteomas de partículas, cuyos resultados se mapearon en las secuencias del genoma. Solo los genes apoyados por evidencia experimental (o similitud de proteínas) se retuvieron en este estricto protocolo de reasignación (ver Métodos, Suplemento Fig. 2). Por un lado, este nuevo procedimiento condujo a un conjunto reducido de proteínas predichas, por otro, permitió el descubrimiento de un gran número inesperado de transcripciones no codificantes (Tabla 1).
El nuevo conjunto de genes codificadores de proteínas validados muestra una proporción fuertemente disminuida de ORF menores de 100 residuos, la mayoría de los cuales son únicos para cada cepa de pandoravirus (Suplemento Fig. 3). El estricto procedimiento de anotación también resultó en genes que exhibían una distribución unimodal bien centrada de los valores del índice de adaptación de codones (CAI) (Fig. 3).
Para la consistencia, extrapolamos nuestro estricto protocolo de anotación a P. inopinatum y P. macleodensis, reduciendo el número de proteínas previstas que se tienen en cuenta en comparaciones adicionales (ver Métodos, Tabla 1). Como era de esperar, las discrepancias entre las predicciones genéticas estándar y estrictas se deben simplemente a la sobrepredicción de pequeños ORF (longitud < 300 nucleótidos). Tales ORF arbitrarios son propensos a surgir aleatoriamente en secuencias ricas en G + C dentro de las cuales los codones de parada (TAA, TAG y TGA) son menos propensos a ocurrir por casualidad que en las regiones no codificantes de los genomas ricos en A + T. De hecho, los protocolos de anotación estándar y estrictos anteriores se aplicaron a los ricos en A + T (74.8%) Genoma chilensis de Megavirus 3 dio lugar a dos conjuntos muy similares de genes codificadores de proteínas predichos versus validados (1120 versus 1108). Este control indica que nuestra estricta anotación no es simplemente descartar predicciones genéticas eventualmente correctas al elevar arbitrariamente un umbral de confianza, sino corregir específicamente los errores inducidos por la composición rica en G + C. Los métodos de anotación de genes puramente computacionales son, por lo tanto, marcadamente menos confiables para genomas ricos en G + C, especialmente cuando codifican una gran proporción de orfanos (es decir, ORF sin homólogo de base de datos), como para pandoravirus. Sin embargo, vale la pena notar que incluso después de nuestra estricta re-anotación, la fracción de proteínas predichas sin similitud de secuencia significativa fuera de la familia Pandoraviridae se mantuvo bastante alta (del 67 al 73%, Suplemento Fig. 4).
Un desafío adicional para la anotación precisa de los genomas de pandoravirus es la presencia de intrones (virtualmente indetectables por métodos computacionales cuando interrumpen Orfanes). The mapping of the assembled transcript sequences onto the genomes of P. salinus, P. dulcis, P. quercus, and P. la neocaledonia permitió la detección de intrones spliceosómicos en el 7,5–13% de los genes codificadores de proteínas validados. Estos intrones se encontraron en las regiones no traducidas (UTRs), así como en las secuencias codificantes, incluyendo en promedio 14 genes entre los que codifican las 200 proteínas más abundantes detectadas en las partículas (ver más abajo). Aunque los intrones spliceosómicos se encuentran en otros virus con fase nuclear, como los clorovirusos9, los pandoravirus son los únicos para los que los intrones spliceosómicos han sido validados para más del 10% de sus genes. Estos resultados apoyan nuestra sugerencia anterior de que al menos una parte de las transcripciones del pandoravirus sean sintetizadas y procesadas por la máquina nuclear receptora 5. Sin embargo, el número de intrones por gen viral sigue siendo mucho menor (alrededor de 1,2 en promedio) que para los genes del huésped (6,2 en promedio 10). Los genes del pandoravirus también exhiben UTR dos veces más largos (Tabla suplementaria 1) que los de Mimiviridae 11.
El mapeo de los datos de ARN-seq llevó al descubrimiento inesperado de un gran número (157-268) de transcripciones largas no codificantes (lncRNAs) (Tabla 1, Tabla Suplementaria 1 para estadísticas detalladas). Estos lncRNAs exhiben una cola de poliA y alrededor del 4% de ellos contienen intrones spliceosómicos. Los lncRNAs se transcriben más a menudo de la cadena inversa de genes codificadores de proteínas validados, mientras que una fracción más pequeña se expresa en regiones intergénicas (es decir, inter-ORF) (Fig.Suplementaria. 5). Estas transcripciones no codificantes pueden desempeñar un papel en la regulación de la expresión de los genes del pandoravirus.
En general, el 82,7–87% de los genomas del pandoravirus se transcriben (incluidos ORF, UTRs e lncRNAs), pero solo el 62-68, 2% se traduce a proteínas. Tales valores son mucho más bajos que en los virus gigantes de otras familias (por ejemplo, se traduce el 90% del genoma de Mimivirus11), en parte debido a las UTR más grandes que flanquean los genes del pandoravirus.
Genómica comparativa
Los seis conjuntos de genes codificadores de proteínas obtenidos de la estricta anotación anterior se utilizaron como referencias para comparaciones de genoma completo con el objetivo de identificar características específicas de la familia Pandoraviridae. Siguiendo un agrupamiento basado en la similitud de secuencias (ver Métodos), se calcularon las superposiciones relativas de los contenidos genéticos de las diversas cepas (Fig. 2a), produciendo lo que llamamos «grupos de proteínas».
Nos calcula el número de compartidos (es decir,, «núcleo») y genes totales a medida que incorporamos de forma incremental los genomas de los diversos aislados en el análisis anterior, para estimar el tamaño del conjunto de genes núcleo de la familia y el del conjunto de genes accesorios/flexibles. Si los seis aislados disponibles parecían suficientes para delinear un genoma central codificado para 455 grupos de proteínas diferentes, la «curva de saturación» que conduce al conjunto total de genes está lejos de alcanzar una meseta, lo que sugiere que el pan-genoma de Pandoraviridae está abierto, y se prevé que cada aislado adicional contribuya con más de 50 genes adicionales (Fig. 2b). Esto queda por confirmar mediante el análisis de otros aislados de Pandoraviridae.
Luego investigamos la similitud global de los seis aislados de pandoravirus mediante el análisis de su contenido genético compartido, tanto en términos de similitud de secuencia de proteínas como de posición genómica. La similitud entre pares entre los diferentes aislados de pandoravirus oscila entre el 54 y el 88%, calculada a partir de una súper alineación de los productos proteicos de los genes ortólogos (Tabla Suplementaria 2). Un árbol filogenético calculado con los mismos datos agrupa los pandoravirus en dos clados separados (Fig. 3).
Interpretado en un contexto geográfico, este patrón de agrupación transmite dos propiedades importantes de la familia emergente. Por un lado, las cepas más divergentes no son las aisladas de los lugares más distantes (por ejemplo, el P. salinus chileno versus el P. quercus francés; el P. neocaledonio neocaledonia versus el P. macleodensis australiano). Por otro lado, dos aislamientos (por ejemplo, P. dulcis versus P. macleodensis) de ambientes idénticos (dos estanques ubicados a 700 m de distancia y conectados por un pequeño flujo de agua) son bastante diferentes. A la espera de un inventario a mayor escala de Pandoraviridae, estos resultados ya sugieren que los miembros de esta familia están distribuidos en todo el mundo con diversidades locales y globales similares.
Nuestro análisis de las posiciones de los genes homólogos en los distintos genomas reveló que, a pesar de la divergencia de su secuencia (Tabla Suplementaria 2), el 80% de los genes ortólogos permanecen colineales. Como se muestra en la Fig. 4, la arquitectura de largo alcance de los genomas de pandoravirus (i. e., basado en las posiciones de los genes ortólogos) se conserva globalmente, a pesar de sus diferencias de tamaño (1,83–2,47 Mb). Sin embargo, la mitad de los cromosomas del pandoravirus (la región más a la izquierda de la Fig. 4) curiosamente parece evolutivo más estable que la otra mitad, donde ocurren la mayoría de los segmentos no homólogos. Estos segmentos contienen genes específicos de la cepa y están enriquecidos en duplicaciones en tándem de proteínas que contienen motivos de anquirina no ortóloga, MORN y F-box. Por el contrario, la mitad estable del genoma concentra la mayoría de los genes que constituyen el genoma central de Pandoraviridae (parte superior de la Fig. 4). Curiosamente, la inversión local que distingue el cromosoma de P. neocaledonia de las otras cepas se encuentra cerca del límite entre las regiones estable e inestable, y puede estar vinculada a esta transición (aunque puede ser coincidencia). Finalmente, todos los genomas también están enriquecidos en genes específicos de la cepa (y / o duplicaciones) en ambas extremidades.
A continuación analizamos la distribución de las proteínas predichas entre las categorías funcionales generales estándar (Fig. 5). Como ahora es recurrente para virus de ADN eucariótico grandes y gigantes, la categoría dominante es, con mucho, la de proteínas que carecen de firmas funcionales reconocibles. A través de las seis cepas, un promedio del 70% de las proteínas predichas corresponden a «funciones desconocidas». Una proporción tan alta es tanto más notable cuanto que se aplica a conjuntos de genes cuidadosamente validados, de los que se han eliminado ORF dudosos. Por lo tanto, es una realidad biológica que una gran mayoría de estas proteínas virales no pueden vincularse a vías previamente caracterizadas. Sorprendentemente, la proporción de estas proteínas anónimas sigue siendo bastante alta (65%) entre los productos del genoma central del pandoravirus, que se encuentra entre los genes supuestamente esenciales compartidos por las seis cepas disponibles (y probablemente todos los miembros futuros de la familia, según la Fig. 2b). Curiosamente, esta proporción sigue siendo también muy alta (≈80%) entre las proteínas detectadas como constituyentes de las partículas virales. Además, la proporción de proteínas anónimas domina totalmente la clasificación de genes únicos de cada cepa, en más del 95%. La categoría funcional más genérica, «interacción proteína–proteína», es la siguiente más grande (del 11,7% al 18,9%), correspondiente a la detección de motivos muy frecuentes y poco informativos (por ejemplo, repeticiones de anquirina). En general, la proporción de proteínas de pandoravirus a las que se podría atribuir una función verdaderamente informativa es <20%, incluida una maquinaria completa para la replicación y transcripción del ADN.