Articles

Diversidade e evolução dos emergentes Pandoraviridae família

a colheita de amostras Ambientais e de isolamento de pandoravirus cepas

foi utilizado o mesmo protocolo de isolamento que levou à descoberta de P. salinus e P. dulcis5. Consiste na mistura do material amostrado com culturas de Acantamoeba adaptadas a concentrações de antibióticos suficientemente elevadas para inibir o crescimento de outros microrganismos ambientais (especialmente bactérias e fungos). As amostras foram colhidas aleatoriamente de ambientes húmidos susceptíveis a abrigar células de Acanthamoeba. Isto levou ao isolamento de três novas estirpes de pandoravírus: P. quercus; P. neocaledonia; e P. macleodensis (Quadro 1, ver Métodos). Eles exibem divergência adequada para começar a avaliar as características conservadas e a variabilidade da família Pandoraviridae emergente. Quando apropriado, nossas análises também incluem dados de P. inopinatum, isolado em um laboratório alemão de um paciente com Acanthamoeba keratitis7.

Tabela 1 Dados sobre o pandoravirus isolados utilizados neste trabalho

de Estudo dos ciclos de replicação e virion ultrastructures

a Iniciar a partir purificada partículas inoculados em A. castellanii culturas, analisamos o ciclo infeccioso de cada isolar usando luz e microscopia eletrônica de transmissão (ultrathin secção). Tal como anteriormente observado para P. salinus e P. dulcis, verificou-se que os ciclos de replicação destes novos pandoravírus duram uma média de 12 h5 (8 h para o P. mais rápido). neocaledonia). O processo infeccioso é o mesmo para todos os vírus, começando com a internalização de partículas individuais pelas células de Acanthamoeba. Após a abertura do seu poro apical, as partículas (“pandoravirions”) transferem o seu conteúdo translúcido para o citoplasma através da fusão da membrana interna do virião com a do fagossomo. A fase inicial da infecção é notavelmente semelhante para todos os isolados. Enquanto que anteriormente relatado que o núcleo da célula foi totalmente interrompido durante a fase tardia da infecciosas cycle5, a minuciosa observação de novas cepas revelou neo-resumidos partículas no citoplasma de células ainda exibindo núcleo-como compartimentos em que o nucleolus não era mais reconhecível (Complementar Fig. 1). Oito horas após a infecção, viriões maduros tornaram-se visíveis em vacúolos e são liberados através de exocitose (filme suplementar). Para todos os isolados, o ciclo replicativo termina com a lise celular e a libertação de cerca de cem partículas (Fig. 1).

Fig. 1
figure1

os novos isolados de pandoravírus. a Superproduction by an A. castellanii cell of Pandoravirus macleodensis virions from the environmental sample prior cell lysis. As bactérias ambientais podem ser vistas no meio de cultura juntamente com os viriões P. macleodensis. (barra de escala é de 10 µm). imagem de uma secção ultratin da célula de A. castellanii durante a fase inicial da infecção por P. neocaledonia. Os pseudópodes de ameba estão prontos para engolir os viriões circundantes. Dez minutos pi, viriões foram engolidos e estão em vacúolos (barra de escala é de 500 nm). c imagem met de uma secção ultrathin da célula A. castellanii durante o processo de montagem de um virião P. salinus (barra em escala de 500 nm). D imagem de uma secção ultratin de um nascente P. quercus virion. (barra de escala: 500 nm). As estruturas das maduras de partículas a partir de diferentes cepas não exibem qualquer diferença notável

seqüenciamento do Genoma e a anotação

ADN Genómico de P. neocaledonia, P. macleodensis, e P. quercus foram preparados a partir de partículas purificadas e sequenciadas usando as plataformas PacBio ou ilumina (ver Métodos). Quanto a P. salinus, P. dulcis5 e P. inopinatum7, os três novos genomas montados como moléculas de DNA linear duplo (dsDNA) (≈60% G + C) com tamanhos variando de 1,84 a 2 Mb. Além das suas partículas translúcidas em forma de ânfora (Fig. 1), conteúdo G + C superior à média e gigantismo genômico, assim, permanecem características características características compartilhadas pelos Pandoraviridae5, 8. Dada a grande proporção de genes virais codificação de proteínas sem banco de dados homóloga, gene previsões baseadas puramente ab initio abordagens computacionais (por exemplo, “ORFing” e de codificação de propensão estimativas) são notoriamente pouco confiáveis, levando a inconsistências entre equipes, usando diferentes valores de parâmetros arbitrários (por exemplo, o mínimo de quadros de leitura aberta (ORF) tamanho). Por exemplo, entre as famílias de grandes vírus dsDNA que infectam eucariontes, a densidade média de genes codificadores de proteínas varia alegadamente de um gene a cada 335 bp (Phycodnaviridae, NCBI: NC_008724) até um gene a cada 2120 bp (Herpesviridae, NCBI: NC_003038), enquanto o consenso é claramente em torno de um gene a cada kb (como para bactérias). Como resultado, um oscila entre situações onde muitos genes são sobrepreendidos e outros onde muitos genes reais são provavelmente negligenciados. Tal incerteza sobre quais genes são “reais” introduz um ruído significativo em análises genômicas comparativas e os testes subsequentes de hipóteses evolucionárias. In addition, computational methods are mostly blind to genes expressed as non-protein-coding transcripts.

para superar as limitações acima, realizamos experimentos RNA-seq específicos da strand e análises de proteoma de partículas, cujos resultados foram mapeados nas sequências do genoma. Apenas genes apoiados por provas experimentais (ou semelhança de proteínas) foram mantidos neste rigoroso protocolo de reanotação (ver Métodos, Figo suplementar. 2). Por um lado, este novo procedimento levou a um conjunto reduzido de proteínas previstas, por outro, permitiu a descoberta de um número inesperado de transcrições não codificantes (Tabela 1).

O novo conjunto de genes codificadores de proteínas validados apresenta uma proporção fortemente diminuída de ORFs com menos de 100 resíduos, a maioria dos quais são únicos a cada estirpe de pandoravírus (Fig. suplementar. 3). O rigoroso procedimento de anotação também resultou em genes exibindo uma distribuição unimodal bem centrada dos valores do codon adaptation index (ICC). 3).por uma questão de consistência, extrapolámos o nosso rigoroso protocolo de Anotação Para P. inopinatum e P. macleodensis, reduzindo o número de proteínas previstas tidas em conta em outras comparações (ver Métodos, Quadro 1). Como esperado, as discrepâncias entre as previsões genéticas padrão versus rigoroso são meramente devido à superpreensão de pequenos ORFs (comprimento < 300 nucleótidos). Tais ORFs arbitrários são propensos a surgir aleatoriamente em sequências ricas em G + C dentro das quais codões de paragem (TAA, TAG, e TGA) são menos propensos a ocorrer por acaso do que nas regiões não-codificantes de genomas ricos em T+. De facto, os protocolos de anotação normalizados e rigorosos acima referidos aplicavam-se aos ricos em A + T (74.8%) O Megavírus chilensis genome3 resultou em dois conjuntos muito semelhantes de genes Programadores de proteínas preditos versus validados (1120 versus 1108). Este controle indica que nossa anotação rigorosa não é simplesmente descartar previsões genéticas eventualmente corretas por aumento arbitrário de um limiar de confiança, mas especificamente corrigir erros induzidos pela composição rica em G + C. Métodos puramente computacionais de anotação de genes são marcadamente menos confiáveis para genomas ricos em G + C, especialmente quando codificam uma grande proporção de ORFans (ou seja, ORF sem homolog de banco de dados), como para pandoravírus. No entanto, vale a pena notar que mesmo depois de nossa reanotação rigorosa, a fração de proteínas previstas sem similaridade de sequência significativa fora da família Pandoraviridae permaneceu bastante alta (de 67 a 73%, Figo suplementar. 4).

um desafio adicional para a anotação precisa dos genomas do pandoravírus é a presença de intrões (virtualmente indetectáveis por métodos computacionais quando interrompem ORFans). The mapping of the assembled transcript sequences on the genomes of P. salinus, P. dulcis, P. quercus, and P. a Neocaledónia permitiu a detecção de intrões spliceossómicos em 7, 5–13% dos genes codificadores de proteínas validados. Estes intrões foram encontrados nas regiões não traduzidas (UTRs), bem como nas sequências de codificação, incluindo, em média, 14 genes entre os que codificam as 200 proteínas mais abundantes detectadas nas partículas (ver abaixo). Embora os intrões spliceosomais sejam encontrados em outros vírus com uma fase nuclear como o cloroviruses9, pandoravírus são os únicos para os quais os intrões spliceosomais foram validados por mais de 10% de seus genes. Estes resultados apoiam a nossa sugestão anterior de que pelo menos uma parte das transcrições do pandoravírus são sintetizadas e processadas pela máquina nuclear Hospedeira 5. No entanto, o número de intrões por gene viral permanece muito menor (cerca de 1,2 em média) do que para os genes hospedeiros (6,2 em média 10). Os genes do pandoravírus também exibem UTRs duas vezes mais compridos (tabela Complementar 1) do que os do Mimivirida11.

o mapeamento dos dados RNA-seq levou à descoberta inesperada de um grande número (157-268) de longas transcrições não codificantes (LncRNAs) (Quadro 1, Quadro suplementar 1 Para estatísticas detalhadas). Estes LncRNAs exibem uma cauda de polyA e cerca de 4% deles contêm intrões spliceosomais. As LncRNAs são mais frequentemente transcritas a partir da cadeia reversa de genes codificadores de proteínas validados, enquanto uma fração menor é expressa em regiões intergênicas (isto é, inter-ORF) (Figo suplementar. 5). Estas transcrições não codificantes podem desempenhar um papel na regulação da expressão dos genes do pandoravírus.no geral, 82,7-87% dos genomas do pandoravírus são transcritos (incluindo ORFs, UTRs e LncRNAs), mas apenas 62-68,2% são traduzidos em proteínas. Tais valores são muito mais baixos do que em vírus gigantes de outras famílias (por exemplo, 90% do genoma Mimivirus11 é traduzido), em parte devido aos maiores UTRs que flanqueiam os genes do pandoravírus.

genómica comparativa

os seis conjuntos de genes codificadores de proteínas obtidos a partir da anotação rigorosa acima foram então utilizados como referências para comparações de genomas inteiros com o objectivo de identificar características específicas da família Pandoraviridae. Seguindo uma clusterização baseada em similaridade de sequência (ver Métodos), as sobreposições relativas do conteúdo genético das várias estirpes foram computadas (Fig. 2a), produzindo o que chamamos de “aglomerados proteicos”.

Fig. 2

comparação do conteúdo do gene do pandoravírus. a a distribuição de todas as combinações de aglomerados de proteínas compartilhadas é mostrada. O inset resume o número de clusters e genes partilhados por 6, 5, 4, 3, 2, e um pandoravírus. B genoma do núcleo e pan-genoma estimado a partir dos seis pandoravírus disponíveis. O parâmetro α estimado da lei de heap (α < 1) é característico de um pan-genome50 aberto e o valor do parâmetro de fluidez característico de uma grande fração de genes51 único. As parcelas mostram a mediana, o percentil 25 e 75. Os whiskers correspondem aos pontos de dados extremos

calculámos então o número de partilhados (i.e., “núcleo”) e genes totais à medida que incorporamos incrementalmente os genomas dos vários isolados na análise acima, para estimar o tamanho do conjunto de genes do núcleo familiar e o do conjunto de genes acessório/flexível. Se os seis isolados apareceu suficiente para delinear um núcleo do genoma que codifica para 455 de proteína diferentes clusters, a “curva de saturação”, levando ao total gene conjunto está longe de atingir um platô, sugerindo que o Pandoraviridae pan-genoma é aberto, com cada isolar previsto para contribuir com mais de 50 novos genes (Fig. 2b). Isto ainda não foi confirmado pela análise de isolados Pandoraviridae adicionais.em seguida, investigamos a semelhança global dos seis isolados de pandoravírus, analisando o seu conteúdo genético compartilhado tanto em termos de similaridade de sequência proteica quanto de posição genômica. A semelhança emparelhada entre os diferentes isolados de pandoravírus varia de 54 a 88%, conforme calculado a partir de um super alinhamento dos produtos proteicos dos genes ortólogos (tabela suplementar 2). Uma árvore filogenética computada com os mesmos aglomerados de dados os pandoravírus em dois clados separados(Fig. 3).

Fig. 3
figure3

estrutura filogenética da família Pandoraviridae proposta. Os valores de Bootstrap estimados a partir da recolocação são todos iguais a 1, pelo que não foram comunicados. As taxas de substituição sinônimo a não sinônimo (ω) foram calculadas para os dois clados separados e são significativamente diferentes (barra de escala é 0.07 substitution / site)

interpretado num contexto geográfico, este padrão de agrupamento transmite duas propriedades importantes da família emergente. Por um lado, as estirpes mais divergentes não são as isoladas dos locais mais distantes (por exemplo, o P. Salinus Chileno contra o P. quercus francês; o P. neocaledonia Neocaledonia contra o P. macleodensis Australiano). Por outro lado, dois isolados (por exemplo, P. dulcis versus P. macleodensis) de ambientes idênticos (dois lagos localizados a 700 m de distância e conectados por um pequeno fluxo de água) são bastante diferentes. Enquanto se aguarda um inventário em larga escala da Pandoraviridae, estes resultados já sugerem que os membros desta família são distribuídos em todo o mundo com diversidades locais e globais semelhantes.

nossa análise das posições dos genes homólogos nos vários genomas revelou que, apesar de sua divergência de sequência (tabela suplementar 2), 80% dos genes ortólogos permanecem colineares. Como mostrado na Fig. 4, The long-range architecture of the pandoravirus genomes (i.e., baseado nas posições de genes ortólogos) é globalmente conservada, apesar de suas diferenças em tamanhos (1,83–2,47 Mb). No entanto, metade dos cromossomas pandoravírus (a região mais à esquerda da Fig. 4) curiosamente parece evolucionário mais estável do que a outra metade, onde a maioria dos segmentos não homólogos ocorrem. Estes segmentos contêm genes específicos da estirpe e são enriquecidos em duplicações de proteínas não ortológicas contendo anquirina, MORN e f-box. Inversamente, a metade estável do genoma concentra a maioria dos genes que constituem o genoma do núcleo Pandoraviridae (top of Fig. 4). Curiosamente, a inversão local que distingue o cromossomo de P. neocaledonia das outras estirpes está localizada perto da fronteira entre as regiões estáveis e instáveis, e pode estar ligada a esta transição (embora possa ser coincidência). Finalmente, todos os genomas também são enriquecidos em genes específicos da estirpe (e / ou duplicações) em ambas as extremidades.

Fig. 4
figure4

colinearidade dos genomas de pandoravírus disponíveis. A frequência cumulativa dos genes do núcleo é mostrada no topo. Blocos de colinear conservados são coloridos da mesma cor em todos os vírus. Os blocos brancos correspondem a segmentos de DNA não conservados (barra de escala é de 500 kb)

Depois analisamos a distribuição das proteínas previstas entre as categorias funcionais gerais padrão (Fig. 5). Como é agora recorrente para vírus de DNA eucarióticos gigantes, a categoria dominante é de longe a das proteínas sem assinaturas funcionais reconhecíveis. Ao longo das seis estirpes, uma média de 70% das proteínas previstas correspondem a “funções desconhecidas”. Uma proporção tão elevada é tanto mais notável quanto se aplica a Conjuntos de genes cuidadosamente validados, dos quais ORFs duvidosos foram eliminados. É, portanto, uma realidade biológica que uma grande maioria destas proteínas virais não pode ser ligada a vias anteriormente caracterizadas. Notavelmente, a proporção dessas proteínas anônimas permanece bastante elevada (65%) entre os produtos do genoma do núcleo do pandoravírus, que está entre os genes presumivelmente essenciais compartilhados pelas seis estirpes disponíveis (e provavelmente todos os futuros membros da família, de acordo com a Fig. 2b). Curiosamente, esta proporção permanece também muito elevada (≈80%) entre as proteínas detectadas como constituindo as partículas virais. Além disso, a proporção de proteínas anônimas domina totalmente a classificação de genes únicos a cada estirpe, em mais de 95%. A categoria funcional mais genérica, “interação proteína–proteína”, é a maior próxima (de 11,7 a 18,9%), correspondendo à detecção de motivos altamente freqüentes e desinformativos (por exemplo, repetições de anquirina). No geral, a proporção de proteínas pandoravírus a que uma função verdadeiramente informativa pode ser atribuída é <20%, incluindo uma máquina completa para replicação e transcrição de DNA.

Fig. 5
a figura5

Funcional anotações

Nós, em seguida, investigou dois processos evolutivos, possivelmente, de origem extra-grande tamanho da pandoravirus genomas: horizontal gene transfer (HGTs) e gene duplicações. A aquisição de genes pela HGT foi frequentemente invocada para explicar o tamanho do genoma dos vírus infectados com ameba em comparação com o viruses12, 13. Calculamos que até um terço das proteínas do pandoravírus apresentam semelhanças sequenciais (fora da família Pandoraviridae) com proteínas dos três domínios celulares (Eukarya, Archaea e Eubacteria) ou outros vírus (Figo suplementar. 4). No entanto, tais semelhanças não implicam que estes genes foram adquiridos horizontalmente. Eles também podem denotar uma origem ancestral comum ou uma transferência de um pandoravírus para outros microorganismos. Analisamos individualmente a posição filogenética de cada um destes casos para inferir a sua provável origem.: ancestral – quando encontrado fora de aglomerados de homólogos celulares ou virais; horizontalmente adquirido-quando encontrado profundamente embutido nos aglomerados acima; ou horizontalmente transferido para organismos celulares ou vírus não relacionados na situação inversa (isto é, uma proteína celular deitada dentro de um aglomerado de proteínas pandoravírus). Figo Suplementar. 6 resume os resultados desta análise.

poderíamos fazer um diagnóstico HGT inequívoco para 39% dos casos, permanecendo o resto indecidível ou compatível com uma origem ancestral. Entre os prováveis HGT, 49% sugeriram um ganho horizontal por pandoravírus, e 51% a transferência de um gene de um pandoravírus. Curiosamente, a aquisição de genes hospedeiros, um processo geralmente invocado como importante na evolução dos vírus, representam apenas uma pequena proporção (13%) dos HGTs diagnosticados, portanto menos do que dos vírus para o hospedeiro (18%). Combinando as estatísticas acima com a proporção de genes (um terço) que começou a partir, em todo o genoma, sugere que, no máximo, 15% (e, pelo menos, 6%) do pandoravirus conteúdo genético poderia ter sido obtido a partir de celulares de organismos (incluindo 5-2% de seus contemporâneos Acanthamoeba host) ou outros vírus. Este intervalo de valores é comparável ao anteriormente estimado para Mimivirus14. HGT não é, portanto, o processo distintivo na origem dos genomas pandoravírus gigantes.investigamos então a prevalência de duplicações entre os genes do pandoravírus. A figura 6a compara as proporções de genes codificadores de proteínas simples versus duplicados (ou mais) dos seis pandoravírus disponíveis com as proporções calculadas para representantes das três outras famílias conhecidas de vírus de ADN gigantes que infectam Acanthamoeba. Ela mostra claramente que a proporção de genes de múltiplas cópias (variando de 55 a 44%) é maior nos pandoravírus, do que para as outras famílias de vírus, embora não esteja perfeitamente correlacionada com seus respectivos tamanhos de genoma. As distribuições de tamanhos de aglomerado entre as diferentes estirpes de pandoravírus são semelhantes. A maioria dos genes de cópia múltipla são encontrados em conjunto de tamanho 2 (duplicação) ou 3 (triplicação). O número de aglomerados maiores diminui com o seu tamanho (Figo suplementar. 7).

Fig. 6
figure6

análise da duplicação de genes em várias famílias de vírus gigantes. uma distribuição de genes de cópia única versus cópia múltipla em vírus gigantes. b Número de distintas do gene clusters

Menos clusters grandes (tamanho > 20) correspondem a proteínas de compartilhamento de proteína–proteína interação motivos, tais como Ankyrin, pela MANHÃ, e o F-caixa de repetições. Surpreendentemente, o número absoluto de genes de cópia única em pandoravírus é semelhante, e às vezes menor (por exemplo, P. neocaledonia, 2 Mb) do que o do Mimivírus, com um genoma (1,18 Mb) metade do tamanho. No geral, o número de clusters de genes distintos (Fig. 6B) sobrepõe-se entre os Pandoraviridae (de 607 a 775) e Mimivírus (687), sugerindo que, apesar de sua diferença no genoma e tamanho das partículas, estes vírus compartilham complexidades genéticas comparáveis.sendo uma característica tão proeminente dos genomas do pandoravírus, investigámo-la ainda mais à procura de mais informações sobre o seu mecanismo. Primeiro, calculamos as distâncias genômicas entre pares de parálogos mais próximos, provavelmente resultantes dos mais recentes eventos de duplicação. As distribuições destas distâncias, semelhantes para cada pandoravírus, indicam que os parágulos mais próximos são mais frequentemente localizados ao lado um do outro (distância = 1) ou separados por um único gene (distância = 2) (Figura suplementar. 8).em seguida, tentamos correlacionar a distância física separando genes duplicados com sua divergência de sequência como uma estimativa (aproximada) de sua distância evolucionária. Obtivemos uma correlação significativa entre a “idade” estimada do evento de duplicação e a distância genômica dos dois parálogos mais próximos (figura suplementar. 9). Estes resultados sugerem um cenário evolutivo em que a maioria das duplicações ocorrem primeiro em conjunto, com subsequentes alterações do genoma (inserções, inversões e Perdas de genes) progressivamente borrando este sinal.a nossa anterior análise Proteómica de espectrometria de massa das partículas de P. salinus identificou 210 produtos genéticos virais, a maioria dos quais Orfanos ou sem função previsível. Além disso, detectamos 56 proteínas hospedeiras (Acantamoeba). Importante, nenhum dos componentes do aparelho de transcrição codificado pelo vírus foi detectado nos particles5. Neste trabalho foram realizadas as mesmas análises P. salinus, P. dulcis, e dois do novo isolados (P. quercus e P. neocaledonia) para determinar em que medida os recursos acima foram conservados para os membros da Pandoraviridae família com vários níveis de divergência, e identificar o núcleo versus o acessório componentes de um genérico pandoravirion.devido à melhoria constante da sensibilidade na espectrometria de massa, as nossas novas análises de viriões purificados levaram à identificação fiável de 424 proteínas para P. salinus, 357 para P. quercus, 387 para P. dulcis e 337 para P. neocaledonia (ver Métodos). No entanto, este número crescente de identificações corresponde a valores de abundância (quantificação absoluta baseada na intensidade, iBAQ) que abrangem mais de cinco ordens de magnitude. Muitas das proteínas identificadas na cauda de baixa abundância podem, portanto, não corresponder a componentes de partículas de boa fé, mas a espectadores carregados aleatoriamente, proteínas “pegajosas”, ou contaminantes residuais de células infectadas. Esta interpretação prudente é sugerida por várias observações:

  • a baixa abundância de cauda é progressivamente enriquecido em proteínas virais identificadas nas partículas de um único pandoravirus tensão (mesmo que outras cepas possuem genes homólogos),

  • a proporção de host codificados em proteínas supostamente associado às partículas aumenta com o menor abundância,

  • muitos desses host proteínas foram detectados anteriormente em partículas de vírus não relacionado para o pandoraviruses mas infectar o mesmo host,

  • estas proteínas são abundantes no Acanthamoeba proteoma (e.g., actina, peroxidase, etc), tornando-os mais susceptíveis de serem retidos como contaminantes de purificação.

infelizmente, as distribuições de valor iBAQ associadas aos proteomas de pandoravirion não apresentaram uma descontinuidade que pudesse servir como um limiar de abundância objetiva para distinguir componentes de partícula de boa fé de componentes duvidosos. No entanto, o número de proteínas acantamoeba identificadas aumenta acentuadamente após o rank ≈200 em todo o proteoma (Figo suplementar. 10). Seguindo a mesma atitude conservadora que para a reanotação do genoma, decidimos desconsiderar as proteínas identificadas abaixo desta classificação como provavelmente transeuntes e apenas incluiu as 200 proteínas mais abundantes em nossas análises adicionais dos proteomas de partículas (dados suplementares 1, Tabela suplementar 3). Usando esta rigorosa definição de proteoma para cada um dos quatro pandoravírios diferentes, primeiramente investigamos a diversidade de suas proteínas constitutivas e seu nível de conservação em comparação com o conteúdo genético global dos genomas correspondentes do pandoravírus.a Figura 7 mostra que os proteomas de partículas incluem proteínas pertencentes a 194 aglomerados distintos, 102 dos quais são partilhados pelas quatro estirpes. O núcleo proteoma é, portanto, estrutural e funcionalmente diverso. Corresponde a 52,6% do total de grupos proteicos identificados globalmente em todos os pandoravírios. Em comparação, os 467 aglomerados de proteínas codificados pelo genoma Central representam apenas 41,6% (ou seja, 467/1122) do número total de aglomerados de proteínas codificadas pelo pandoravírus. A “caixa de pandoravírus” usada para propagar os genomas das diferentes estirpes é, portanto, significativamente mais conservada do que o seu conteúdo genético (p ” 10-3, teste Qui-quadrado). Os genes que codificam o proteoma central também exibem a seleção purificadora mais forte entre todos os genes do pandoravírus (Figo suplementar. 11a).

Fig. 7
figure7

diagrama de Venn das partículas de arqueas de quatro diferentes pandoravirus cepas

Para avaliar a fiabilidade dos nossos proteoma análises foram comparados os abundância (iBAQ) valores determinados para cada um dos 200 mais abundante de proteínas para as duas técnicas replica e biológicos replica realizadas no mesmo pandoravirus tensão (Complementar Fig. 12a & B). A very good correlation (Pearson’s R > 0.97) foi obtida em ambos os casos para valores de Abundância que variam acima de três ordens de magnitude. Em seguida, comparámos os valores iBAQ obtidos para as proteínas ortológicas partilhadas pelos proteomas do virião de diferentes isolados. Aqui novamente, uma boa correlação foi observada (R > 0,81), como esperado menor do que para as réplicas acima (figura suplementar. 12c & d). Estes resultados sugerem que, embora as partículas das diferentes estirpes pareçam morfologicamente idênticas (Figo suplementar. 1), admitem uma flexibilidade tangível tanto em termos dos grupos proteicos de que são feitos (com 89% de ortólogos emparelhados em média), como em sua estequiometria precisa.em seguida, examinamos as funções previstas das proteínas que compõem as partículas, do mais ao menos abundante, na esperança de obter algumas informações sobre o processo infeccioso inicial. Infelizmente, apenas 19 aglomerados de proteínas poderiam ser associados a um motivo funcional/estrutural dos 102 diferentes aglomerados que definem o proteoma de partícula principal (dados suplementares 1, Tabela suplementar 3). Esta proporção é menor do que para todo o genoma (Fig. 5), confirmando a natureza alienígena da partícula de pandoravírus como já sugerido por sua morfologia única e processo de montagem 5. Os pandoravirions são feitos principalmente de proteínas sem homólogos fora da família Pandoraviridae. Nenhuma proteína, mesmo remotamente semelhante à geralmente abundante principal proteína capsida (MCP), uma predita proteína do núcleo de ligação ao DNA, ou uma ATPase de embalagem de DNA, marcas da maioria dos eucarióticos grandes vírus de DNA, é detectada. Em particular, um P. salinus hypothetical protein (anteriormente ps_862 agora reannotated psal_cds_450) recentemente sugerido por Sinclair et al.15 para ser um forte candidato MCP não foi detectado nos viriões P. salinus, nem nos seus homólogos nos outros proteomas da estirpe. Este resultado negativo enfatiza a necessidade de validação experimental de previsões de computador feitas a partir da “quinta dimensão” de similaridade de seqüências. Nenhum vestígio da ARN polimerase codificada pelo pandoravírus é detectado também, confirmando que o estágio inicial da infecção requer a máquina de transcrição do hospedeiro localizada no núcleo. Os intrões spliceosomais foram validados para 56 genes pandoravírus cujos produtos foram detectados nos pandoraviriões (dados suplementares 1). Isto indica a preservação de um spliceosoma funcional até o final do ciclo infeccioso, como esperado a partir da observação de núcleos não quebrados (Figo suplementar. 1).

entre os 19 grupos de proteínas não anônimos, 4 exibem motivos genéricos sem pista funcional específica: 2 domínios semelhantes ao colagénio e 1 Domínio semelhante ao Pan / maçã que estão envolvidos em interações proteína-proteína, e 1 domínio semelhante ao cupin correspondente a uma dobra de barril genérica. Entre as 10 proteínas do núcleo mais abundantes, 9 não têm função prevista, exceto para 1 exibindo um domínio terminal de tioredoxina c (salal_cds_383). Vale a pena notar que o segmento de membrana previsto de 22 aminoácidos (85-107) é conservado em todas as estirpes de pandoravírus. Os 5 ‘ UTR dos genes correspondentes apresentam 2 intrões (em P. salinus, P. dulcis e P. quercus) e 1 em P. neocaledonia. Tioredoxina catalisa reações de troca ditiol-dissulfeto através da oxidação reversível de seu centro ativo. Esta proteína, com outra da mesma família (salal_cds_411, prevista como solúvel), pode estar envolvida na reparação/prevenção de danos oxidativos induzidos pelo fagossomo às proteínas virais antes da fase inicial da infecção. As partículas também compartilham outra enzima redox abundante, uma tiol oxidoredutase semelhante ao ERV que pode estar envolvida na maturação das proteínas Fe/S. Outra proteína Central (sal_cds_1260) com uma semelhança remota com uma tioredoxina redutase pode participar da regeneração dos locais ativos oxidados das enzimas acima mencionadas. Entre as proteínas do núcleo mais abundantes, o salal_cds_232 é previsto como ligação ao DNA, e pode estar envolvido na embalagem do genoma. Uma putativa amina oxidase NAD-dependente (sal_cds_628), e uma DEFIDROGENASE acoplada em FÁD (sal_cds_1132) completam o painel de enzimas putativas redox conservadas. Outras proteínas principais previstas incluem Uma ser / thr cinase e fosfatase que são funções reguladoras típicas. Uma protease serina, uma lipase, uma fosfolipase tipo Patatina, e um homolog remoto de uma nucleoporina podem ser parte da caixa de ferramentas usada para transportar os genomas do pandoravírus para o citoplasma e, em seguida, para o núcleo (tabela suplementar 3). Finalmente, duas proteínas do núcleo (psal_cds_118 e psal_cds_874) compartilham um motivo de endoribonuclease e poderiam funcionar como reguladores transcritionais visando o ARNm celular.

no oposto de definir o conjunto de proteínas do núcleo compartilhado por todos os pandoravirions, nós também investigamos componentes específicos da estirpe. Infelizmente, a maioria das proteínas do virião únicas a uma determinada estirpe (cerca de 10 em média) são anônimas e em baixa abundância. Nenhuma previsão poderia ser feita sobre a consequência funcional de sua presença nas partículas.