Diversité et évolution de la famille émergente des Pandoraviridae
Échantillonnage environnemental et isolement des souches de pandoravirus
Nous avons utilisé le même protocole d’isolement qui a conduit à la découverte de P. salinus et P. dulcis5. Elle consiste à mélanger le matériel échantillonné avec des cultures d’Acanthamoeba adaptées à des concentrations d’antibiotiques suffisamment élevées pour inhiber la croissance d’autres microorganismes environnementaux (en particulier des bactéries et des champignons). Des échantillons ont été prélevés au hasard dans des environnements humides susceptibles d’abriter des cellules d’Acanthamoeba. Cela a conduit à l’isolement de trois nouvelles souches de pandoravirus : P. quercus; P. neocaledonia; et P. macleodensis (Tableau 1, voir Méthodes). Ils présentent une divergence suffisante pour commencer à évaluer les caractéristiques conservées et la variabilité de la famille émergente des Pandoraviridae. Le cas échéant, nos analyses incluent également des données de P. inopinatum, isolé dans un laboratoire allemand à partir d’un patient atteint d’une kératite à Acanthamoeba 7.
Étude des cycles de réplication et des ultrastructures de virions
À partir de particules purifiées inoculées dans des cultures d’A. castellanii, nous avons analysé le cycle infectieux de chaque isolat en microscopie électronique à lumière et à transmission (section ultramince). Comme observé précédemment pour P. salinus et P. dulcis, les cycles de réplication de ces nouveaux pandoravirus ont duré en moyenne 12 h5 (8 h pour le P le plus rapide). néocalédonie). Le processus infectieux est le même pour tous les virus, en commençant par l’internalisation des particules individuelles par les cellules d’Acanthamoeba. Après l’ouverture de leur pore apical, les particules (« pandoravirions ») transfèrent leur contenu translucide dans le cytoplasme par fusion de la membrane interne du virion avec celle du phagosome. Le stade précoce de l’infection est remarquablement similaire pour tous les isolats. Alors que nous avions précédemment signalé que le noyau cellulaire était complètement perturbé au stade avancé du cycle infectieux 5, l’observation approfondie des nouvelles souches a révélé des particules néo-synthétisées dans le cytoplasme de cellules présentant encore des compartiments en forme de noyau dans lesquels le nucléole n’était plus reconnaissable (Fig. 1). Huit heures après l’infection, les virions matures sont devenus visibles dans les vacuoles et sont libérés par exocytose (film supplémentaire). Pour tous les isolats, le cycle réplicatif se termine par la lyse des cellules et la libération d’une centaine de particules (Fig. 1).
Séquençage et annotation du génome
ADN génomique de P. neocaledonia, P. macleodensis et P. des quercus ont été préparés à partir de particules purifiées et séquencés à l’aide des plateformes PacBio ou Illumina (voir Méthodes). Comme pour P. salinus, P. dulcis5 et P. inopinatum7, les trois nouveaux génomes se sont assemblés sous forme de molécules d’ADN double brin (ADNDSD) linéaires simples (≈60% G+C) de tailles allant de 1,84 à 2 Mo. En plus de leurs particules translucides en forme d’amphore (Fig. 1), une teneur en G+C supérieure à la moyenne et un gigantisme génomique restent donc des caractéristiques partagées par les Pandoraviridae5,8. Compte tenu de la forte proportion de gènes viraux codant pour des protéines sans homologue de base de données, les prédictions génétiques basées sur des approches de calcul purement ab initio (c.-à-d. estimations de la propension à coder et de l' »ORFing ») sont notoirement peu fiables, ce qui conduit à des incohérences entre les équipes utilisant différentes valeurs de paramètres arbitraires (par exemple, taille minimale du cadre de lecture ouvert (ORF)). Par exemple, parmi les familles de grands virus de l’ADNc infectant les eucaryotes, la densité moyenne des gènes codant pour les protéines varierait d’un gène tous les 335 pb (Phycodnaviridae, NCBI: NC_008724) jusqu’à un gène toutes les 2120 pb (Herpesviridae, NCBI: NC_003038), alors que le consensus est clairement autour d’un gène toutes les kb (comme pour les bactéries). En conséquence, on oscille entre des situations où de nombreux gènes sont surestimés et d’autres où de nombreux gènes réels sont probablement négligés. Une telle incertitude sur les gènes « réels » introduit un bruit important dans les analyses génomiques comparatives et les tests ultérieurs d’hypothèses évolutives. De plus, les méthodes de calcul sont pour la plupart aveugles aux gènes exprimés sous forme de transcrits non codants pour les protéines.
Pour surmonter les limitations ci-dessus, nous avons effectué des expériences ARN-seq spécifiques à des brins et des analyses de protéomes de particules, dont les résultats ont été cartographiés sur les séquences du génome. Seuls les gènes étayés par des preuves expérimentales (ou la similitude des protéines) ont été retenus dans ce protocole de réannotation rigoureux (voir Méthodes, fig. 2). D’une part, cette nouvelle procédure a conduit à un ensemble réduit de protéines prédites, d’autre part elle a permis la découverte d’un grand nombre inattendu de transcrits non codants (tableau 1).
Le nouvel ensemble de gènes codant des protéines validés présente une proportion fortement diminuée d’ORF de moins de 100 résidus, dont la plupart sont uniques à chaque souche de pandoravirus (fig. 3). La procédure d’annotation rigoureuse a également abouti à des gènes présentant une distribution unimodale bien centrée des valeurs de l’indice d’adaptation des codon (CAI) (Fig. 3).
Par souci de cohérence, nous avons extrapolé notre protocole d’annotation rigoureux à P. inopinatum et P. macleodensis, réduisant ainsi le nombre de protéines prédites prises en compte dans d’autres comparaisons (voir Méthodes, Tableau 1). Comme prévu, les écarts entre les prédictions géniques standard et strictes sont simplement dus à la sur-prédiction de petits ORF (longueur < 300 nucléotides). De tels ORF arbitraires sont susceptibles de se produire de manière aléatoire dans des séquences riches en G + C au sein desquelles les codons d’arrêt (TAA, TAG et TGA) sont moins susceptibles de se produire par hasard que dans les régions non codantes des génomes riches en A + T. En effet, les protocoles d’annotation standard et rigoureux ci-dessus s’appliquaient aux riches en A+T (74.8 %) Le génome de Megavirus chilensis 3 a donné lieu à deux ensembles très similaires de gènes codant les protéines prédits par rapport aux gènes validés (1120 par rapport à 1108). Ce contrôle indique que notre annotation rigoureuse ne consiste pas simplement à éliminer les prédictions géniques éventuellement correctes en augmentant arbitrairement un seuil de confiance, mais à corriger spécifiquement les erreurs induites par la composition riche en G + C. Les méthodes d’annotation de gènes purement informatiques sont donc nettement moins fiables pour les génomes riches en G + C, en particulier lorsqu’ils codent une grande proportion d’ORFans (c’est-à-dire des ORF sans homologue de base de données), comme pour les pandoravirus. Cependant, il convient de noter que même après notre reannotation rigoureuse, la fraction de protéines prédites sans similarité de séquence significative en dehors de la famille des Pandoraviridae est restée assez élevée (de 67 à 73%, Fig. 4).
Un défi supplémentaire pour l’annotation précise des génomes du pandoravirus est la présence d’introns (pratiquement indétectables par les méthodes de calcul lorsqu’ils interrompent les flux). La cartographie des séquences de transcription assemblées sur les génomes de P. salinus, P. dulcis, P. quercus et P. la néocalédonie a permis la détection d’introns splicéosomaux dans 7,5 à 13% des gènes codant les protéines validés. Ces introns ont été trouvés dans les régions non traduites (UTR) ainsi que dans les séquences codantes, comprenant en moyenne 14 gènes parmi ceux codant les 200 protéines les plus abondantes détectées dans les particules (voir ci-dessous). Bien que l’on trouve des introns splicéosomaux dans d’autres virus à phase nucléaire tels que les chlorovirus 9, les pandoravirus sont les seuls pour lesquels les introns splicéosomaux ont été validés pour plus de 10% de leurs gènes. Ces résultats confirment notre suggestion précédente selon laquelle au moins une partie des transcrits du pandoravirus sont synthétisés et traités par la machine nucléaire de l’hôte5. Pourtant, le nombre d’introns par gène viral reste beaucoup plus faible (environ 1,2 en moyenne) que pour les gènes hôtes (6,2 en moyenne10). Les gènes de Pandoravirus présentent également des UTR deux fois plus longs (Tableau supplémentaire 1) que ceux de Mimiviridae11.
La cartographie des données ARN-seq a conduit à la découverte inattendue d’un grand nombre (157-268) de transcrits longs non codants (LNCRNA) (Tableau 1, Tableau supplémentaire 1 pour les statistiques détaillées). Ces LNCRNA présentent une queue polyA et environ 4% d’entre eux contiennent des introns éplicéosomiques. Les LNCRNA sont le plus souvent transcrits à partir du brin inverse de gènes codant des protéines validés tandis qu’une fraction plus petite est exprimée dans des régions intergéniques (c’est-à-dire inter-ORF) (Fig. supplémentaire. 5). Ces transcrits non codants peuvent jouer un rôle dans la régulation de l’expression des gènes pandoravirus.
Dans l’ensemble, 82,7 à 87% des génomes de pandoravirus sont transcrits (y compris les ORF, les UTR et les LNCRNA), mais seulement 62 à 68,2% sont traduits en protéines. Ces valeurs sont beaucoup plus faibles que dans les virus géants d’autres familles (par exemple, 90% du génome de Mimivirus11 est traduit), en partie en raison des plus grands UTR flanquant les gènes du pandoravirus.
Génomique comparative
Les six ensembles de gènes codant les protéines obtenus à partir de l’annotation rigoureuse ci-dessus ont ensuite été utilisés comme références pour des comparaisons du génome entier visant à identifier des caractéristiques spécifiques de la famille des Pandoraviridae. À la suite d’un regroupement basé sur la similarité des séquences (voir Méthodes), les chevauchements relatifs des teneurs en gènes des différentes souches ont été calculés (Fig. 2a), produisant ce que nous appelons des » amas de protéines « .
Nous avons ensuite calculé le nombre de points partagés (i.e., « noyau ») et des gènes totaux au fur et à mesure que nous avons incorporé progressivement les génomes des différents isolats dans l’analyse ci-dessus, pour estimer la taille de l’ensemble de gènes de base de la famille et celle de l’ensemble de gènes accessoires / flexibles. Si les six isolats disponibles semblaient suffisants pour délimiter un génome central codant pour 455 grappes de protéines différentes, la « courbe de saturation » menant à l’ensemble de gènes total est loin d’atteindre un plateau, ce qui suggère que le pan-génome des Pandoraviridae est ouvert, chaque isolat supplémentaire devant contribuer à plus de 50 gènes supplémentaires (Fig. 2b). Cela reste à confirmer par l’analyse d’isolats supplémentaires de Pandoraviridae.
Nous avons ensuite étudié la similitude globale des six isolats de pandoravirus en analysant leur contenu génétique partagé à la fois en termes de similitude de séquence protéique et de position génomique. La similitude par paire entre les différents isolats de pandoravirus varie de 54 à 88%, calculée à partir d’un super-alignement des produits protéiques des gènes orthologues (Tableau supplémentaire 2). Un arbre phylogénétique calculé avec les mêmes données regroupe les pandoravirus en deux clades distincts (Fig. 3).
Interprété dans un contexte géographique, ce modèle de regroupement transmet deux propriétés importantes de la famille émergente. D’une part, les souches les plus divergentes ne sont pas celles isolées des endroits les plus éloignés (par exemple, le chilien P. salinus contre le français P. quercus; le Néo-calédonien P. neocaledonia contre l’Australien P. macleodensis). D’autre part, deux isolats (P. ex., P. dulcis versus P. macleodensis) d’environnements identiques (deux étangs situés à 700 m l’un de l’autre et reliés par un petit débit d’eau) sont assez différents. En attendant un inventaire à plus grande échelle des Pandoraviridae, ces résultats suggèrent déjà que les membres de cette famille sont répartis dans le monde entier avec des diversités locales et mondiales similaires.
Notre analyse des positions des gènes homologues dans les différents génomes a révélé que malgré leur divergence de séquence (Tableau supplémentaire 2), 80% des gènes orthologues restent colinéaires. Comme le montre la Fig. 4, l’architecture à longue portée des génomes de pandoravirus (i.e., basé sur les positions des gènes orthologues) est globalement conservé, malgré leurs différences de tailles (1,83-2,47 Mo). Cependant, la moitié des chromosomes du pandoravirus (la région la plus à gauche de la Fig. 4) semble curieusement évolutif plus stable que l’autre moitié où se trouvent la plupart des segments non homologues. Ces segments contiennent des gènes spécifiques à la souche et sont enrichis en duplications en tandem de protéines contenant des motifs ankyrine, MORN et F-box non orthologues. Inversement, la moitié stable du génome concentre la plupart des gènes constituant le génome central des Pandoraviridae (en haut de la Fig. 4). Fait intéressant, l’inversion locale qui distingue le chromosome de P. neocaledonia des autres souches est située près de la limite entre les régions stables et instables, et peut être liée à cette transition (bien qu’elle puisse être fortuite). Enfin, tous les génomes sont également enrichis en gènes spécifiques à la souche (et/ou en duplications) aux deux extrémités.
Nous avons ensuite analysé la distribution des protéines prédites parmi les grandes catégories fonctionnelles standard (Fig. 5). Comme elle est maintenant récurrente pour les virus à ADN eucaryotes grands et géants, la catégorie dominante est de loin celle des protéines dépourvues de signatures fonctionnelles reconnaissables. Sur les six souches, en moyenne 70% des protéines prédites correspondent à des » fonctions inconnues « . Une proportion aussi élevée est d’autant plus remarquable qu’elle s’applique à des ensembles de gènes soigneusement validés, dont les ORF douteux ont été éliminés. C’est donc une réalité biologique qu’une grande majorité de ces protéines virales ne peuvent pas être liées à des voies précédemment caractérisées. Fait remarquable, la proportion de ces protéines anonymes reste assez élevée (65%) parmi les produits du génome central du pandoravirus, c’est-à-dire parmi les gènes vraisemblablement essentiels partagés par les six souches disponibles (et probablement tous les futurs membres de la famille, selon la Fig. 2b). Fait intéressant, cette proportion reste également très élevée (≈80%) parmi les protéines détectées comme constituant les particules virales. De plus, la proportion de protéines anonymes domine totalement la classification des gènes propres à chaque souche, à plus de 95%. La catégorie fonctionnelle la plus générique, « interaction protéine-protéine », est la suivante (de 11,7 à 18,9%), correspondant à la détection de motifs très fréquents et non informatifs (par exemple, répétitions d’ankyrine). Globalement, la proportion de protéines de pandoravirus auxquelles une fonction véritablement informative pourrait être attribuée est de < 20%, y compris une machinerie complète pour la réplication et la transcription de l’ADN.
Nous avons ensuite étudié deux processus évolutifs pouvant être à l’origine de la taille extra-large des génomes du pandoravirus : horizontal et transferts de gènes (HGTs) et duplications de gènes. L’acquisition de gènes par HGT a souvent été invoquée pour expliquer la taille du génome des virus infectant l’amèbe par rapport aux virus « réguliers « 12,13. Nous avons calculé que jusqu’à un tiers des protéines de pandoravirus présentent des similitudes de séquence (en dehors de la famille des Pandoraviridae) avec des protéines des trois domaines cellulaires (Eukarya, Archaea et Eubacteria) ou d’autres virus (Fig. 4). Cependant, de telles similitudes n’impliquent pas que ces gènes aient été acquis horizontalement. Ils pourraient également désigner une origine ancestrale commune ou un transfert d’un pandoravirus à d’autres microorganismes. Nous avons analysé individuellement la position phylogénétique de chacun de ces cas pour en déduire leur origine probable: ancestral – lorsqu’il se trouve à l’extérieur d’amas d’homologues cellulaires ou viraux; acquis horizontalement — lorsqu’il se trouve profondément ancré dans les amas ci-dessus; ou transféré horizontalement à des organismes cellulaires ou à des virus non apparentés dans la situation inverse (c.-à-d. une protéine cellulaire se trouvant dans un amas de protéines de pandoravirus). Fig. supplémentaire. 6 résume les résultats de cette analyse.
Nous avons pu poser un diagnostic HGT sans ambiguïté pour 39% des cas, le reste restant indécidable ou compatible avec une origine ancestrale. Parmi les HGT probables, 49% ont suggéré un gain horizontal par les pandoravirus et 51% le transfert d’un gène d’un pandoravirus. Il est intéressant de noter que l’acquisition de gènes hôtes, un processus habituellement invoqué comme important dans l’évolution des virus, ne représente qu’une faible proportion (13%) des HGT diagnostiqués, donc moins que des virus à l’hôte (18%). La combinaison des statistiques ci-dessus avec la proportion de gènes (un tiers) à partir de laquelle nous sommes partis, dans l’ensemble du génome, suggère qu’au plus 15% (et au moins 6%) de la teneur en gènes du pandoravirus aurait pu être obtenue à partir d’organismes cellulaires (dont 5 à 2% de leur hôte Acanthamoeba contemporain) ou d’autres virus. Cette plage de valeurs est comparable à ce qui a été estimé précédemment pour Mimivirus14. Le HGT n’est donc pas le processus distinctif à l’origine des génomes des pandoravirus géants.
Nous avons ensuite étudié la prévalence des duplications parmi les gènes du pandoravirus. La figure 6a compare les proportions de gènes codant des protéines simples ou dupliqués (ou plus) des six pandoravirus disponibles avec celles calculées pour les représentants des trois autres familles connues de virus à ADN géants infectant les Acanthamoeba. Il montre clairement que la proportion de gènes à copies multiples (allant de 55 à 44%) est plus élevée chez les pandoravirus, que pour les autres familles de virus, bien qu’elle ne soit pas parfaitement corrélée avec leurs tailles de génome respectives. Les distributions des tailles de grappes entre les différentes souches de pandoravirus sont similaires. La plupart des gènes à copies multiples se trouvent dans un groupe de taille 2 (duplication) ou 3 (triplication). Le nombre de grappes plus grandes diminue alors avec leur taille (Fig. 7).
Moins de gros amas (taille >20) correspondent à des protéines partageant des motifs d’interaction protéine–protéine, tels que les répétitions Ankyrine, MORN et F-box. Étonnamment, le nombre absolu de gènes à copie unique chez les pandoravirus est similaire et parfois plus petit (p. ex., P. neocaledonia, 2 Mo) que chez les Mimivirus, avec un génome (1,18 Mo) moitié moins grand. Globalement, le nombre d’amas de gènes distincts (Fig. 6b) chevauche les Pandoraviridae (de 607 à 775) et les Mimivirus (687), suggérant que malgré leur différence de taille de génome et de particules, ces virus partagent des complexités génétiques comparables.
La duplication des gènes étant une caractéristique si importante des génomes du pandoravirus, nous l’avons étudiée plus avant en cherchant plus d’informations sur son mécanisme. Tout d’abord, nous avons calculé les distances génomiques entre les paires de paralogues les plus proches, résultant probablement des événements de duplication les plus récents. Les distributions de ces distances, similaires pour chaque pandoravirus, indiquent que les paralogues les plus proches sont le plus souvent situés les uns à côté des autres (distance = 1) ou séparés par un seul gène (distance = 2) (Fig. 8).
Nous avons ensuite tenté de corréler la distance physique séparant les gènes dupliqués avec leur divergence de séquence comme une estimation (approximative) de leur distance évolutive. Nous avons obtenu une corrélation significative entre « l’âge » estimé de l’événement de duplication et la distance génomique des deux paralogues les plus proches (Fig. 9). Ces résultats suggèrent un scénario évolutif selon lequel la plupart des duplications se produisent d’abord en tandem, avec des altérations ultérieures du génome (insertions, inversions et pertes de gènes) brouillant progressivement ce signal.
Protéomique comparative des pandoravirions
Notre précédente analyse protéomique par spectrométrie de masse des particules de P. salinus a identifié 210 produits géniques viraux, dont la plupart étaient ou sans fonction prévisible. De plus, nous avons détecté 56 protéines hôtes (Acantamoeba). Fait important, aucun des composants de l’appareil de transcription codé par le virus n’a été détecté dans les particles5. Dans ce travail, nous avons effectué les mêmes analyses sur P. salinus, P. dulcis et deux des nouveaux isolats (P. quercus et P. neocaledonia) pour déterminer dans quelle mesure les caractéristiques ci-dessus ont été conservées pour les membres de la famille des Pandoraviridae avec différents niveaux de divergence, et identifier le noyau par rapport aux composants accessoires d’un pandoravirion générique.
En raison de l’amélioration constante de la sensibilité en spectrométrie de masse, nos nouvelles analyses de virions purifiés ont conduit à l’identification fiable de 424 protéines pour P. salinus, 357 pour P. quercus, 387 pour P. dulcis et 337 pour P. neocaledonia (voir Méthodes). Cependant, ce nombre accru d’identifications correspond à des valeurs d’abondance (quantification absolue basée sur l’intensité, iBAQ) couvrant plus de cinq ordres de grandeur. De nombreuses protéines identifiées dans la queue à faible abondance pourraient donc ne pas correspondre à des composants particulaires de bonne foi, mais à des passants chargés au hasard, à des protéines « collantes » ou à des contaminants résiduels provenant de cellules infectées. Cette interprétation prudente est suggérée par plusieurs observations:
-
la queue à faible abondance est progressivement enrichie en protéines virales identifiées dans les particules d’une seule souche de pandoravirus (même si d’autres souches possèdent les gènes homologues),
-
la proportion de protéines codées par l’hôte associées aux particules augmente aux plus faibles abondances,
-
un grand nombre de ces protéines hôtes ont déjà été détectées dans des particules de virus non apparentées aux pandoravirus mais infectant le même hôte,
-
ces protéines sont abondantes dans le protéome de l’Acanthamoeba (p. ex., actine, peroxydase, etc.) les rendant plus susceptibles d’être retenus comme contaminants de purification.
Malheureusement, les distributions de valeurs iBAQ associées aux protéomes de pandoravirion ne présentaient pas de discontinuité pouvant servir de seuil d’abondance objectif pour distinguer les composants de particules de bonne foi des composants douteux. Cependant, le nombre de protéines d’Acanthamoeba identifiées augmente fortement après le rang ≈200 dans l’ensemble du protéome (Fig. 10). Suivant la même attitude conservatrice que pour la réannotation du génome, nous avons décidé de ne pas tenir compte des protéines identifiées en dessous de ce rang comme étant des témoins probables et n’avons inclus que les 200 protéines les plus abondantes dans nos analyses ultérieures des protéomes de particules (Données supplémentaires 1, Tableau supplémentaire 3). En utilisant cette définition rigoureuse des protéomes pour chacun des quatre pandoravirions différents, nous avons d’abord étudié la diversité de leurs protéines constitutives et leur niveau de conservation par rapport au contenu global des gènes des génomes de pandoravirus correspondants.
La figure 7 montre que les protéomes particulaires comprennent des protéines appartenant à 194 amas distincts, dont 102 sont partagés par les quatre souches. Le protéome central est donc structurellement et fonctionnellement diversifié. Il correspond à 52,6% des amas protéiques totaux identifiés à l’échelle mondiale chez tous les pandoravirions. En comparaison, les 467 amas de protéines codés par le génome central ne représentent que 41,6 % (soit 467/1122) du nombre total d’amas de protéines codés par le pandoravirus. La « boîte » pandoravirus utilisée pour propager les génomes des différentes souches est ainsi nettement plus conservée que leur contenu génétique (p »10-3, test du chi carré). Les gènes codant pour le protéome central présentent également la sélection purifiante la plus forte parmi tous les gènes du pandoravirus (Fig. 11 bis).
Afin d’évaluer la fiabilité de nos analyses de protéomes, nous avons comparé l’abondance (iBAQ) valeurs déterminées pour chacune des 200 protéines les plus abondantes pour deux répliques techniques et pour deux répliques biologiques effectuées sur la même souche de pandoravirus (Fig. supplémentaire. 12a &b). Une très bonne corrélation (R de Pearson > 0.97) a été obtenue dans les deux cas pour des valeurs d’abondance allant de plus de trois ordres de grandeur. Nous avons ensuite comparé les valeurs iBAQ obtenues pour les protéines orthologues partagées par les protéomes de virion de différents isolats. Là encore, une bonne corrélation a été observée (R> 0,81), comme attendu plus faible que pour les répliques ci-dessus (Fig. supplémentaire. 12c &d). Ces résultats suggèrent que bien que les particules des différentes souches apparaissent morphologiquement identiques (Fig. 1), ils admettent une flexibilité tangible tant au niveau des ensembles protéiques dont ils sont constitués (avec 89% d’orthologues par paires en moyenne), que dans leur stoechiométrie précise.
Nous avons ensuite examiné les fonctions prédites des protéines composant les particules, des plus abondantes aux moins abondantes, dans l’espoir de mieux comprendre le processus infectieux précoce. Malheureusement, seuls 19 clusters protéiques ont pu être associés à un motif fonctionnel/structurel sur les 102 clusters différents définissant le protéome de la particule centrale (Données supplémentaires 1, Tableau supplémentaire 3). Cette proportion est inférieure à celle du génome entier (Fig. 5), confirmant la nature extraterrestre de la particule de pandoravirus comme le suggèrent déjà sa morphologie et son processus d’assemblage uniques 5. Les pandoravirions sont principalement constitués de protéines sans homologues en dehors de la famille des Pandoraviridae. Aucune protéine, même semblable à distance à la protéine de capside majeure (MCP) habituellement abondante, une protéine de base prédite se liant à l’ADN ou une ATPase de conditionnement de l’ADN, caractéristiques de la plupart des grands virus à ADN eucaryotes, n’est détectée. En particulier, a P. protéine hypothétique de salinus (précédemment ps_862 maintenant réannotée psal_cds_450) récemment suggérée par Sinclair et al.15 pour être un candidat MCP fort n’a pas été détecté dans les virions de P. salinus, ni ses homologues dans les autres protéomes de souche. Ce résultat négatif souligne la nécessité d’une validation expérimentale des prédictions informatiques faites à partir de la « zone crépusculaire » de similarité de séquence. Aucune trace de l’ARN polymérase codée par le pandoravirus n’est détectée non plus, confirmant que le stade initial de l’infection nécessite la machinerie de transcription de l’hôte située dans le noyau. Des introns splicéosomiques ont été validés pour 56 gènes de pandoravirus dont les produits ont été détectés dans les pandoravirions (Données supplémentaires 1). Cela indique la préservation d’un splicéosome fonctionnel jusqu’à la fin du cycle infectieux, comme prévu par l’observation de noyaux ininterrompus (Fig. 1).
Parmi les 19 amas de protéines non anonymes, 4 présentent des motifs génériques sans indice fonctionnel spécifique : 2 domaines de type collagène et 1 domaine de type Pan/POMME qui sont impliqués dans les interactions protéine-protéine, et 1 domaine de type cupine correspondant à un pli de baril générique. Parmi les 10 protéines centrales les plus abondantes, 9 n’ont pas de fonction prédite, à l’exception de 1 présentant un domaine de type thiorédoxine C-terminale (psal_cds_383). Il convient de noter que le segment prévu couvrant la membrane de 22 acides aminés (85-107) est conservé dans toutes les souches de pandoravirus. Les 5’UTR des gènes correspondants présentent 2 introns (chez P. salinus, P. dulcis et P. quercus) et 1 chez P. neocaledonia. La thiorédoxine catalyse les réactions d’échange dithiol-disulfure par l’oxydation réversible de son centre actif. Cette protéine, avec une autre de la même famille (psal_cds_411, prédite comme soluble), pourrait être impliquée dans la réparation / la prévention des dommages oxydatifs induits par les phagosomes aux protéines virales avant le stade initial de l’infection. Les particules partagent également une autre enzyme rédox abondante, une thiol oxydoréductase de type ERV qui peut être impliquée dans la maturation des protéines Fe / S. Une autre protéine de base (psal_cds_1260) avec une similitude à distance avec une thiorédoxine réductase peut participer à la régénération des sites actifs oxydés des enzymes ci-dessus. Parmi les protéines de base les plus abondantes, psal_cds_232 est prédit comme se liant à l’ADN et peut être impliqué dans l’emballage du génome. Une amine oxydase dépendante du NAD (psal_cds_628) et une déshydrogénase couplée au FAD (psal_cds_1132) complètent le panel d’enzymes redox putatives conservées. D’autres protéines de base prédites comprennent une kinase Ser/ thr et une phosphatase qui sont des fonctions régulatrices typiques. Une protéase sérine, une lipase, une phospholipase de type patatine et un homologue distant d’une nucléoporine pourraient faire partie de la boîte à outils utilisée pour transporter les génomes du pandoravirus vers le cytoplasme puis vers le noyau (tableau supplémentaire 3). Enfin, deux protéines centrales (psal_cds_118 et psal_cds_874) partagent un motif endoribonucléase et pourraient fonctionner comme régulateurs transcriptionnels ciblant l’ARNm cellulaire.
Au contraire de la définition de l’ensemble des protéines de base partagées par tous les pandoravirions, nous avons également étudié les composants spécifiques à la souche. Malheureusement, la plupart des protéines de virion uniques à une souche donnée (environ 10 en moyenne) sont anonymes et en faible abondance. Aucune prédiction n’a pu être faite sur la conséquence fonctionnelle de leur présence dans les particules.