Diversität und Evolution der aufstrebenden Pandoraviridae-Familie
Umweltprobenahme und Isolierung von Pandoravirus-Stämmen
Wir verwendeten dasselbe Isolationsprotokoll, das zur Entdeckung von P. salinus und P. dulcis5 führte. Es besteht darin, das Probenmaterial mit Kulturen von Akanthamöben zu mischen, die an Antibiotikakonzentrationen angepasst sind, die hoch genug sind, um das Wachstum anderer Umweltmikroorganismen (insbesondere Bakterien und Pilze) zu hemmen. Die Proben wurden zufällig aus feuchten Umgebungen entnommen, die anfällig für Akanthamöbenzellen sind. Dies führte zur Isolierung von drei neuen Pandoravirus-Stämmen: P. quercus; P. neocaledonia; und P. macleodensis (Tabelle 1, siehe Methoden). Sie weisen eine ausreichende Divergenz auf, um mit der Beurteilung der konservierten Merkmale und der Variabilität der aufkommenden Pandoraviridae-Familie zu beginnen. Gegebenenfalls schließen unsere Analysen auch Daten von P. inopinatum ein, das in einem deutschen Labor von einem Patienten mit einer Acanthamoeba-Keratitis isoliert wurde7.
Untersuchung der Replikationszyklen und Virion-Ultrastrukturen
Ausgehend von gereinigten Partikeln, die in A. castellanii-Kulturen inokuliert wurden, analysierten wir den Infektionszyklus jedes Isolats mit Licht- und Transmissionselektronenmikroskopie (ultradünner Schnitt). Wie bereits für P. salinus und P. dulcis beobachtet, dauern die Replikationszyklen dieser neuen Pandoraviren durchschnittlich 12 h5 (8 h für das schnellste P. neokaledonien). Der Infektionsprozess ist für alle Viren gleich, beginnend mit der Internalisierung einzelner Partikel durch Akanthamöbenzellen. Nach dem Öffnen ihrer apikalen Pore übertragen die Partikel („Pandoravirionen“) ihren transluzenten Inhalt durch Fusion der inneren Membran des Virions mit der des Phagosoms auf das Zytoplasma. Das frühe Stadium der Infektion ist für alle Isolate bemerkenswert ähnlich. Während wir zuvor berichteten, dass der Zellkern im späten Stadium des Infektionszyklus vollständig gestört war5, zeigte die gründliche Beobachtung der neuen Stämme neosynthetisierte Partikel im Zytoplasma von Zellen, die noch kernartige Kompartimente aufwiesen, in denen der Nukleolus nicht mehr erkennbar war (Ergänzende Abb. 1). Acht Stunden nach der Infektion wurden reife Virionen in Vakuolen sichtbar und werden durch Exozytose freigesetzt (ergänzender Film). Für alle Isolate endet der Replikationszyklus mit der Lyse der Zellen und der Freisetzung von etwa hundert Partikeln (Abb. 1).
Genomsequenzierung und Annotation
Genomische DNA von P. neocaledonia, P. macleodensis und P. quercus wurden aus gereinigten Partikeln hergestellt und entweder unter Verwendung der PacBio- oder Illumina-Plattformen sequenziert (siehe Methoden). Wie bei P. salinus, P. dulcis5 und P. inopinatum7 sind die drei neuen Genome als einzelne lineare doppelsträngige DNA (dsDNA) -Moleküle (≈60% G + C) mit Größen von 1,84 bis 2 Mb aufgebaut. Zusätzlich zu ihren transluzenten amphorenförmigen Partikeln (Abb. 1), überdurchschnittlicher G + C-Gehalt und genomischer Gigantismus bleiben somit charakteristische Merkmale der Pandoraviriden5, 8. Angesichts des hohen Anteils viraler Gene, die Proteine ohne Datenbankhomolog kodieren, sind Genvorhersagen, die auf rein Ab-initio-Berechnungsansätzen basieren (d. H. „ORFing“ – und Codierungsneigungsschätzungen), notorisch unzuverlässig, was zu Inkonsistenzen zwischen Teams führt, die unterschiedliche Werte beliebiger Parameter verwenden (z. B. minimale ORF-Größe (Open Reading Frame)). Zum Beispiel variiert bei Familien großer dsDNA-Viren, die Eukaryoten infizieren, die durchschnittliche proteinkodierende Gendichte Berichten zufolge alle 335 bp von einem Gen (Phycodnaviridae, NCBI: NC_008724) bis zu einem Gen alle 2120 bp (Herpesviridae, NCBI: NC_003038), während der Konsens eindeutig bei einem Gen pro kb liegt (z. B. bei Bakterien). Infolgedessen oszilliert man zwischen Situationen, in denen viele Gene übervorhergesagt werden, und anderen, in denen viele echte Gene wahrscheinlich übersehen werden. Eine solche Unsicherheit darüber, welche Gene „real“ sind, führt zu einem signifikanten Rauschen in vergleichenden genomischen Analysen und der anschließenden Prüfung evolutionärer Hypothesen. Darüber hinaus sind Berechnungsmethoden meist blind für Gene, die als nicht-Protein-kodierende Transkripte exprimiert werden.
Um die oben genannten Einschränkungen zu überwinden, führten wir strangspezifische RNA-seq-Experimente und Partikelproteomanalysen durch, deren Ergebnisse auf die Genomsequenzen abgebildet wurden. Nur Gene, die durch experimentelle Beweise (oder Proteinähnlichkeit) gestützt wurden, wurden in dieses stringente Reannotationsprotokoll aufgenommen (siehe Methoden, Ergänzende Abb. 2). Dieses neue Verfahren führte einerseits zu einem reduzierten Satz vorhergesagter Proteine, andererseits ermöglichte es die Entdeckung einer unerwartet großen Anzahl nicht-kodierender Transkripte (Tabelle 1).
Der neue Satz validierter proteinkodierender Gene weist einen stark verminderten Anteil von ORFs auf, die kürzer als 100 Reste sind, von denen die meisten für jeden Pandoravirus-Stamm einzigartig sind (Ergänzende Abb. 3). Das stringente Annotationsverfahren führte auch dazu, dass Gene eine gut zentrierte unimodale Verteilung der Codon Adaptation Index (CAI) -Werte aufwiesen (Ergänzende Abb. 3).
Aus Gründen der Konsistenz haben wir unser stringentes Annotationsprotokoll auf P. inopinatum und P. macleodensis extrapoliert, wodurch die Anzahl der vorhergesagten Proteine reduziert wurde, die in weiteren Vergleichen berücksichtigt wurden (siehe Methoden, Tabelle 1). Wie erwartet sind die Diskrepanzen zwischen den Standard- und den stringenten Genvorhersagen lediglich auf die Übervorhersage kleiner ORFs zurückzuführen (Länge < 300 Nukleotide). Solche willkürlichen ORFs neigen dazu, zufällig in G + C-reichen Sequenzen zu entstehen, in denen Stopcodons (TAA, TAG und TGA) seltener zufällig auftreten als in den nicht codierenden Regionen von A + T-reichen Genomen. In der Tat gelten die oben genannten Standard- und strengen Annotationsprotokolle für die A + T-Rich (74.8%) Megavirus chilensis Genom3 führte zu zwei sehr ähnlichen Sätzen vorhergesagter versus validierter proteinkodierender Gene (1120 versus 1108). Diese Kontrolle zeigt, dass unsere stringente Annotation nicht einfach die korrekten Genvorhersagen durch willkürliches Erhöhen einer Konfidenzschwelle verwirft, sondern gezielt Fehler korrigiert, die durch die G + C-reiche Zusammensetzung induziert werden. Rein rechnerische Genannotationsmethoden sind daher für G + C-reiche Genome deutlich weniger zuverlässig, insbesondere wenn sie einen großen Anteil von ORFans (d. H. ORF ohne Datenbankhomolog) kodieren als für Pandoraviren. Es ist jedoch zu beachten, dass auch nach unserer stringenten Reannotation der Anteil der vorhergesagten Proteine ohne signifikante Sequenzähnlichkeit außerhalb der Pandoraviridae-Familie recht hoch blieb (von 67 auf 73%, Ergänzende Abb. 4).Eine zusätzliche Herausforderung für die genaue Annotation der Pandoravirus-Genome ist das Vorhandensein von Introns (praktisch nicht nachweisbar durch rechnerische Methoden, wenn sie ORFans unterbrechen). Die Abbildung der assemblierten Transkriptsequenzen auf die Genome von P. salinus, P. dulcis, P. quercus und P. neocaledonia, ermöglichte den Nachweis von spleißosomalen Introns in 7,5-13% der validierten proteinkodierenden Gene. Diese Introns wurden sowohl in den untranslatierten Regionen (UTRs) als auch in den kodierenden Sequenzen gefunden, darunter im Durchschnitt 14 Gene unter denen, die für die 200 am häufigsten in den Partikeln nachgewiesenen Proteine kodieren (siehe unten). Obwohl spliceosomale Introns in anderen Viren mit einer Kernphase wie den Chloroviren vorkommen9, sind Pandoraviren die einzigen, für die spliceosomale Introns für mehr als 10% ihrer Gene validiert wurden. Diese Ergebnisse stützen unseren früheren Vorschlag, dass zumindest ein Teil der Pandoravirus-Transkripte von der Wirtskernmaschine synthetisiert und verarbeitet werden5. Dennoch bleibt die Anzahl der Introns pro viralem Gen viel niedriger (durchschnittlich etwa 1,2) als bei den Wirtsgenen (durchschnittlich 6,2)10). Pandoravirus-Gene zeigen auch doppelt so lange UTRs (ergänzende Tabelle 1) wie die von Mimiviridae11.
Die Kartierung der RNA-seq-Daten führte zur unerwarteten Entdeckung einer großen Anzahl (157-268) langer nicht-kodierender Transkripte (lncRNAs) (Tabelle 1, Ergänzende Tabelle 1 für detaillierte Statistiken). Diese lncRNAs weisen einen polyA-Schwanz auf und etwa 4% von ihnen enthalten spliceosomale Introns. lncRNAs werden am häufigsten aus dem reversen Strang validierter proteinkodierender Gene transkribiert, während ein kleinerer Anteil in intergenen (d. h. Inter-ORF) Regionen exprimiert wird (Ergänzende Abb. 5). Diese nicht-kodierenden Transkripte können eine Rolle bei der Regulation der Expression von Pandoravirus-Genen spielen.
Insgesamt werden 82,7–87% der Pandoravirus-Genome transkribiert (einschließlich ORFs, UTRs und lncRNAs), aber nur 62-68,2% werden in Proteine übersetzt. Solche Werte sind viel niedriger als bei Riesenviren aus anderen Familien (z. B. werden 90% des Mimivirus11-Genoms translatiert), teilweise aufgrund der größeren UTRs, die die Pandoravirus-Gene flankieren.
Vergleichende Genomik
Die sechs proteinkodierenden Gensätze, die aus der obigen stringenten Annotation erhalten wurden, wurden dann als Referenzen für Vergleiche des gesamten Genoms verwendet, um spezifische Merkmale der Pandoraviridae-Familie zu identifizieren. Nach einem sequenzähnlichkeitsbasierten Clustering (siehe Methoden) wurden die relativen Überlappungen der Geninhalte der verschiedenen Stämme berechnet (Abb. 2a), wodurch sogenannte „Proteincluster“ entstehen.
Wir berechneten dann die Anzahl der geteilten (d.h., „Kern“) und Gesamtgene, während wir die Genome der verschiedenen Isolate inkrementell in die obige Analyse einbezogen, um die Größe des Familienkerngensatzes und des Zubehör- / flexiblen Gensatzes abzuschätzen. Wenn die sechs verfügbaren Isolate ausreichend erschienen, um ein Kerngenom abzugrenzen, das für 455 verschiedene Proteincluster kodiert, ist die „Sättigungskurve“, die zum Gesamtgensatz führt, weit davon entfernt, ein Plateau zu erreichen, was darauf hindeutet, dass das Pandoraviridae-Pangenom offen ist, wobei jedes zusätzliche Isolat voraussichtlich mehr als 50 zusätzliche Gene beisteuert (Abb. 2b). Dies muss noch durch die Analyse zusätzlicher Pandoraviridae-Isolate bestätigt werden.
Anschließend untersuchten wir die globale Ähnlichkeit der sechs Pandoravirus-Isolate, indem wir ihre gemeinsamen Geninhalte sowohl hinsichtlich der Ähnlichkeit der Proteinsequenz als auch der genomischen Position analysierten. Die paarweise Ähnlichkeit zwischen den verschiedenen Pandoravirus-Isolaten liegt zwischen 54 und 88%, berechnet aus einer Superausrichtung der Proteinprodukte der orthologen Gene (ergänzende Tabelle 2). Ein mit den gleichen Daten berechneter phylogenetischer Baum gruppiert die Pandoraviren in zwei separate Kladen (Abb. 3).
In einem geographischen Kontext interpretiert, vermittelt dieses Clustering-Muster zwei wichtige Eigenschaften der entstehenden Familie. Auf der einen Seite sind die divergentesten Stämme nicht diejenigen, die von den entferntesten Orten isoliert wurden (z. B. der chilenische P. salinus gegen den französischen P. quercus; der neukaledonische P. neocaledonia gegen den australischen P. macleodensis). Andererseits werden zwei Isolate (z.B. P. dulcis versus P. macleodensis) aus identischen Umgebungen (zwei Teiche, die 700 m voneinander entfernt und durch einen kleinen Wasserstrom verbunden sind) sind sehr unterschiedlich. In Erwartung einer größeren Bestandsaufnahme der Pandoraviridae deuten diese Ergebnisse bereits darauf hin, dass Mitglieder dieser Familie weltweit mit ähnlichen lokalen und globalen Unterschieden verbreitet sind.
Unsere Analyse der Positionen der homologen Gene in den verschiedenen Genomen ergab, dass trotz ihrer Sequenzdivergenz (Ergänzende Tabelle 2) 80% der orthologen Gene kollinear bleiben. Wie in Fig. 4, die weiträumige Architektur der Pandoravirus-Genome (d.h., basierend auf den Positionen orthologer Gene) ist trotz ihrer Größenunterschiede (1,83–2,47 Mb) global konserviert. Die Hälfte der Pandoravirus-Chromosomen (die Region ganz links in Abb. 4) erscheint seltsamerweise evolutionär stabiler als die andere Hälfte, in der die meisten nicht homologen Segmente auftreten. Diese Segmente enthalten stammspezifische Gene und sind in Tandem-Duplikationen von nicht-orthologen Ankyrin-, MORN- und F-Box-Motiv-haltigen Proteinen angereichert. Umgekehrt konzentriert die stabile Hälfte des Genoms die meisten Gene, die das Pandoraviridae-Kerngenom bilden (oben in Abb. 4). Interessanterweise befindet sich die lokale Inversion, die das Chromosom von P. neocaledonia von den anderen Stämmen unterscheidet, nahe der Grenze zwischen den stabilen und instabilen Regionen und kann mit diesem Übergang verbunden sein (obwohl er zufällig sein kann). Schließlich sind alle Genome auch an beiden Extremitäten mit stammspezifischen Genen (und/oder Duplikationen) angereichert.
Wir analysierten dann die Verteilung der vorhergesagten Proteine auf die standardmäßigen breiten funktionellen Kategorien (Abb. 5). Wie es jetzt für große und riesige eukaryotische DNA-Viren üblich ist, ist die dominierende Kategorie bei weitem die von Proteinen, denen erkennbare funktionelle Signaturen fehlen. Über die sechs Stämme hinweg entsprechen durchschnittlich 70% der vorhergesagten Proteine „unbekannten Funktionen“. Ein solch hoher Anteil ist umso bemerkenswerter, als er für sorgfältig validierte Gensätze gilt, aus denen zweifelhafte ORFs eliminiert wurden. Es ist daher eine biologische Realität, dass eine große Mehrheit dieser viralen Proteine nicht mit zuvor charakterisierten Signalwegen verknüpft werden kann. Bemerkenswerterweise bleibt der Anteil solcher anonymen Proteine unter den Produkten des Pandoravirus-Kerngenoms, dh unter den vermutlich essentiellen Genen, die von den sechs verfügbaren Stämmen (und wahrscheinlich allen zukünftigen Familienmitgliedern gemäß Abb. 2b). Interessanterweise bleibt dieser Anteil auch unter den Proteinen, die als Bestandteil der Viruspartikel nachgewiesen wurden, sehr hoch (≈80%). Darüber hinaus dominiert der Anteil anonymer Proteine mit mehr als 95% die Klassifizierung von Genen, die für jeden Stamm einzigartig sind. Die allgemeinste funktionelle Kategorie, „Protein-Protein-Interaktion“, ist die nächstgrößte (von 11,7 bis 18,9%), entsprechend dem Nachweis von hoch häufigen und nicht informativen Motiven (z. B. Ankyrin-Wiederholungen). Insgesamt beträgt der Anteil der Pandoravirus-Proteine, denen eine wirklich informative Funktion zugeschrieben werden könnte, <20%, einschließlich einer vollständigen Maschinerie für die DNA-Replikation und -transkription.
Anschließend untersuchten wir zwei evolutionäre Prozesse, die möglicherweise am Ursprung der extragroßen Größe der Pandoravirus-Genome stehen: horizontale Gentransfers (HGTs) und duplikationen. Der Erwerb von Genen durch HGT wurde häufig herangezogen, um die Genomgröße von amöbeninfizierenden Viren im Vergleich zu „normalen“ Viren zu erklären12, 13. Wir berechneten, dass bis zu einem Drittel der Pandoravirus-Proteine Sequenzähnlichkeiten (außerhalb der Pandoraviridae-Familie) mit Proteinen aus den drei Zelldomänen (Eukarya, Archaea und Eubakterien) oder anderen Viren aufweisen (Ergänzende Abb. 4). Solche Ähnlichkeiten bedeuten jedoch nicht, dass diese Gene horizontal erworben wurden. Sie könnten auch einen gemeinsamen Ahnenursprung oder eine Übertragung von einem Pandoravirus auf andere Mikroorganismen bezeichnen. Wir haben die phylogenetische Position jedes dieser Fälle einzeln analysiert, um auf ihre wahrscheinliche Herkunft zu schließen: ancestral – wenn außerhalb von Clustern von zellulären oder viralen Homologen gefunden; horizontal erworben – wenn tief in den oben genannten Clustern eingebettet gefunden; oder horizontal auf zelluläre Organismen oder nicht verwandte Viren in der umgekehrten Situation übertragen (d. H. ein zelluläres Protein, das innerhalb eines Pandoravirus-Proteinclusters liegt). Ergänzende Fig. 6 fasst die Ergebnisse dieser Analyse zusammen.
In 39% der Fälle konnten wir eine eindeutige HGT-Diagnose stellen, der Rest blieb unentscheidbar oder mit einem Ahnenursprung vereinbar. Unter den wahrscheinlichen HGT schlugen 49% eine horizontale Verstärkung durch Pandoraviren und 51% die Übertragung eines Gens von einem Pandoravirus vor. Interessanterweise macht der Erwerb von Wirtsgenen, ein Prozess, der normalerweise als wichtig für die Evolution von Viren angesehen wird, nur einen kleinen Teil (13%) der diagnostizierten HGTs aus, also weniger als von den Viren zum Wirt (18%). Die Kombination der obigen Statistiken mit dem Anteil der Gene (ein Drittel), von denen wir ausgegangen sind, im gesamten Genom legt nahe, dass höchstens 15% (und mindestens 6%) des Pandoravirus-Gengehalts aus zellulären Organismen (einschließlich 5-2%) stammen könnten von ihrem zeitgenössischen Akanthamöbenwirt) oder anderen Viren. Dieser Wertebereich ist vergleichbar mit dem, was zuvor für Mimivirus14 geschätzt wurde. HGT ist somit nicht der charakteristische Prozess am Ursprung der Genome des Riesenpandoravirus.
Anschließend untersuchten wir die Prävalenz von Duplikationen unter Pandoravirus-Genen. Abbildung 6a vergleicht die Anteile von einzelnen versus duplizierten (oder mehr) proteinkodierenden Genen der sechs verfügbaren Pandoraviren mit denen, die für Vertreter der drei anderen bekannten Familien von Riesen-DNA-Viren berechnet wurden, die Acanthamoeba infizieren. Es zeigt deutlich, dass der Anteil der mehrfach kopierten Gene (von 55 bis 44%) bei Pandoraviren höher ist als bei den anderen Virusfamilien, obwohl er nicht perfekt mit ihren jeweiligen Genomgrößen korreliert. Die Verteilung der Clustergrößen zwischen den verschiedenen Pandoravirus-Stämmen ist ähnlich. Die meisten Multiple-Copy-Gene werden in Clustern der Größe 2 (Duplikation) oder 3 (Triplikation) gefunden. Die Anzahl der größeren Cluster nimmt dann mit ihrer Größe ab (Ergänzende Abb. 7).
Weniger große Cluster (Größe > 20) entsprechen Proteinen, die Protein–Protein-Interaktionsmotive teilen, wie Ankyrin-, MORN- und F-Box-Wiederholungen. Überraschenderweise ist die absolute Anzahl von Single-Copy-Genen in Pandoraviren ähnlich und manchmal kleiner (z. B. P. neocaledonia, 2 Mb) als die in Mimivirus, mit einem Genom (1,18 Mb) halb so groß. Insgesamt ist die Anzahl der verschiedenen Gencluster (Abb. 6b) Überschneidungen zwischen den Pandoraviridae (von 607 bis 775) und Mimivirus (687), was darauf hindeutet, dass diese Viren trotz ihres Unterschieds in Genom und Partikelgröße eine vergleichbare genetische Komplexität aufweisen.Da die Genduplikation ein so herausragendes Merkmal der Pandoravirus-Genome ist, haben wir sie weiter untersucht, um mehr über ihren Mechanismus zu erfahren. Zuerst, Wir berechneten die genomischen Abstände zwischen Paaren nächstgelegener Paraloge, höchstwahrscheinlich aus den jüngsten Duplikationsereignissen resultierend. Die Verteilungen dieser Abstände, die für jedes Pandoravirus ähnlich sind, weisen darauf hin, dass sich die nächstgelegenen Paraloge am häufigsten nebeneinander befinden (Abstand = 1) oder durch ein einzelnes Gen getrennt sind (Abstand = 2) (Ergänzende Abb. 8).
Wir haben dann versucht, die physische Entfernung zwischen duplizierten Genen mit ihrer Sequenzdivergenz als (grobe) Schätzung ihrer evolutionären Entfernung zu korrelieren. Wir erhielten eine signifikante Korrelation zwischen dem geschätzten „Alter“ des Duplikationsereignisses und der genomischen Entfernung der beiden nächstgelegenen Paralogs (Ergänzende Abb. 9). Diese Ergebnisse deuten auf ein evolutionäres Szenario hin, bei dem die meisten Duplikationen zuerst im Tandem auftreten, wobei nachfolgende Genomveränderungen (Insertionen, Inversionen und Genverluste) dieses Signal zunehmend verwischen.
Vergleichende Proteomanalyse von Pandoravirionen
Unsere vorherige massenspektrometrische Proteomanalyse von P. salinus-Partikeln identifizierte 210 virale Genprodukte, von denen die meisten ORFans oder ohne vorhersagbare Funktion. Darüber hinaus haben wir 56 Wirt (Acantamoeba) Proteine nachgewiesen. Wichtig ist, dass keine der Komponenten des virus-kodierten Transkriptionsapparates in den Partikeln nachgewiesen wurde5. In dieser Arbeit führten wir die gleichen Analysen an P. salinus, P. dulcis und zwei der neuen Isolate (P. quercus und P. neocaledonia) durch, um festzustellen, inwieweit die oben genannten Merkmale für Mitglieder der Pandoraviridae-Familie mit verschiedenen Divergenzgraden erhalten blieben, und identifizieren Sie den Kern gegenüber den Zubehörkomponenten eines generischen Pandoravirions.
Aufgrund der ständigen Sensitivitätsverbesserung in der Massenspektrometrie führten unsere neuen Analysen von gereinigten Virionen zur zuverlässigen Identifizierung von 424 Proteinen für P. salinus, 357 für P. quercus, 387 für P. dulcis und 337 für P. neocaledonia (siehe Methoden). Diese erhöhte Anzahl von Identifikationen entspricht jedoch Abundanzwerten (intensity-based absolute quantification, iBAQ), die mehr als fünf Größenordnungen umfassen. Viele der Proteine, die im Schwanz mit geringer Häufigkeit identifiziert wurden, entsprechen daher möglicherweise nicht echten Partikelkomponenten, sondern zufällig geladenen Zuschauern, „klebrigen“ Proteinen oder Restkontaminanten aus infizierten Zellen. Diese vorsichtige Interpretation wird durch mehrere Beobachtungen vorgeschlagen:
-
Der Schwanz mit geringer Häufigkeit wird progressiv mit viralen Proteinen angereichert, die in den Partikeln eines einzelnen Pandoravirus-Stammes identifiziert wurden (obwohl andere Stämme die homologen Gene besitzen),
-
Der Anteil der wirtskodierten Proteine, die mutmaßlich mit den Partikeln assoziiert sind, nimmt bei den niedrigsten Häufigkeiten zu,
-
Viele dieser Wirtsproteine wurden zuvor in Viruspartikeln nachgewiesen, die nicht mit den Pandoraviren verwandt sind, aber denselben Wirt infizieren,
-
diese Proteine sind im Acanthamöben-Proteom reichlich vorhanden (z., Aktin, Peroxidase usw.), wodurch sie eher als Reinigungskontaminanten zurückgehalten werden.
Leider zeigten die mit den Pandoravirion-Proteomen assoziierten iBAQ-Wertverteilungen keine Diskontinuität, die als objektive Abundanzschwelle dienen könnte, um bona-Fide-Partikelkomponenten von zweifelhaften zu unterscheiden. Die Anzahl der identifizierten Akanthamöbenproteine nimmt jedoch nach rank ≈200 im gesamten Proteom stark zu (Ergänzende Abb. 10). Nach der gleichen konservativen Einstellung wie bei der Genom-Reannotation haben wir uns entschieden, die Proteine, die unterhalb dieses Ranges identifiziert wurden, als wahrscheinliche Zuschauer zu ignorieren und nur die 200 am häufigsten vorkommenden Proteine in unsere weiteren Analysen der Partikelproteome aufzunehmen (Ergänzende Daten 1, Ergänzende Tabelle 3). Mit dieser stringenten Proteomdefinition für jedes der vier verschiedenen Pandoravirionen untersuchten wir zunächst die Vielfalt ihrer konstituierenden Proteine und ihren Erhaltungsgrad im Vergleich zu den globalen Geninhalten der entsprechenden Pandoravirus-Genome.Abbildung 7 zeigt, dass die Partikelproteome Proteine enthalten, die zu 194 verschiedenen Clustern gehören, von denen 102 von den vier Stämmen gemeinsam genutzt werden. Das Kernproteom ist somit strukturell und funktionell vielfältig. Es entspricht 52,6% der gesamten Proteincluster, die weltweit in allen Pandoravirionen identifiziert wurden. Im Vergleich dazu stellen die 467 Proteincluster, die vom Kerngenom codiert werden, nur 41,6% (d. H. 467/1122) der Gesamtzahl der Pandoravirus-codierten Proteincluster dar. Die Pandoravirus-„Box“, die zur Vermehrung der Genome der verschiedenen Stämme verwendet wird, ist somit signifikant konservierter als ihr Geninhalt (p “ 10-3, Chi-Quadrat-Test). Die Gene, die für das Kernproteom kodieren, zeigen auch die stärkste reinigende Selektion unter allen Pandoravirus-Genen (Ergänzende Abb. 11a).
Um die Zuverlässigkeit unserer Proteomanalysen zu bewerten, haben wir die für jeden einzelnen Pandoravirus-Stamm ermittelten Abundanzwerte (iBAQ) von den 200 am häufigsten vorkommenden Proteinen für zwei technische Replikate und für zwei biologische Replikate, die an demselben Pandoravirus-Stamm durchgeführt wurden (Ergänzende Abb. 12a & b). Eine sehr gute Korrelation (Pearson’s R > 0.97) wurde in beiden Fällen für Abundanzwerte im Bereich von über drei Größenordnungen erhalten. Anschließend verglichen wir die iBAQ-Werte für orthologe Proteine, die von den Virionsproteomen verschiedener Isolate gemeinsam genutzt werden. Auch hier wurde eine gute Korrelation beobachtet (R > 0.81), erwartungsgemäß kleiner als bei den obigen Replikaten (Ergänzende Abb. 12c & d). Diese Ergebnisse legen nahe, dass die Partikel der verschiedenen Stämme zwar morphologisch identisch erscheinen (Ergänzende Abb. 1) geben sie eine spürbare Flexibilität sowohl in Bezug auf die Proteinmengen, aus denen sie bestehen (mit durchschnittlich 89% paarweisen Orthologen), als auch in ihrer genauen Stöchiometrie zu.
Wir untersuchten dann die vorhergesagten Funktionen der Proteine, aus denen die Partikel bestehen, von den meisten bis zu den am wenigsten häufigen, in der Hoffnung, einige Einblicke in den frühen infektiösen Prozess zu gewinnen. Leider konnten von den 102 verschiedenen Clustern, die das Kernpartikelproteom definieren, nur 19 Proteincluster mit einem funktionellen/ strukturellen Motiv assoziiert werden (Ergänzende Daten 1, Ergänzende Tabelle 3). Dieser Anteil ist geringer als für das gesamte Genom (Abb. 5), was die außerirdische Natur des Pandoravirus-Partikels bestätigt, wie bereits durch seine einzigartige Morphologie und seinen Montageprozess angedeutet5. Die Pandoravirionen bestehen meist aus Proteinen ohne Homologe außerhalb der Pandoraviridae-Familie. Es wird kein Protein nachgewiesen, das auch nur annähernd dem normalerweise reichlich vorhandenen Hauptkapsidprotein (MCP), einem vorhergesagten DNA-bindenden Kernprotein oder einer DNA-verpackenden ATPase ähnelt, die für die meisten eukaryotischen großen DNA-Viren charakteristisch ist. Insbesondere ein P. hypothetisches Salinus-Protein (früher ps_862, jetzt psal_cds_450), das kürzlich von Sinclair et al.15 ein starker MCP-Kandidat zu sein, wurde weder in den P. salinus-Virionen noch in seinen Homologen in den anderen Stammproteomen nachgewiesen. Dieses negative Ergebnis unterstreicht die Notwendigkeit einer experimentellen Validierung von Computervorhersagen aus der „Twilight Zone“ der Sequenzähnlichkeit. Es wird auch keine Spur der Pandoravirus-codierten RNA-Polymerase nachgewiesen, was bestätigt, dass das Anfangsstadium der Infektion die Wirtstranskriptionsmaschinerie im Zellkern erfordert. Spliceosomale Introns wurden für 56 Pandoravirus-Gene validiert, deren Produkte in den Pandoravirionen nachgewiesen wurden (Ergänzende Daten 1). Dies deutet auf die Erhaltung eines funktionellen Spleißosoms bis zum Ende des Infektionszyklus hin, wie aus der Beobachtung ungebrochener Kerne zu erwarten ist (Ergänzende Abb. 1).
Unter den 19 nicht anonymen Proteinclustern zeigen 4 generische Motive ohne spezifische funktionelle Hinweise: 2 kollagen-ähnliche Domänen und 1 Pan / APFEL-ähnliche Domäne, die an Protein-Protein–Wechselwirkungen beteiligt sind, und 1 Cupin-ähnliche Domäne, die einer generischen Fassfalte entspricht. Unter den 10 am häufigsten vorkommenden Kernproteinen haben 9 keine vorhergesagte Funktion, mit Ausnahme von 1, die eine C-terminale thioredoxin-ähnliche Domäne aufweisen (psal_cds_383). Es ist erwähnenswert, dass das vorhergesagte membranspannende Segment von 22 Aminosäuren (85-107) in allen Pandoravirus-Stämmen konserviert ist. Die 5’UTR der entsprechenden Gene zeigen 2 Introns (in P. salinus, P. dulcis und P. quercus) und 1 in P. neocaledonia. Thioredoxin katalysiert Dithiol-Disulfid-Austauschreaktionen durch reversible Oxidation seines aktiven Zentrums. Dieses Protein, mit einem anderen der gleichen Familie (psal_cds_411, vorhergesagt als löslich), könnte an der Reparatur / Verhinderung von Phagosomen-induzierten oxidativen Schäden an viralen Proteinen vor dem Anfangsstadium der Infektion beteiligt sein. Die Partikel teilen auch ein anderes reichlich vorhandenes Redoxenzym, eine ERV-ähnliche Thioloxidoreduktase, die an der Reifung von Fe / S-Proteinen beteiligt sein kann. Ein weiteres Kernprotein (psal_cds_1260) mit einer entfernten Ähnlichkeit mit einer Thioredoxinreduktase kann an der Regeneration der oxidierten aktiven Stellen der obigen Enzyme beteiligt sein. Unter den am häufigsten vorkommenden Kernproteinen wird psal_cds_232 als DNA-bindend vorhergesagt und kann an der Genomverpackung beteiligt sein. Eine mutmaßliche NAD-abhängige Aminoxidase (psal_cds_628) und eine FAD-gekoppelte Dehydrogenase (psal_cds_1132) vervollständigen das Panel der konservierten mutmaßlichen Redoxenzyme. Andere vorhergesagte Kernproteine umfassen eine Ser / thr-Kinase und Phosphatase, die typische regulatorische Funktionen sind. Eine Serinprotease, eine Lipase, eine patatinähnliche Phospholipase und ein entferntes Homolog eines Nukleoporins könnten Teil des Werkzeugkastens sein, mit dem die Pandoravirus-Genome zum Zytoplasma und dann zum Zellkern transportiert werden (ergänzende Tabelle 3). Schließlich teilen sich zwei Kernproteine (psal_cds_118 und psal_cds_874) ein Endoribonuklease-Motiv und könnten als Transkriptionsregulatoren für zelluläre mRNA fungieren.
Zum Zeitpunkt der Definition des Satzes von Kernproteinen, die von allen Pandoravirionen gemeinsam genutzt werden, untersuchten wir auch stammspezifische Komponenten. Leider sind die meisten Virionproteine, die für einen bestimmten Stamm einzigartig sind (durchschnittlich etwa 10), anonym und in geringer Häufigkeit. Über die funktionelle Konsequenz ihres Vorhandenseins in den Partikeln konnte keine Vorhersage getroffen werden.