Articles

新種のパンドラウイルス科の多様性と進化

環境サンプリングとパンドラウイルス株の単離

我々は、P.salinusとp.dulcis5の発見につながったのと同じ単離プロトコルを使用しました。 それは他の環境の微生物(特に細菌および菌類)の成長を禁じるには十分に高い抗生の集中に合わせられるAcanthamoebaの文化と見本抽出された材料を混合するこ サンプルは、港湾アカントアメーバ細胞の影響を受けやすい湿度の高い環境からランダムに採取した。 これにより、3つの新しいパンドラウイルス株:P.quercus;P.neocaledonia;およびP.macleodensisの単離が導かれた(表1、方法を参照)。 彼らは、保存された機能と新興Pandoraviridaeファミリーの変動性の評価を開始するのに十分な発散を示します。 適切な場合、我々の分析はまた、アカントアメーバ角化症の患者からドイツの研究室で単離されたP.inopinatumからのデータが含まれています7。

この作業で使用されるパンドラウイルス分離株に関する表1データ

複製サイクルとビリオン超微細構造の研究

a.castellanii培養光および透過型電子顕微鏡(極薄断面)の両方を使用する。 P.salinusおよびP.dulcisのために前に観察されるように、これらの新しいpandoravirusesの複製周期は12h5(最も速いP.のための8hの平均を持続させるために見つけられ ネオカレドニア)。 感染プロセスは、アカントアメーバ細胞による個々の粒子の内在化から始まり、すべてのウイルスで同じである。 それらの頂端孔の開口部に続いて、粒子(”パンドラビリオン”)は、ファゴソームのそれとビリオン内部膜の融合を介して細胞質にそれらの半透明の内容物を 感染の初期段階は、すべての分離株で非常に類似している。 これまで、感染サイクルの後期に細胞核が完全に破壊されたことが報告されていました5が、新しい株を徹底的に観察すると、核小体が認識できなくなった核様コンパートメントを示す細胞の細胞質にネオ合成粒子が明らかになりました(補足図)。 1). 感染後八時間、成熟したビリオンは液胞に見えるようになり、エキソサイトーシス(補足的な映画)を介して放出される。 全ての単離株について、複製サイクルは、細胞溶解および約1 0 0個の粒子の放出で終了する(図1 0A)。 1).

図。 1
図1

新しいパンドラウイルス分離株。 環境サンプル前の細胞溶解からPandoravirus macleodensis virionsのA.castellanii細胞による過剰産生。 環境細菌はP.macleodensisvirionsと共に培養培地中に見ることができる。 (スケールバーは10μ mです)。 p.neocaledoniaによる感染の初期段階におけるA.castellanii細胞の極薄切片のb TEM画像。 Ameba pseudopodsは周囲のビリオンを巻き込む準備ができています。 10分pi、ビリオンは飲み込まれ、液胞にある(スケールバーは500nmである)。 p.salinus virionの組立プロセス中のA.castellanii細胞の極薄切片のc TEM画像(スケールバーは500nmである)。 発生期のP.quercus virionの極薄切片のd TEM画像。 (スケールバーは500nmです)。 異なる株からの成熟した粒子の構造は、任意の顕著な違いを示さない

ゲノムシーケンシングと注釈

P.neocaledonia、P.macleodensis、およびP. quercusを精製された粒子から調製し、PacbioまたはIlluminaプラットフォームのいずれかを用いて配列決定した(方法を参照のこと)。 P.salinus、P.dulcis5、およびP.inopinatum7に関しては、三つの新しいゲノムは、単一の線形二本鎖DNA(dsdna)分子(≥60%G+C)として組み立てられ、サイズは1.84から2Mbの範囲である。 それらの半透明のアンフォラ形状の粒子に加えて(Fig. 1)、平均G+Cコンテンツよりも高いとゲノム巨人は、このようにPandoraviridae5、8によって共有される特徴的な特徴のままです。 データベースホモログのないタンパク質をコードするウイルス遺伝子の割合が高いことを考えると、純粋にab initio計算アプローチに基づく遺伝子予測(すなわち、”ORFing”とコーディング傾向推定)は、任意のパラメータの異なる値(例えば、最小限のオープンリーディングフレーム(ORF)サイズ)を使用してチーム間の不整合につながる、悪名高い信頼性がない。 例えば、真核生物に感染する大規模なdsDNAウイルスの家族の中で、平均タンパク質コード遺伝子密度は、335bpごとに1つの遺伝子から変化する(Phycodnaviridae、NCBI: NC_008724)は2120bpごとに一つの遺伝子まで(Herpesviridae、NCBI:NC_003038)、コンセンサスは明らかに一つの遺伝子ごとにkb(細菌など)である。 その結果、多くの遺伝子が過剰予測されている状況と、多くの実際の遺伝子がおそらく見落とされている状況の間で振動します。 どの遺伝子が”本物”であるかについてのこのような不確実性は、比較ゲノム解析および進化仮説のその後のテストにおいて有意なノイズを導入する。 さらに、計算方法は、非タンパク質コード転写物として発現される遺伝子に対してほとんど盲目である。

上記の制限を克服するために、鎖特異的RNA-seq実験と粒子プロテオーム解析を行い、その結果をゲノム配列にマッピングしました。 実験的証拠(またはタンパク質類似性)によって支持された遺伝子のみが、この厳格な再選別プロトコルに保持された(方法、補足図を参照のこと)。 2). 一方で、この新しい手順は、予測されるタンパク質の減少セットにつながり、他方では、予期せぬ多数の非コード転写産物の発見を可能にした(表1)。

検証されたタンパク質コード遺伝子の新しいセットは、100残基よりも短いOrfの割合が強く減少し、そのほとんどは各パンドラウイルス株に固有である(補 3). 厳格な注釈手順はまた、コドン適応指数(CAI)値の十分に中心化された単峰性分布を示す遺伝子をもたらした(補足図1 0A)。 3).

一貫性のために、我々はp.inopinatumとP.macleodensisに私たちの厳格な注釈プロトコルを外挿し、さらなる比較で考慮される予測タンパク質の数を減らしました(方法、表1 予想されるように、標準と厳格な遺伝子予測との間の不一致は、単に小さなOrf(長さ<300ヌクレオチド)の過剰予測によるもので このような任意のOrfは、a+Tリッチゲノムの非コード領域に比べて、停止コドン(TAA、TAG、およびTGA)が偶然に発生しにくいG+Cリッチ配列において無作為に発生する傾向がある。 実際、上記の標準的および厳格な注釈プロトコルは、A+T−richに適用される(7 4.8%)Megavirus chilensis genome3は、予測対検証されたタンパク質コード遺伝子の二つの非常に類似したセットをもたらした(1120対1108)。 このコントロールは、私たちの厳格な注釈は、単に任意の信頼しきい値を上げることによって、最終的に正しい遺伝子予測を破棄するが、具体的にはG+C 純粋に計算された遺伝子注釈法は、パンドラウイルスのように、特にORFans(すなわち、データベースホモログなしのORF)の大部分をコードする場合、G+Cリッチゲノームのために著しく信頼性が低い。 しかし、厳格な再選別の後でさえ、Pandoraviridaeファミリー以外の有意な配列類似性のない予測されたタンパク質の割合は非常に高いままであったことに注目すべきである(67-73%、補足図。 4).

パンドラウイルスゲノムの正確な注釈のための追加の課題は、イントロンの存在です(ORFansを中断すると計算方法によって事実上検出できません)。 P.salinus、P.dulcis、P.quercus、およびP.のゲノムへの組み立てられた転写物配列のマッピング neocaledoniaは、検証されたタンパク質コード遺伝子の7.5–13%におけるスプライセソームイントロンの検出を可能にした。 これらのイントロンは、非翻訳領域(Utr)だけでなく、粒子で検出された200最も豊富なタンパク質をコードするものの中で平均14遺伝子を含むコード配列で見 スプライスオソームイントロンはクロロウイルス9のような核相を持つ他のウイルスに見られるが、パンドラウイルスはスプライスオソームイントロンが遺伝子の10%以上で検証されている唯一のウイルスである。 これらの結果は、パンドラウイルス転写物の少なくとも一部が合成され、ホスト核machinery5によって処理されることを我々の以前の提案をサポートしています。 しかし、ウイルス遺伝子あたりのイントロンの数は、宿主遺伝子(平均で6.2)よりもはるかに低い(平均で約1.2)のままである10。 パンドラウイルス遺伝子はまた、Mimiviridae11のものと同じくらい二倍の長さ(補足表1)Utrを示しています。RNA-seqデータのマッピングは、長い非コード転写物(Lncrna)の多数(157-268)の予期せぬ発見につながった(表1、詳細な統計のための補足表1)。

RNA-seqデータのマッピングは、長い非コー これらのLncrnaはpolyA尾を示し、それらの約4%はスプライソソームのイントロンを含んでいます。 LncRNAは、ほとんどの場合、検証されたタンパク質コード遺伝子の逆鎖から転写され、一方、より小さな画分は、遺伝子間(すなわち、ORF間)領域で発現される(補 5). これらの非コード転写物は、パンドラウイルス遺伝子発現の調節に役割を果たす可能性がある。全体として、パンドラウイルスゲノムの82.7–87%(Orf、Utr、Lncrnaを含む)が転写されているが、タンパク質に翻訳されるのは62-68.2%のみである。

このような値は、他のファミリーからの巨大なウイルス(例えば、ミミウイルス11ゲノムの90%が翻訳されている)よりもはるかに低く、部分的にはパンドラウイルス遺伝子に隣接するより大きなUtrのためである。

比較ゲノミクス

上記の厳格な注釈から得られた六つのタンパク質コード遺伝子セットは、Pandoraviridaeファミリーの特定の特徴を同定することを目的とした全ゲノム比較のための参照として使用された。 配列類似性に基づくクラスタリング(方法を参照)に続いて、様々な株の遺伝子内容の相対的な重複が計算された(図10)。 2a)、私達が”蛋白質の集り”と呼ぶものを作り出す。

図。 2
図2

パンドラウイルス遺伝子内容の比較。 a共有タンパク質クラスターのすべての組み合わせの分布が示されています。 インセットは、共有されるクラスターと遺伝子の数をまとめたものです6, 5, 4, 3, 2, そして1パンドラウイルス。 bコアゲノムとパンゲノムは、利用可能な六つのパンドラウイルスから推定されます。 推定ヒープ則αパラメータ(α<1)は、オープンパンゲノム50の特徴であり、一意の遺伝子51の大部分の流動性パラメータ値の特徴である。 箱ひげ図には、中央値、25番目、および75番目の百分位数が表示されます。 ひげは極端なデータポイントに対応します

その後、共有の数を計算しました(つまり、共有の数を計算しました)。 本発明者らは、上記の分析に種々の分離株のゲノムを段階的に組み込んで、ファミリーコア遺伝子セットのサイズおよび付属/柔軟遺伝子セットのサイ 6つの利用可能な分離株が455の異なるタンパク質クラスターをコードするコアゲノムを描写するのに十分なように見えた場合、全遺伝子セットにつながる「飽和曲線」は、Pandoraviridaeのパンゲノムが開いていることを示唆し、それぞれの追加の分離株が50以上の追加の遺伝子に寄与すると予測されている(図2)。 2b)。 これは、追加のPandoraviridae分離株の分析によって確認されたままである。

その後、タンパク質配列の類似性とゲノム位置の両方の観点から、それらの共有遺伝子内容を分析することにより、六つのパンドラウイルス単離株 異なるパンドラウイルス分離株の間のペアワイズ類似性は、オルソログ遺伝子のタンパク質産物のスーパーアラインメントから計算されるように、54から88%の範囲である(補足表2)。 同じデータで計算された系統樹は、パンドラウイルスを二つの別々のクレードにクラスター化します(図。 3).

図。 3
figure3

提案されたPandoraviridaeファミリーの系統発生構造。 リサンプリングから推定されたブートストラップ値はすべて1に等しいため、報告されませんでした。 同義と非同義の置換率比(ω)は、二つの別々のクレードについて計算され、有意に異なっている(スケールバーは0である。07substitution/site)

地理的な文脈で解釈され、このクラスタリングパターンは、新興ファミリーの二つの重要な特性を伝えます。 一方で、最も発散する株は、最も遠い場所から単離されたものではない(例えば、チリのp.salinus対フランスのp.quercus;Neo-Caledonian P.neocaledonia対オーストラリアのP.macleodensis)。 一方、2つの分離株(例えば、P.dulcis対P.dulcis)は、2つの分離株(例えば、P.dulcis対P.dulcis macleodensis)は、同一の環境(700メートル離れて位置し、小さな水の流れによって接続された二つの池)からはかなり異なっています。 Pandoraviridaeの大規模なインベントリを保留して、これらの結果は、すでにこの家族のメンバーは、同様のローカルおよびグローバルな多様性を世界中に分布しているこ

様々なゲノムにおける相同遺伝子の位置の我々の分析は、それらの配列の相違(補足表2)にもかかわらず、オルソロガス遺伝子の80%が同一直線上に残 図に示すように。 4、パンドラウイルスゲノムの長距離アーキテクチャ(すなわち、オルソログ遺伝子の位置に基づいて)サイズ(1.83–2.47Mb)の違いにもかかわらず、グローバルに保存されています。 しかし、パンドラウイルスの染色体の半分(図中の左端の領域)は、パンドラウイルスの染色体の半分(図中の左端の領域)である。 4)不思議なことに、非相同セグメントのほとんどが発生する他の半分よりも進化的により安定して表示されます。 これらのセグメントは、株特異的遺伝子を含み、非オルトロガスアンキリン、MORN、およびFボックスモチーフ含有タンパク質のタンデム重複に富みます。 逆に、ゲノムの安定した半分は、Pandoraviridaeコアゲノムを構成する遺伝子の大部分を集中させている(図の上)。 4). 興味深いことに、p.neocaledoniaの染色体を他の株と区別する局所反転は、安定領域と不安定領域の境界付近に位置し、この移行に関連している可能性がある(偶然であるかもしれないが)。 最後に、すべてのゲノムはまた、両四肢で株特異的遺伝子(および/または重複)に富化されている。

図。 4
図4

利用可能なパンドラウイルスゲノムの共線性。 コア遺伝子の累積頻度が上部に示されています。 保存された共線ブロックは、すべてのウイルスで同じ色に着色されます。 白いブロックは、非保存されたDNAセグメントに対応します(スケールバーは500kbです)

我々は、標準的な広範な機能カテゴリ間の予測されたタ 5). それが大きく、巨大な真核生物DNAのウイルスのために今再発であるので、支配的な部門は認識可能な機能シグネチャを欠いている蛋白質のはるかに 6株では、予測されるタンパク質の平均70%が「未知の機能」に対応しています。 このような高い割合は、慎重に検証された遺伝子セットに適用されるため、疑わしいOrfが排除されているため、より顕著です。 したがって、これらのウイルスタンパク質の大部分が以前に特徴付けられた経路にリンクすることができないことは生物学的現実である。 注目すべきことに、このような匿名タンパク質の割合は、パンドラウイルスコアゲノムの生成物の中で非常に高い(65%)のままであり、それは六つの利用可能な株(およびおそらく将来のすべてのファミリーメンバーによって共有されるおそらく必須遺伝子の一つである。 2b)。 興味深いことに、この割合はまたウイルスの粒子を構成するように検出される蛋白質の間で非常に高い(≥80%)残ります。 さらに、匿名タンパク質の割合は、95%以上で、各株に固有の遺伝子の分類を完全に支配しています。 最も一般的な機能カテゴリである”タンパク質–タンパク質相互作用”は、非常に頻繁で情報のないモチーフ(例えば、アンキリンリピート)の検出に対応する(11.7から18.9%)次に最大である。 全体として、真に有益な機能が起因する可能性のあるパンドラウイルスタンパク質の割合は、DNA複製および転写のための完全な機械を含む<20%である。

図。 5
figure5

機能注釈

我々は、おそらくパンドラウイルスゲノムの特大サイズの起源で二つの進化過程を調….. Hgtによる遺伝子の獲得は、「通常の」ウイルスと比較してameba感染ウイルスのゲノムサイズを説明するために頻繁に呼び出されました12,13。 我々は、パンドラウイルスのタンパク質の最大三分の一は、三つの細胞ドメイン(真核生物、古細菌、真正細菌)または他のウイルスからのタンパク質と(パンドラウイルス科の外)配列の類似性を示すことを計算した(補足図。 4). しかし、そのような類似性は、これらの遺伝子が水平に獲得されたことを意味するものではない。 それらはまた、共通の祖先起源またはパンドラウイルスから他の微生物への移行を示す可能性がある。 我々は、個別に彼らの可能性の高い起源を推測するために、これらのケースのそれぞれの系統発生位置を分析しました: 祖先—細胞またはウイルスの同族体のクラスターの外で発見されたとき;水平に取得—深く上記のクラスターに埋め込まれて発見されたとき;または水平に逆の状況で細胞生物または無関係なウイルスに転送(すなわち、パンドラウイルスタンパク質クラスター内にある細胞タンパク質)。 補足図。 図6は、この分析の結果を要約したものである。

私たちは、症例の39%について明確なHGT診断を行うことができ、残りは決定不能または先祖の起源と互換性があります。 可能性の高いHGTの中で、49%がパンドラウイルスによる水平利得を示唆し、51%がパンドラウイルスからの遺伝子の移入を示唆した。 興味深いことに、宿主遺伝子の獲得は、通常、ウイルスの進化において重要として呼び出されるプロセスは、診断されたHgtのわずかな割合(13%)を表すだけであり、ウイルスから宿主へのもの(18%)よりも少ない。 以上の統計を全ゲノムから始めた遺伝子の割合(三分の一)と組み合わせると、パンドラウイルス遺伝子含量の最大15%(少なくとも6%)が細胞生物(現代のアカントアメーバ宿主からの5-2%を含む)または他のウイルスから得られた可能性があることが示唆されている。 このような値の範囲は、以前にMimivirus14について推定された値に匹敵します。 したがって、HGTはジャイアントパンドラウイルスゲノムの起源における独特のプロセスではありません。その後、パンドラウイルス遺伝子間の重複の有病率を調査した。

図6aは、利用可能な六つのパンドラウイルスの単一対重複(またはそれ以上)のタンパク質コード遺伝子の割合を、アカントアメーバに感染する巨大DNAウイ それは明らかに、それは完全にそれぞれのゲノムサイズと相関していないが、パンドラウイルスでは、他のウイルスファミリーよりも、(55から44%の範囲)多 異なるパンドラウイルス株間のクラスタサイズの分布は類似している。 ほとんどの複数コピー遺伝子は、サイズ2(重複)または3(三重化)のクラスターに見出される。 大きなクラスターの数は、そのサイズとともに減少します(補足図。 7).

図。 6
図6

様々な巨大ウイルスファミリーにおける遺伝子重複の分析。 巨大なウイルスにおける単一コピー対複数コピー遺伝子の分布。 b異なる遺伝子クラスターの数

より少ない大きなクラスター(サイズ>20)は、Ankyrin、MORN、およびF–boxリピートなどのタンパク質-タンパク質相互作用モチーフを共有するタンパク質に対応する。 驚くべきことに、パンドラウイルスの単一コピー遺伝子の絶対数は、ミミウイルスのそれよりも似ており、時には小さい(例えば、p.neocaledonia、2Mb)、ゲノム(1.18Mb)の半分の 全体的に、別個の遺伝子クラスターの数(図1)。 6b)はPandoraviridae(607から775)とMimivirus(687)の間で重複しており、ゲノムと粒子サイズの違いにもかかわらず、これらのウイルスは同等の遺伝的複雑さを共有していることを示唆している。

遺伝子の重複は、パンドラウイルスゲノムのような顕著な特徴である、我々はさらにそのメカニズムについてのより多くの洞察を探してそれを調 まず、最も近いパラログのペア間のゲノム距離を計算し、最も最近の重複イベントに起因する可能性が最も高い。 各パンドラウイルスについて同様のこれらの距離の分布は、最も近いパラログが最も頻繁に互いに隣に位置する(距離=1)か、または単一の遺伝子によ 8).次に、複製された遺伝子を分離する物理的距離を、それらの進化的距離の(大まかな)推定値として、それらの配列の発散と相関させることを試みた。

我々は、重複イベントの推定された”年齢”と二つの最も近いパラログのゲノム距離との間に有意な相関を得た(補足図。 9). これらの結果は、ほとんどの重複が最初にタンデムで発生し、その後のゲノム変化(挿入、反転、および遺伝子損失)が徐々にこの信号をぼかす進化のシナリオを示唆している。

pandoravirionsの比較プロテオミクス

P.salinus粒子の私たちの以前の質量分析プロテオミクス分析は、210ウイルス遺伝子産物を同定し、そのほとんどはORFansまた さらに、我々は56ホスト(アカンタモエバ)タンパク質を検出した。 重要なことに、ウイルスコードされた転写装置の成分のいずれも、粒子中に検出されなかった5。 本研究では、P.salinus、P.dulcis、および新しい分離株(P.quercusとP.neocaledonia)の二つに同じ分析を行って、上記の機能は、発散の様々なレベルを持つPandoraviridaeファミリーのメンバーのために保存され

質量分析における一定の感度の改善のために、精製されたビリオンの新しい分析は、P.salinusの424タンパク質、P.quercusの357、P.dulcisの387、およびP.neocaledoniaの337の信頼性の高い同定につながった(方法を参照)。 しかし、この識別数の増加は、5桁以上に及ぶ豊富値(強度ベースの絶対定量化、iBAQ)に対応しています。 低豊富尾部で同定されたタンパク質の多くは、善意の粒子成分に対応していないが、ランダムにロードされた傍観者、”粘着性”タンパク質、または感染細胞か この慎重な解釈は、いくつかの観察によって示唆されている:

  • 低存在度の尾は、単一のパンドラウイルス株の粒子で同定されたウイルスタンパク質で徐々に濃縮されています(他の株は相同遺伝子を持っていますが)、

  • これらのタンパク質は、アカンタモエバプロテオームに豊富に存在する(例えば、、アクチン、ペルオキシダーゼ、等)浄化の汚染物として保たれるためにそれらを本当らしいようにします。

残念ながら、pandoravirionプロテオームに関連付けられているiBAQ値の分布は、疑わしいものから善意の粒子成分を区別するための客観的な存在量のしきい値とし しかし、同定されたアカントアメーバタンパク質の数は、プロテオーム全体でランク≥200の後に急激に増加する(補足図。 10). ゲノム再分析と同じ保守的な態度に続いて、我々は可能性が高い傍観者としてこのランク以下に同定されたタンパク質を無視し、唯一の粒子プロテオームのさらなる解析に200最も豊富なタンパク質を含めたことを決定した(補足データ1、補足表3)。 四つの異なるパンドラビリオンのそれぞれのためのこの厳格なプロテオーム定義を使用して、我々は最初に対応するパンドラウイルスゲノムのグローバル遺伝子内容と比較して、それらの構成タンパク質の多様性と保全のそれらのレベルを調べた。

図7は、粒子プロテオームには194個の異なるクラスターに属するタンパク質が含まれており、そのうち102個は四つの株によって共有されていることを示 コアプロテオームは、このように構造的および機能的に多様である。 それは全体的にすべてのpandoravirionsで識別される総蛋白質の集りの52.6%に対応します。 比較すると、コアゲノムによってエンコードされた467タンパク質クラスターは、パンドラウイルスによってエンコードされたタンパク質クラスターの全体数の41.6%(すなわち、467/1122)のみを表す。 したがって、異なる株のゲノムを伝播するために使用されるパンドラウイルス「ボックス」は、その遺伝子含量よりも有意に保存されている(p”10-3、カイ二乗検定)。 コアプロテオームをコードする遺伝子はまた、すべてのパンドラウイルス遺伝子の中で最も強い精製選択を示す(補足図。 11a)。

図。 7
figure7

四つの異なるパンドラウイルス株の粒子プロテオームのベン図

私たちのプロテオーム分析の信頼性を評価するために、我々はそれぞれについて決定された存在量(iBAQ)値を比較した。同じパンドラウイルス株に対して行われた二つの技術的複製および二つの生物学的複製のための200の最も豊富なタンパク質のうち(補足図。 12a&b)。 非常に良い相関(ピアソンのR>0。97)は、三桁以上の豊富値の両方のケースで得られました。 次に,異なる分離株のビリオンプロテオームによって共有されるオルソロガス蛋白質に対して得られたibaq値を比較した。 ここでもまた、良好な相関が観察された(R<div i d=”c9 8bfedefb”></div>0. 12c&d)。 これらの結果は、異なる株の粒子が形態学的に同一であるように見えるが(補足図。 1)、彼らはから成っている蛋白質セットの点では有形柔軟性を是認する(平均のpairwise orthologuesの89%と)、そして精密な化学量論で。

我々は、初期の感染プロセスについてのいくつかの洞察を得ることを期待して、最も豊富なものから最も少ないものまで、粒子を構成するタンパク質の予測された機能を調べた。 残念ながら、唯一の19タンパク質クラスターは、コア粒子プロテオームを定義する102の異なるクラスターのうち、機能/構造モチーフに関連付けることができ この割合は全ゲノムの場合よりも少ない(図10)。 5)、既に独特な形態およびアセンブリプロセスによって提案されるようにpandoravirusの粒子の外国の性質を確認する5。 PandoravirionsはPandoraviridae家族の外の同族体なしで蛋白質から大抵成っています。 通常豊富な主要なカプシド蛋白質(MCP)、予測されたDNA結合の中心蛋白質、またはDNA包装ATPase、ほとんどの真核生物の大きいDNAのウイルスの認刻極印に遠隔に類似した蛋白質は検出されない。 特に、P. シンクレアらによって最近提案されたsalinus仮説タンパク質(以前はps_862が現在psal_cds_450を再アノテーションした)。15強力なMCP候補であることは、P.salinusビリオン、また他の株プロテオームにおけるその同族体では検出されませんでした。 この否定的な結果は、配列類似性の”トワイライトゾーン”から行われたコンピュータ予測の実験的検証の必要性を強調している。 パンドラウイルスでコードされたRNAポリメラーゼの痕跡も検出されず、感染の初期段階では核に位置する宿主転写機構が必要であることが確認されている。 スプライセソームイントロンは、56パンドラウイルス遺伝子の製品は、パンドラビリオンで検出された(補足データ1)のために検証されました。 これは、壊れていない核の観察から予想されるように、感染サイクルの終わりまでの機能的スプライスオソームの保存を示す(補足図。 1).

19の非匿名タンパク質クラスターのうち、4つは特定の機能的手がかりを持たない一般的なモチーフを示しています:2つのコラーゲン様ドメインと1つのパン/リンゴ様ドメインは、タンパク質-タンパク質相互作用に関与しており、1つのキューピン様ドメインは、一般的なバレル倍に対応しています。 最も豊富な10のコアタンパク質のうち、9はc末端チオレドキシン様ドメイン(psal_cds_383)を示す1を除いて、予測された機能を持っていません。 これは、22アミノ酸(85-107)の予測膜スパニングセグメントは、すべてのパンドラウイルス株で保存されていることに注目する価値があります。 対応する遺伝子の5’UTRは、2つのイントロン(P.salinus、P.dulcis、およびP.quercus)とP.neocaledoniaで1を示す。 チオレドキシンは、その活性中心の可逆的酸化を介してジチオール-ジスルフィド交換反応を触媒する。 このタンパク質は、同じファミリー(psal_cds_411、可溶性として予測)の別のものと、感染の初期段階の前にウイルスタンパク質へのファゴソーム誘発酸化的損傷を修復/防止することに関与している可能性がある。 粒子はまた別の豊富な酸化還元酵素、Fe/S蛋白質の成熟にかかわるかもしれないERVそっくりのチオールの酸化還元酵素を共有します。 チオレドキシンレダクターゼと遠隔類似性を有する別のコアタンパク質(psal_cds_1260)は、上記の酵素の酸化活性部位の再生に関与する可能性がある。 最も豊富なコアタンパク質の中で、psal_cds_232はDNA結合として予測され、ゲノムパッケージングに関与している可能性があります。 一つの推定NAD依存性アミンオキシダーゼ(psal_cds_628)と一つのFAD結合デヒドロゲナーゼ(psal_cds_1132)保存された推定酸化還元酵素のパネルを完了します。 他の予測されたコアタンパク質には、典型的な調節機能であるSer/thrキナーゼおよびホスファターゼが含まれる。 一つのセリンプロテアーゼ、一つのリパーゼ、一つのパタチン様ホスホリパーゼ、およびヌクレオポリンの一つのリモートホモログは、パンドラウイルスのゲノムを細胞質に、その後核にフェリーするために使用されるツールボックスの一部である可能性があります(補足表3)。 最後に、二つのコアタンパク質(psal_cds_118とpsal_cds_874)は、エンドリボヌクレアーゼモチーフを共有し、細胞mRNAを標的とする転写調節因子として機能する可能性がある。

すべてのパンドラビリオンによって共有されるコアタンパク質のセットを定義するのとは反対に、我々はまた、株特異的な成分を調べた。 残念なことに、特定の株(平均で約10)に固有のビリオンタンパク質のほとんどは匿名であり、低い存在量である。 粒子中のそれらの存在の機能的帰結については予測できなかった。