Articles

大きなRNA分子のサイズを予測する

結果

現在のRNA折りたたみプログラムは、長い配列(26)の精度が限られていることが知 しかし、我々の目的のためには、個々のペアのすべて、あるいは大部分が正しく予測される必要はありません。 むしろ、予測された構造は、3Dサイズを決定する粗い粒度の特徴をキャプチャするのに十分正確である必要があります。 したがって、私たちの質問は次のようになります: 大きなssRNAの相対的なサイズは、それらの二次構造の適切な特性の計算推定値から予測することができますか?

このような推定を行うには、3Dサイズを決定する二次構造の粗い粒度の特性を特定する必要があります。 最も明らかに、そして直接的に、この基準を満たす二次構造の単一の特徴は、その「拡張性」である。”と述べている。 図1AおよびBは、それぞれ、ほぼ同じ長さの「典型的に見える」ウイルスおよびランダムssRNAを示す。 ランダムssRNAは著しく拡張されていることがわかる。 のssRNAである。 1AはLeviviridaeファミリーのウイルスからのものです。 Bromovirus属、Tymovirus属およびTobamovirus属からのさらなる代表的な構造を、図1 1Aおよび図1 2Bに示す。 S2およびS3。

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml図。 1.

ssRNAの二次構造を予測した。 (A)腸内細菌ファージQ Β(Leviviridaeファミリー中の)ssRNA。 (B)ランダムに置換されたssRNA。 それぞれの長さは≈4,000ntであり、同じスケールに示されています。 これらの構造のMldは、それぞれ221および368である。 (これらはそれぞれのアンサンブルの平均を表しています: ファージQß ssRNAのM MLD.は240であり、4,000塩基のランダムssRNAのM MLD.は361である。)黄色のオーバーレイは、Mldに関連付けられたパスを示しています(テキストとCに示されている50-ntの例を参照)。 〈MLD.値はRNAsuboptで計算しました。

二次構造の拡張性のこの違いは、3Dサイズの違いに変換されます。 拡張性を候補特性として評価するためには,この特性の定量的尺度が必要である。 BundschuhとHwaは、ssRNA二次構造における任意の塩基間の距離の尺度としてラダー距離を導入した(27)。 はしご距離LDijは、塩基iとjを結ぶ二次構造の中で最も直接的な経路に沿って交差する塩基対(”はしご”上の”ラング”)の数である。dsセクションは本質的に硬い棒であるのに対し、ssセクションはフロッピーであるため、dsセクションのみがこの距離の尺度でカウントされる。 単一の量を使用してRNA二次構造の全体的なサイズを特徴付けるために、我々はiとjのすべての組み合わせのLDijの最大値である最大ラダー距離(MLD)を導入 これを図1 0に示す。 図1Cに示すように、任意の50nt長配列のMFE二次構造を持ち、そのMLDはたまたま11である。 のMLDパスの二次構造のです。 1AとBは黄色のオーバーレイで示されています。

サイズの予測尺度としての有用性を評価するために、我々は、そのビリオンのすべてが単にタンパク質殻内に包まれたssRNAゲノムからなる六つのウイル 分類群のうち5つのウイルスは、それぞれ180コピーの単一遺伝子産物であるカプシドタンパク質で構成される固定半径の球状(T=3二十面体)殻を有する。 それらのssRNAの大きさは3,000〜7,000ntの範囲であるが、それらのカプシドの外径はすべて26〜28nmである(28、29)。 対照的に、残りの分類群、トバモウイルスのウイルスは、固定半径(18nm)が可変長(平均≥300nm)の円筒形の殻に集まる。 したがって、二十面体ウイルスのゲノムとは異なり、トバモウイルスのゲノムは固定サイズの殻に収まる必要はなく、より長いssRNAの長さは単により長い(固定直径の)円筒につながる(30)。 私たちの最初の推測から、トバモウイルスは特にコンパクトなRnaを持つ選択的な圧力下にないと予測するでしょう。 さらに、二十面体ウイルスの五つの分類群はすべてほぼ同じサイズのカプシドを有するので、ウイルスのサイズとランダムなssRNAの間の発散が配列長に伴って増加することが予想される。

このテーブルを表示します。

  • インライン表示
  • ポップアップ表示
表1。

ウイルスとランダム配列の間の≤MLD≤sと≤ALD≤sの違い

ここで分析された個々のウイルスssrnaの平均組成(本研究で検討したウイルスに非定型であるティモウイルスを含まない)は24.0%G、22.1%C、26.9%A、27.0%Uである。すなわち、GおよびC、aおよびU、およびGおよびuである。(例えば、個々のウイルスssRNAが2 2%Gおよび2 6%C、または2 6%Gおよび2 2%Cを含有するかどうかにかかわらず、その%G−%C差は4%ポイントであろう)。 これら二つの平均間のバランスを可能にするために—塩基のペアリングのためのヌクレオチドの割合とその違い—我々は、ランダムに順列配列のための”ウ この組成物を用いて、長さ2,500ntの500個のランダム配列、長さ3,000ntの500個、および長さ4,000、5,000、6,000、および7,000ntのそれぞれの300個を生成し、分析した。 各ウイルス配列およびランダム配列の〈MLD〉をRNAsuboptで決定した。

二十面体ウイルスRnaのM MLD values値は、ランダムRnaの値よりも体系的に小さく、図2に表示されているsequence MLD vs対配列長の対数–対数プロットで見ることができ 2. 各個々のウイルスssRNAは、その分類群を示す記号で指定される。 ブロモウイルスとクコモウイルスのゲノムは多部分であり、四つの異なるssRNAに分割されている。 結果は、これらの中で最長および第二最長について示され、慣例によりRna1および2として同定され、別々の(しかし明らかに同一の)カプシドに包装される。 またプロットの平均〈MLD〉(〈MLD〉)値の長さのランダムに配列し、その標準偏差の結果は約線(R2=0.993)、傾斜を示す〈MLD〉∼N0.67±0.01以上であることが判明した。

図10に示すように、

2.

Log–ウイルスおよびランダムに置換されたssRNAの配列長に対する〈MLD〉の対数プロット。 ウイルスssRNAは、キー(挿入部)に記載された記号によって同定される。 ここで解析されたブロモウイルス科はブロモウイルス属とクコモウイルス属からのものである。 直線は、ランダムな長さのシーケンスに対して計算されたM MLD values値に適合する最小二乗です2,500, 3,000, 4,000, 5,000, 6,000, そして7,000nt;縦線は標準偏差を示す。 〈MLD values値はRNAsuboptで計算した。

ランダムなssRNAのこれらのスケーリング関係は、N0に近い。Watson–Crickペアリングのみが許可されるエネルギーモデルを使用して、bundschuhとHwaによって数値的に得られた変動は、すべてのペアで相互作用エネルギーが同じであり、エントロピーは無視されます(27)。 それらの距離の尺度は、最初の基底と(N/2+1)番目の基底との間のラダー距離であり、一様な組成のランダムなシーケンスのアンサンブル内のすべての構造各ウイルスssRNAについて、我々は〈MLD〉のZスコアを計算した。

、同じ長さのランダムシーケンスの予測されたM MLD.値からそのstandard MLD.を分離する標準偏差の数。 後者は、図3にプロットされた回帰式から決定される。 2(SIテキストを参照)。 各分類群の平均Zスコアを表1に示す。 二十面体ウイルスの範囲は-1.4から-3.0の範囲であり、それらのRnaが等しい長さのランダムRnaについて予測される〈MLD.値とは異なり、smaller MLD.値よりも小さ さらに、Zスコア対の線形回帰分析。 二十面体ウイルスRnaの配列長は、信頼区間>95%で有意な負の傾きを示し、これらのRnaの相対的なコンパクトさは、ほぼ同じサイズのcapsidsに適合するために必要とされるすべてが、配列長とともに増加することを意味する。

トバモウイルスssRNAのM MLD values値の平均Zスコアは+0.6です。 可変長の円筒形のカプシドにパッケージ化されたこれらのssRNAは、二十面体ウイルスよりも拡張された二次構造と大きな〈MLD〉値を有することが顕著であ 二十面体ウイルスとトバモウイルスの両方について、それらのゲノムの予測された二次構造の間に対応があるように見える(図を参照)。 S3)およびゲノムが合わなければならないcapsidsのサイズそして形。 我々は、ウイルスのアセンブリを容易にするために、自己組織化二十面体ウイルスのssRNA配列は、比較的小さな〈MLD〉値を持っていると、これらの小さい〈MLD〉値

これらの結果は、ウイルスRnaとランダムRnaの間に見られる違いは、ウイルスRnaが生物学的起源であるという理由だけでは発生しないことを示唆している(それぞれが正の感覚で、直接翻訳されたメッセンジャー RNAである)。 これをさらに調べるために、我々は酵母(s.cerevisiae)染色体XIおよびXII上の連続した3,000塩基切片の転写物である500ssRNAを分析した。 これらの酵母由来の配列は、進化したが、特定の全体的なサイズおよび形状を有するように選択的圧力に供されていない生物学的Rnaを表すために含 表2にまとめられた我々の知見は、酵母由来RnaのM MLD〉値がランダムRnaの値とほぼ同じであることを示し、ランダムssrnaとウイルスssrnaの違いは、後者の生物学的

このテーブルを表示します。

  • インライン表示
  • ポップアップ表示
表2。

Composition MLD〉の組成依存性

前述したように、ランダムRnaの組成は、平均してウイルスRnaの組成とできるだけ密接に一致するように選択されました。 しかし、多くの個々のウイルスRnaは、ランダムRnaと組成が著しく異なり、ウイルスRnaがそれぞれ同一の組成のランダムRnaと比較された場合、〈MLD〉の同じ差が見られるかどうかという疑問を提起している。 ランダムRnaの〈MLD〉値の組成に対する感度を試験するために、本発明者らは、均一な(2 5%G、2 5%C、2 5%A、2 5%U)組成の3,0 0 0塩基無作為に置換されたRnaを分析した。 表2に記載されている結果は、〈MLD.が小さな組成変化に鈍感であることを示しています。 さらに、酵母Rnaの平均組成は、ランダムRnaの両方のセットの組成とは有意に異なるが、それらのM MLD.値はほぼ同じである。ウイルスRnaと非ウイルスRnaの間のpredicted MLD〉の予測された違いが実際のRnaに存在する可能性はどれくらいありますか?

NASUBOPTおよびRNA構造を予測するすべての類似のプログラムは、原則として、すべての可能な非偽結び目構造を見つける能力を有する。 したがって、RNAsuboptの精度(アンサンブルから適切にサンプリングする能力)は、予測できる構造(擬似ノッツを持つものを除いてすべてを予測できる)ではなく、そのエネルギーモデルによって決定されるエネルギーに依存する。 先に述べたように、我々は、RNA MLD.のようなRNA二次構造の一般的な粗粒の特徴を予測するのに十分に正確であることをRNAsuboptが必要とするだけである。 我々の調査結果は、RNAsuboptに特異的であるかどうかを評価するために(したがって、おそらくRNAsuboptが基づいている特定のエネルギーモデルのアーティファクト)、我々はRNAsuboptに似ているが、そのエネルギーモデルとそれがアンサンブルからサンプル構造の両方で多少異なるmfoldを使用してウイルスとランダムssrnaを比較した。 RNAsuboptによって生成された〈MLD〉値はmfoldによって生成されたAMLD値とは異なるのに対し、両方ともウイルスとランダムssRNAの間のMLDにおける同じ系統的な違い、およ S4)。

これらの予測の堅牢性をさらにテストするために、我々は我々の単純化されたRNA折りたたみプログラムを使用してランダムとウイルスのssRNAを比較した。

このプログラムは個々の二次構造を決定しないため、〈MLD.の計算は許可されません。 ただし、ペアリング確率を決定し、各N-塩基配列に関連付けられたN2ラダー距離のアンサンブル平均の最大値である構造全体の最大平均ラダー距離(MALD)を計算することができます。 このプログラムは、より現実的なエネルギー割り当てに基づいている上記のように、ランダムRnaとウイルスRnaの系統的な違いを予測し、ウイルス配列のMALD値が非ウイルス配列のMALD値よりも小さいことがわかりました(図を参照)。 S5)。 したがって、単に考慮に最近傍相互作用を取る高度に単純化されたエネルギーモデルでさえ、ウイルスとランダムに置換されたssRNA配列の二次構造の間の基本的な違いを明らかにするのに十分である。 長さ2,000–4,000の任意順序のためのこの簡単だったモデルを使って、MALD≤N0.66±0.02。

私たちが採用している折り畳みプログラムは、擬似ノットを含む構造体を生成することはできません。 擬似ノットは、3’末端tRNA様構造を形成するもののようなウイルスRnaで起こることが知られているが(8)、それらは典型的には局所的である(配列に沿って<102ntで分離された塩基を含む)。したがって、それらを無視することは、全体的なサイズの予測に有意な影響を与えないはずである。 証拠は、このような限り多くの400nt(31)によって分離された塩基を接続するキスヘアピンなど、より長い範囲の擬似ノットのために発見されているが、でも、これらは、ウイルスゲノムの全長に近いです。 いずれにしても、私たちの目的は、必要に応じて後に含まれる擬似ノッツ、キスヘアピン、およびその他の詳細で、全体的なサイズの決定要因をキャプチャ

RNA MLD〉をRgに変換するには、理想的な線形ポリマーや「スター」ポリマーなど、構成統計がよく理解されているポリマーモデルにRNA二次構造をマップすると便利です。

RNA MLD structuresをRgに変換するには、RNA二次構造をマップすると便利です。 上で議論した自由に接合された鎖モデルのように、最も単純な理想化を使用することによって、図に示す二つのような構造を置き換えることができ 有効な輪郭長(Leff)がM MLD.値で与えられる線形鎖によって1AおよびB。 このマッピングを完了するために、二重セクションをチェーンのリジッドリンクとしてモデル化し、ssバルジ、バブル、マルチブランチループをそれらを接続する柔軟なジョイントとしてモデル化します。 したがって、有効クーン長(beff)は、ssRNA二次構造における平均二重鎖長であり、これは、調べたすべての配列についてほぼ同じ(5bp)である特性である。 これは、1〜2nmの平均RNA二重鎖長に相当する。 DsRNAの持続長さ(曲げが観察される長さスケールの尺度)は≥60nm(32)であるため、二重断面を剛体としてモデル化することは優れた近似です。 Ssループは、平均して、約六つのss塩基を含み、したがって、我々は典型的なバブルは、各側に約三つのss塩基を持っていることを推定します。ssRNAの持続長は、ssDNA、約二塩基(33)のそれに類似している可能性が高い。

このマッピング二次構造と効果的なリニアポリマー、ということで、RgのssRNA分子の任意の配列を決定する組み込み画像を組み合わせ最後の方程式の解の前の結果、〈MLD〉∼N0.67,回組み込み画像非自己を避ける線形チェーン、ν=0.5る場合には、Rg∼N0.34、自己の回避線形チェーン、ν≈0.6、Rg∼N0.40.

このアプローチは、ssRNAの二次構造を、構造全体のすべての可能な経路を説明し、したがってすべての分岐を含む代替ポリマーモデルシステムにマッピ 直鎖状または分岐状の任意の理想的なポリマーについて、埋め込み画像ここで、Lijは単量体iとjの間の骨格に沿った距離である(34)。 上記のように進むと、埋め込み画像が取得されます。Lij,effは2番目のステップでLDijに置き換えられました。 ALDは平均ラダー距離です。 ここで、RNA ALD〉は、RNA二次構造におけるN2対のラダー距離の平均であり、〈ALD〉は、その集団平均である。 RNAfoldによって生成された対合確率から正確に計算されたAL ALD〉の値を使用することにより、図1に示す分析を繰り返しました。 2. 結果は、≦ALD≦n0.68±0.01およびrg≦N0.34で同等であり、枝が明示的に含まれる場合、ランダムssrnaとウイルスssrnaとの間の差が保存されることを示す(図 図3および表1の最後の列のAL ALD values値のZスコア)。 MLDと同様に、ALDはエネルギーモデルに関してロバストです。 簡略化された折り畳みプログラム(≦ALD≦N0.68±0.01)で得られた結果を図1 0に示す。 S6…

図10に示すように、

3.

図と同じ。 2、しかしRn ALD withで、RNAfoldで計算され、M MLD.を置き換えます。 AL ALD.は、すべてのブランチを明示的に含むサイズの尺度です。p>