Articles

Vorhersage der Größe großer RNA-Moleküle

Ergebnisse

Die aktuellen RNA-Faltungsprogramme haben bekanntermaßen eine begrenzte Genauigkeit für lange Sequenzen (26). Für unsere Zwecke ist es jedoch nicht notwendig, dass alle oder sogar die meisten der einzelnen Paarungen korrekt vorhergesagt werden. Vielmehr müssen die vorhergesagten Strukturen nur ausreichend genau sein, um die grobkörnigen Merkmale zu erfassen, die die 3D-Größe bestimmen. Unsere Frage wird daher die folgende: Können die relativen Größen großer ssRNAs aus rechnerischen Schätzungen geeigneter Eigenschaften ihrer Sekundärstrukturen vorhergesagt werden?

Um solche Schätzungen vorzunehmen, müssen wir ein grobkörniges Merkmal der Sekundärstruktur identifizieren, das die 3D-Größe bestimmt. Das einzige Merkmal einer Sekundärstruktur, das dieses Kriterium am offensichtlichsten und direkt erfüllt, ist ihre „Ausdehnung“.“ Abb. 1A und B zeigen jeweils „typisch aussehende“ virale und zufällige ssRNAs etwa gleicher Länge. Es ist zu sehen, dass die zufällige ssRNA auffallend länger ist. Die ssRNA in Fig. 1A stammt von einem Virus aus der Familie der Leviviridae. Weitere repräsentative Strukturen aus den Gattungen Bromovirus, Tymovirus und Tobamovirus sind in Fig. S2 und S3.

iv xmlns:xhtml=“http://www.w3.org/1999/xhtml Abb. 1.

Vorhergesagte Sekundärstrukturen von ssRNAs. (A) Enterobacteria Phage Qß (in der Familie der Leviviridae) ssRNA. (B) Zufällig permutierte ssRNA. Jeder ist ≈4.000 nt lang und im gleichen Maßstab dargestellt. Die MLDs dieser Strukturen sind 221 bzw. 368. (Diese sind repräsentativ für ihre jeweiligen Ensemble-Durchschnittswerte: Die 〈MLD〉 der Phagen-Qß-ssRNA beträgt 240 und die 〈MLD〉 von zufälligen 4.000-Basen-ssRNAs beträgt 361.) Die gelben Überlagerungen veranschaulichen die Pfade, die den MLDs zugeordnet sind (siehe Text und das 50-nt-Beispiel in C). 〈MLD〉-Werte wurden mit RNAsubopt berechnet; Zahlen wurden mit mfold gezeichnet.

Dieser Unterschied in der Ausdehnung von Sekundärstrukturen führt zu einem Unterschied in der 3D-Größe. Um die Ausdehnung als Kandidatenmerkmal zu bewerten, ist ein quantitatives Maß dieser Eigenschaft erforderlich. Bundschuh und Hwa führten den Leiterabstand als Maß für den Abstand zwischen beliebigen Basen in ssRNA-Sekundärstrukturen ein (27). Der Leiterabstand, LDij, ist die Anzahl der Basenpaare („Sprossen“ auf einer „Leiter“), die entlang des direktesten Pfades in der Sekundärstruktur gekreuzt werden, der die Basen i und j verbindet. Um die Gesamtgröße von RNA-Sekundärstrukturen anhand einer einzigen Größe zu charakterisieren, führen wir den maximalen Leiterabstand (Maximum Ladder Distance, MLD) ein, der der größte Wert von LDij für alle Kombinationen von i und j ist. Dies ist in Fig. 1C, mit einer MFE-Sekundärstruktur einer beliebigen 50-nt-langen Sequenz, deren MLD zufällig 11 ist. Die MLD-Pfade dieser Sekundärstruktur und derjenigen in Fig. 1A und B sind mit gelben Überlagerungen dargestellt.

Um seine Nützlichkeit als prädiktives Maß für die Größe zu bewerten, bestimmten wir Ensemble-durchschnittliche MLD (〈MLD〉) -Werte in sechs viralen Taxa (in Tabelle 1 aufgeführt), deren Virionen alle einfach aus einem ssRNA-Genom bestehen, das in einer Proteinhülle eingeschlossen ist. Die Viren von fünf der Taxa haben jeweils eine kugelförmige (T = 3 ikosaedrische) Hülle mit festem Radius, die aus 180 Kopien eines einzelnen Genprodukts, des Kapsidproteins, besteht. Ihre ssRNAs reichen in der Größe von 3.000 bis 7.000 nt, aber die Außendurchmesser ihrer Kapside sind alle 26-28 nm (28, 29). Im Gegensatz dazu sammeln sich die Viren des verbleibenden Taxons, der Tobamoviren, zu zylindrischen Schalen mit festem Radius (18 nm), aber variabler Länge (durchschnittlich ≈300 nm). Im Gegensatz zu den Genomen der Ikosaederviren müssen die der Tobamoviren daher nicht in eine Hülle fester Größe passen; längere ssRNA-Längen führen einfach zu längeren Zylindern (festem Durchmesser) (30). Aus unserer Ausgangsvermutung würde man vorhersagen, dass die Tobamoviren nicht unter selektivem Druck stehen, RNAs zu haben, die besonders kompakt sind. Da außerdem alle fünf Taxa von ikosaedrischen Viren Kapside von ungefähr gleicher Größe aufweisen, würde man erwarten, dass die Divergenz zwischen der Größe der viralen und zufälligen ssRNAs mit der Sequenzlänge zunimmt.

Diese Tabelle anzeigen:

  • Inline anzeigen
  • Popup anzeigen
Tabelle 1.

Unterschiede in 〈MLD〉s und 〈ALD〉s zwischen viralen und zufälligen Sequenzen

Die durchschnittliche Zusammensetzung der einzelnen hier analysierten viralen ssRNAs (ohne die Tymoviren, deren Zusammensetzungen für die in dieser Studie untersuchten Viren untypisch sind) beträgt 24,0% G, 22,1% C, 26,9% A und 27,0% U. Wir müssen jedoch nicht nur die durchschnittliche Zusammensetzung berücksichtigen, sondern auch die durchschnittliche Diskrepanz in der Zusammensetzung zwischen Basen, die , d. H., G und C, A und U, und G und U. Diese Zusammensetzungsdiskrepanz (wieder, die Tymoviren nicht einschließend) ist 2.9 Prozentpunkte für% G -% C, 2,9 für% A -% U und 4,0 für% G -% U (z. B. ob eine einzelne virale ssRNA 22% G und 26% C oder 26% G und 22% C enthielt, ihre% G −% C-Differenz wäre 4 Prozentpunkte). Um ein Gleichgewicht zwischen diesen beiden Durchschnittswerten zu ermöglichen – Nukleotidprozentsätze und ihre Unterschiede für die Paarungsbasen — wählten wir die „virusähnliche“ Zusammensetzung 24% G, 22% C, 26% A und 28% U für die zufällig permutierten Sequenzen. Mit dieser Zusammensetzung generierten und analysierten wir 500 Zufallssequenzen der Länge 2.500 nt, 500 der Länge 3.000 nt und 300 in jeder der Längen 4.000, 5.000, 6.000 und 7.000 nt. Die 〈MLD〉 jeder viralen und zufälligen Sequenz wurde mit RNAsubopt bestimmt.

Die 〈MLD〉–Werte der ikosaedrischen viralen RNAs sind systematisch kleiner als die der zufälligen RNAs, wie im Log-Log-Diagramm von 〈MLD〉 vs. Sequenzlänge in Abb. 2. Jede einzelne virale ssRNA ist mit einem Symbol gekennzeichnet, das ihr Taxon angibt. Die Genome der Brom- und Cucomoviren sind mehrteilig; Sie sind auf vier verschiedene ssRNAs aufgeteilt. Ergebnisse werden für das längste und zweitlängste von diesen gezeigt, identifiziert durch Vereinbarung als RNAs 1 und 2, die in getrennte (aber anscheinend identische) Kapside verpacken. Ebenfalls eingezeichnet sind die durchschnittlichen 〈MLD〉 (〈MLD〉) – Werte der verschiedenen Längen-random-Sequenzen und deren Standardabweichungen; das Ergebnis ist in etwa linear (R2 = 0.993), mit einer Neigung angibt 〈MLD〉 ∼ N0.67±0.01 über diesen Bereich.

Abb. 2.

Log-Log-Diagramm von 〈MLD〉 vs. Sequenzlänge für virale und zufällig permutierte ssRNAs. Die viralen ssRNAs werden durch die im Schlüssel (Inset) aufgeführten Symbole identifiziert. Die hier analysierten Bromoviridae stammen aus den Gattungen Bromovirus und Cucomovirus. Die gerade Linie ist eine Anpassung der kleinsten Quadrate an die 〈MLD〉 -Werte, die für zufällige Längenfolgen berechnet werden 2,500, 3,000, 4,000, 5,000, 6,000, und 7.000 nt; die vertikalen Linien zeigen die Standardabweichungen. 〈MLD〉-Werte wurden mit RNAsubopt berechnet.

Diese Skalierungsbeziehungen für zufällige ssRNAs liegen nahe bei N0.69 Variation numerisch erhalten von Bundschuh und Hwa für ein ähnliches Entfernungsmaß unter Verwendung eines Energiemodells, in dem nur Watson–Crick-Paarungen zulässig sind, die Wechselwirkungsenergie für alle Paare gleich ist und die Entropie ignoriert wird (27). Ihr Entfernungsmaß ist der Leiterabstand zwischen der ersten und (N / 2 + 1) -ten Basis, gemittelt über alle Strukturen im Ensemble für eine zufällige Sequenz einheitlicher Zusammensetzung und dann über viele Sequenzen.

Für jede virale ssRNA berechneten wir den Z-Score der 〈MLD〉, d.h., die Anzahl der Standardabweichungen, die ihre separatingMLD〉 von den vorhergesagten 〈MLD〉 -Werten von Zufallssequenzen gleicher Länge trennen. Diese wird aus der in Fig. 2 (siehe SI-Text). Der mittlere Z-Score jedes Taxons ist in Tabelle 1 aufgeführt. Diejenigen der ikosaedrischen Viren reichen von -1,4 bis -3,0, was darauf hinweist, dass ihre RNAs 〈MLD〉 -Werte aufweisen, die sich von den 〈MLD〉 -Werten unterscheiden und kleiner sind, die für zufällige RNAs gleicher Länge vorhergesagt wurden. Ferner wird eine lineare Regressionsanalyse von Z-Score vs. die Sequenzlänge für die ikosaedrischen viralen RNAs zeigt eine signifikante negative Steigung mit einem Konfidenzintervall >95%, was bedeutet, dass die relative Kompaktheit dieser RNAs, die alle in etwa gleich große Kapside passen müssen, mit der Sequenzlänge zunimmt.

Der durchschnittliche Z-Score der 〈MLD〉-Werte der Tobamovirus-ssRNAs beträgt +0,6. Auffällig ist, dass diese ssRNAs, die sich in zylindrische Kapside variabler Länge verpacken, ausgedehntere Sekundärstrukturen und größere 〈MLD〉-Werte aufweisen als die der Ikosaederviren. Sowohl für die Ikosaederviren als auch für die Tobamoviren scheint es eine Übereinstimmung zwischen den vorhergesagten Sekundärstrukturen ihrer Genome zu geben (siehe Abb. S3) und die Größe und Form der Kapside, in die die Genome passen müssen. Wir nehmen an, dass sich ssRNA-Sequenzen von selbstorganisierenden ikosaedrischen Viren entwickelt haben, um die virale Assemblierung zu erleichtern relativ kleine 〈MLD〉 -Werte und dass diese kleineren 〈MLD〉 -Werte zu kleineren Rg-Werten führen.Diese Ergebnisse legen nahe, dass die Unterschiede zwischen den viralen und zufälligen RNAs nicht einfach deshalb auftreten, weil die viralen RNAs biologischen Ursprungs sind (jede ist eine direkt translatierte Boten-RNA mit positivem Sinn); Andernfalls würde man keinen Unterschied zwischen den Ergebnissen für die ikosaedrischen und zylindrischen Viren sehen. Um dies weiter zu untersuchen, analysierten wir 500 ssRNAs, die die Transkripte aufeinanderfolgender 3.000-Basenabschnitte auf den Hefe-Chromosomen XI und XII (S. cerevisiae) sind. Diese von Hefe abgeleiteten Sequenzen wurden eingeschlossen, um biologische RNAs darzustellen, die, obwohl sie entwickelt wurden, keinem selektiven Druck ausgesetzt wurden, um eine bestimmte Gesamtgröße und -form zu haben. Unsere Ergebnisse, zusammengestellt in Tabelle 2, zeigen, dass die 〈MLD〉 -Werte der Hefe-abgeleiteten RNAs ungefähr gleich denen der zufälligen RNAs sind, was darauf hindeutet, dass die Unterschiede zwischen den zufälligen und viralen ssRNAs nicht nur aus dem biologischen Ursprung der letzteren resultieren.

Diese Tabelle anzeigen:

  • Inline anzeigen
  • Popup anzeigen
Tabelle 2.

Zusammensetzungsabhängigkeit von 〈MLD〉

Wie bereits erwähnt, wurde die Zusammensetzung der zufälligen RNAs so gewählt, dass sie im Durchschnitt so genau wie möglich mit der der viralen RNAs übereinstimmt. Viele einzelne virale RNAs unterscheiden sich jedoch signifikant in der Zusammensetzung von den zufälligen RNAs, was die Frage aufwirft, ob die gleichen Unterschiede in 〈MLD〉 zu sehen wären, wenn die viralen RNAs jeweils mit zufälligen RNAs identischer Zusammensetzung verglichen würden. Um die Empfindlichkeit gegenüber der Zusammensetzung der 〈MLD〉 -Werte der zufälligen RNAs zu testen, analysierten wir 3.000 zufällig permutierte RNAs mit einheitlicher Zusammensetzung (25% G, 25% C, 25% A, 25% U). Die in Tabelle 2 aufgeführten Ergebnisse zeigen, dass das 〈MLD〉 unempfindlich gegenüber kleinen Zusammensetzungsänderungen ist. Ferner unterscheidet sich die durchschnittliche Zusammensetzung der Hefe-RNAs signifikant von der beider Sätze zufälliger RNAs, jedoch sind ihre 〈MLD〉 -Werte ungefähr gleich.

Wie wahrscheinlich ist es, dass die vorhergesagten Unterschiede in 〈MLD〉 zwischen viralen und nichtviralen RNAs in tatsächlichen RNAs vorhanden sind? RNAsubopt und alle ähnlichen Programme, die die RNA-Struktur vorhersagen, haben im Prinzip die Fähigkeit, alle möglichen nicht pseudoknoteten Strukturen zu finden. Daher hängt die Genauigkeit von RNAsubopt (seine Fähigkeit, aus dem Ensemble richtig abzutasten) nicht davon ab, welche Strukturen es vorhersagen kann (es kann alle vorhersagen, abgesehen von denen mit Pseudoknots), sondern vielmehr von den Energien, die es ihnen zuweist, die durch sein Energiemodell bestimmt werden. Wie bereits erwähnt, benötigen wir nur, dass RNAsubopt ausreichend genau ist, um allgemeine grobkörnige Merkmale der RNA-Sekundärstruktur wie 〈MLD〉 vorherzusagen. Um zu beurteilen, ob unsere Ergebnisse spezifisch für RNAsubopt sind (und daher möglicherweise ein Artefakt des jeweiligen Energiemodells, auf dem RNAsubopt basiert), verglichen wir virale und zufällige ssRNAs mit mfold, das RNAsubopt ähnlich ist, sich jedoch sowohl in seinem Energiemodell als auch in den Strukturen, die es aus dem Ensemble abgreift, etwas unterscheidet. Während sich die von RNAsubopt generierten 〈MLD〉-Werte von den von mfold generierten AMLD-Werten unterscheiden, zeigten beide den gleichen systematischen Unterschied in der MLD zwischen viralen und zufälligen ssRNAs und ungefähr die gleichen Skalierungsbeziehungen für zufällige Sequenzen (AMLD ∼ N0.74± 0.01 für mfold, siehe Abb. S4).

Um die Robustheit dieser Vorhersagen weiter zu testen, verglichen wir zufällige und virale ssRNAs mit unserem vereinfachten RNA-Faltungsprogramm. Dieses Programm bestimmt keine einzelnen Sekundärstrukturen und erlaubt daher keine Berechnung von 〈MLD〉. Es bestimmt jedoch Paarungswahrscheinlichkeiten, was die Berechnung des maximalen durchschnittlichen Leiterabstands (MALD) des gesamten Ensembles von Strukturen ermöglicht, der der Maximalwert der Ensemblemittelwerte der N2 Leiterabstände ist, die jeder N-Basissequenz zugeordnet sind. Wir finden, dass dieses Programm — wie die oben diskutierten, die auf realistischeren Energiezuweisungen basieren — auch systematische Unterschiede zwischen zufälligen und viralen RNAs vorhersagt, was zu kleineren MALD-Werten für virale Sequenzen führt als für nichtvirale (siehe Abb. S5). Selbst ein stark vereinfachtes Energiemodell, das lediglich die Wechselwirkungen zwischen nächsten Nachbarn berücksichtigt, reicht daher aus, um einen grundlegenden Unterschied zwischen den Sekundärstrukturen viraler und zufällig permutierter ssRNA-Sequenzen aufzudecken. Mit diesem vereinfachten Modell ergibt sich für zufällige Sequenzen der Längen 2.000–4.000 MALD ∼ N0,66± 0,02.

Die von uns verwendeten Faltprogramme können keine Strukturen erzeugen, die Pseudoknoten enthalten. Obwohl bekannt ist, dass Pseudoknots in viralen RNAs auftreten, wie z. B. solchen, die 3′-terminale tRNA-ähnliche Strukturen bilden (8), sind sie typischerweise lokal (mit Basen, die durch <102 nt entlang der Sequenz getrennt sind); Dementsprechend sollte das Ignorieren dieser Basen unsere Vorhersage der Gesamtgröße nicht signifikant beeinflussen. Es wurden Hinweise auf Pseudoknots mit größerer Reichweite gefunden, wie z. B. küssende Haarnadeln, die Basen verbinden, die durch bis zu 400 nt (31) getrennt sind, aber selbst diese sind nahe an der Gesamtlänge viraler Genome. In jedem Fall ist es unser Ziel, ein theoretisches Modell nullter Ordnung zu entwickeln, das die Determinanten der Gesamtgröße erfasst, wobei Pseudoknots, küssende Haarnadeln und andere Details später nach Bedarf einbezogen werden.

Um 〈MLD〉 in Rg zu übersetzen, ist es nützlich, die RNA-Sekundärstrukturen auf Polymermodelle abzubilden, deren Konfigurationsstatistiken gut verstanden sind, wie ideale lineare und „Stern“ -Polymere. Durch die Verwendung der einfachsten Idealisierung, wie in dem oben diskutierten frei verbundenen Kettenmodell, können wir Strukturen wie die beiden in Abb. 1A und B durch lineare Ketten dargestellt, deren effektive Konturlängen (Leff) durch ihre valuesMLD〉-Werte gegeben sind. Um diese Abbildung abzuschließen, modellieren wir die Duplexabschnitte als starre Glieder der Kette und die ss-Ausbuchtungen, Blasen und mehrverzweigten Schleifen als flexible Gelenke, die sie verbinden. Die effektive Kuhnlänge (beff) ist somit die mittlere Duplexlänge in der ssRNA-Sekundärstruktur, eine Eigenschaft, die für alle untersuchten Sequenzen annähernd gleich ist (5 bp). Dies entspricht einer mittleren RNA-Duplexlänge von 1-2 nm. Da die Persistenzlänge (ein Maß für die Längenskala, bei der eine Biegung beobachtet wird) von dsRNA ≈ 60 nm (32) beträgt, ist die Modellierung der Duplexabschnitte als starre Körper eine ausgezeichnete Annäherung. Die ss-Schleifen enthalten im Durchschnitt ungefähr sechs ss-Basen, und so schätzen wir, dass eine typische Blase ungefähr drei ss-Basen auf jeder Seite hat; Die Persistenzlänge von ssRNA ist wahrscheinlich ähnlich der von ssDNA, ungefähr zwei Basen (33).

Aus dieser Zuordnung zwischen Sekundärstrukturen und effektiven linearen Polymeren folgt, dass die Rg eines ssRNA-Moleküls mit einer beliebigen Sequenz durchEingebettetes Bild bestimmt werden sollte Die Kombination der letzten Gleichung mit unserem früheren Ergebnis, 〈MLD〉 ∼ N0.67, ergibtEingebettetes Bild Für eine nicht selbstvermeidende lineare Kette, ν = 0,5, in diesem Fall Rg ∼ N0. 34; für eine selbstvermeidende lineare Kette ν ≈ 0,6, was Rg ∼ N0,40 ergibt.

Dieser Ansatz kann erweitert werden, indem die ssRNA-Sekundärstrukturen auf ein alternatives Polymermodellsystem abgebildet werden, das alle möglichen Pfade über die Struktur hinweg berücksichtigt und somit alle Zweige einschließt. Für jedes ideale Polymer, linear oder verzweigt,Eingebettetes Bild wobei Lij der Abstand entlang des Rückgrats zwischen den Monomeren i und j ist (34). Wenn wir wie oben vorgehen, erhalten wirEingebettetes Bild, wobei Lij,eff im zweiten Schritt durch LDij ersetzt wurde. Die ALD ist der durchschnittliche Leiterabstand, d.h., der Durchschnitt der N2-paarweisen Leiterabstände in einer RNA-Sekundärstruktur, und 〈ALD〉 ist sein Ensemble-Durchschnitt. Durch die Verwendung von Werten für 〈ALD〉, die genau aus den von RNAfold generierten Paarungswahrscheinlichkeiten berechnet wurden, haben wir die in Abb. 2. Die Ergebnisse sind mit 〈ALD〉 ∼ N0,68 ± 0,01 und Rg ∼ N0,34 äquivalent und zeigen, dass die Unterschiede zwischen zufälligen und viralen ssRNAs erhalten bleiben, wenn Zweige explizit eingeschlossen werden (siehe Abb. 3 und die Z-Werte der 〈ALD〉-Werte in der letzten Spalte der Tabelle 1). Wie bei MLD ist ALD in Bezug auf das Energiemodell robust. Ergebnisse, die mit dem vereinfachten Faltprogramm (〈ALD〉 ∼ N0,68 ± 0,01) erhalten wurden, sind in Abb. S6.

Abb. 3.

Wie Fig. 2, aber mit 〈ALD〉, berechnet mit RNAfold, ersetzt 〈MLD〉. 〈ALD〉 ist ein Maß für die Größe, das explizit alle Zweige enthält.