Articles

Het voorspellen van de grootte van grote RNA-moleculen

resultaten

de huidige RNA-vouwprogramma ‘ s hebben een beperkte nauwkeurigheid voor lange sequenties (26). Voor onze doeleinden is het echter niet nodig dat alle, of zelfs de meeste, van de individuele paringen correct worden voorspeld. In plaats daarvan hoeven de voorspelde structuren alleen voldoende nauwkeurig te zijn om de grofkorrelige kenmerken vast te leggen die 3D-grootte bepalen. Onze vraag wordt daarom de volgende: Kan de relatieve grootte van grote ssRNAs worden voorspeld uit computationele schattingen van geschikte eigenschappen van hun secundaire structuren?

om dergelijke schattingen te maken, moeten we een grofkorrelige karakteristiek van de secundaire structuur identificeren die 3D-grootte dicteert. Het enige kenmerk van een secundaire structuur die het duidelijkst en rechtstreeks aan dit criterium voldoet, is haar “omvang”.” Fig. 1 A en B tonen, respectievelijk,” typisch uitziende ” virale en willekeurige ssRNAs van ongeveer dezelfde lengte. Men kan zien dat de willekeurige ssRNA opvallend meer uitgebreid is. De ssRNA in Fig. 1A komt van een virus uit de familie Leviviridae. Aanvullende representatieve structuren, van de bromovirus, Tymovirus en Tobamovirus geslachten, worden getoond in vijgen. S2 en S3.

iv xmlns: xhtml= “http://www.w3.org/1999/xhtml Fig. 1.

voorspelde secundaire structuren van ssRNAs. (A) Enterobacteria Fage Qß (in de Leviviridae familie) ssRNA. B) aselect permuted ssRNA. Elk is ≈4.000 nt lang en getoond op dezelfde schaal. De MLD ‘ s van deze structuren zijn respectievelijk 221 en 368. (Deze zijn representatief voor hun respectieve ensemble gemiddelden: De pH MLD〉 van de faag Qß ssRNA is 240, en de 〈MLD〉 van 4.000-basis willekeurige ssRNAs is 361.) De gele overlays illustreren de paden geassocieerd met de MLDs (zie tekst en het 50-nt voorbeeld afgebeeld in C). 〈MLD〉 waarden werden berekend met RNAsubopt; cijfers werden getrokken met mfold.

Dit verschil in de uitbreiding van secundaire structuren vertaalt zich in een verschil in 3D-grootte. Om de uitbreiding als kandidaatkarakteristiek te beoordelen, is een kwantitatieve maat van deze eigenschap vereist. Bundschuh en Hwa introduceerden ladderafstand als een maat voor de afstand tussen willekeurige basen in ssRNA secundaire structuren (27). De ladderafstand, LDij, is het aantal basenparen (“sporten” op een “ladder”) die langs het meest directe pad in de secundaire structuur worden gekruist die basen i en j verbindt. omdat DS-secties in wezen stijve staven zijn, terwijl ss-secties floppy zijn, worden alleen ds-secties in deze maat van afstand geteld. Om de totale grootte van RNA secundaire structuren te karakteriseren met behulp van een enkele hoeveelheid, introduceren we maximale ladderafstand (mld), de grootste waarde van LDij voor alle combinaties van i en j. met andere woorden, het is de ladderafstand geassocieerd met de langste directe weg over de secundaire structuur. Dit wordt geïllustreerd in Fig. 1C, met een MFE secundaire structuur van een willekeurige 50-nt-lange reeks, waarvan mld toevallig 11 is. De MLD-paden van deze secundaire structuur en van die in Fig. 1 A en B zijn afgebeeld met gele overlays.

om het nut ervan als voorspellende maat voor grootte te evalueren, bepaalden we ensemble-average mld (〈MLD〉) waarden in zes virale taxa (vermeld in Tabel 1), waarvan alle virionen gewoon bestaan uit een ssRNA-genoom ingekapseld in een proteïne omhulsel. De virussen van vijf van de taxa hebben elk een vaste radius bolvormig (t = 3 icosahedrale) omhulsel dat bestaat uit 180 kopieën van één enkel genproduct, het capside-eiwit. Hun ssRNAs variëren in grootte van 3.000 tot 7.000 nt, maar de buitendiameters van hun kapsels zijn allemaal 26-28 nm (28, 29). De virussen van het resterende taxon, de Tobamovirussen, vormen daarentegen cilindrische schelpen met een vaste straal (18 nm) maar een variabele lengte (gemiddeld ≈300 nm). Dus, in tegenstelling tot de genomen van de icosahedrale virussen, die van de Tobamovirussen zijn niet nodig om te passen in een shell van vaste grootte; langere ssRNA lengtes leiden gewoon tot langere (vaste diameter) cilinders (30). Van ons beginnende vermoeden, zou men voorspellen dat de Tobamoviruses niet onder selectieve druk staan om RNAs te hebben die bijzonder compact zijn. Bovendien, omdat alle vijf taxa van icosahedral virussen capsides van ongeveer dezelfde grootte hebben, zou men de divergentie tussen de grootte van virale en willekeurige ssRNAs verwachten om met opeenvolgingslengte te verhogen.

View this table:

  • View inline
  • View popup
Tabel 1.

Verschillen in 〈MLD〉s en 〈ALD〉s tussen virale en willekeurige volgorde

De gemiddelde samenstelling van de afzonderlijke virale ssRNAs geanalyseerd hier (niet met inbegrip van de Tymoviruses, wiens composities atypisch zijn voor de virussen onderzocht in deze studie) is 24.0% G, 22.1% C, 26.9% A, en 27.0% U. Maar, we moeten niet alleen voor de gemiddelde samenstelling, maar ook het gemiddelde verschil in samenstelling tussen bases potentieel in staat zijn te koppelen, d.w.z., G en C, A en C, en G, en U. Deze samenstelling discrepantie (nogmaals, niet met inbegrip van de Tymoviruses) is 2.9 procentpunten voor %G- % C, 2,9 voor % A – % U, en 4,0 voor %G − %U (bijvoorbeeld, of een individuele virale ssRNA 22% G en 26% C bevatte, of 26% G en 22% C, zou het verschil in %G − %C 4 procentpunten zijn). Om een evenwicht tussen deze twee gemiddelden—nucleotidepercentages en hun verschillen voor het in paren rangschikken van basissen toe te staan—kozen wij de “virus-als” samenstelling 24% G, 22% C, 26% A, en 28% U voor de willekeurig permuteerde opeenvolgingen. Met deze samenstelling hebben we 500 willekeurige sequenties van lengte 2.500 nt, 500 van lengte 3.000 nt en 300 in elk van de lengtes 4.000, 5.000, 6.000 en 7.000 nt gegenereerd en geanalyseerd. De 〈MLD〉 van elke virale en willekeurige sequentie werd bepaald met RNAsubopt.

de 〈MLD〉 waarden van de icosahedrale virale RNAs zijn systematisch kleiner dan die van de willekeurige RNAs, zoals te zien is in de log–log plot van 〈MLD vs. vs.sequentielengte weergegeven in Fig. 2. Elke individuele virale ssRNA wordt aangeduid met een symbool dat zijn taxon aangeeft. De genomen van de Bromovirussen en Cucomovirussen zijn meervoudig; ze zijn verdeeld over vier verschillende ssRNAs. De resultaten worden getoond voor de langste en de op een na langste van deze, volgens de conventie aangeduid als RNAs 1 en 2, die in afzonderlijke (maar blijkbaar identieke) kapsels verpakken. Ook uitgezet zijn de gemiddelde 〈MLD〉 (〈MLD〉) waarden van de verschillende lengtes van willekeurige reeksen, en hun standaarddeviaties; het resultaat is ongeveer lineair (R2 = 0.993), met een aanduiding 〈MLD〉 ∼ N0.67±0.01 over dit aanbod.

Fig. 2.

Log – log plot van 〈MLD vs. vs. sequentielengte voor virale en willekeurig permuteerde ssRNAs. De virale ssRNAs worden geà dentificeerd door de symbolen die in de sleutel (inzet) worden vermeld. De Bromoviridae hier geanalyseerd zijn van de bromovirus en Cucomovirus geslachten. De rechte lijn is de kleinste kwadraten die passen bij de 〈MLD〉 waarden berekend voor willekeurige lengtesequenties 2,500, 3,000, 4,000, 5,000, 6,000, en 7.000 nt; de verticale lijnen tonen de standaardafwijkingen. 〈Mld〉 waarden werden berekend met RNAsubopt.

Deze schaalrelaties voor willekeurige ssrna ‘ s liggen dicht bij de N0.69 variatie numeriek verkregen door Bundschuh en Hwa voor een vergelijkbare afstandsmaat, door gebruik te maken van een energiemodel waarin alleen Watson–Crick-paren zijn toegestaan, is de interactieenergie voor alle paren hetzelfde en wordt entropie genegeerd (27). Hun maat van afstand is de ladderafstand tussen de eerste en (N/2 + 1)de basis, gemiddeld over alle structuren in het ensemble voor een willekeurige sequentie van uniforme compositie en vervolgens over vele sequenties.

voor elke virale ssRNA berekenden we de Z-score van de 〈MLD〉, d.w.z., het aantal standaardafwijkingen dat de predicted MLD〉 scheidt van de voorspelde values MLD〉 – waarden van willekeurige sequenties van dezelfde lengte. Dit laatste wordt bepaald aan de hand van de in Fig. 2 (zie SI-tekst). De gemiddelde Z-score van elk taxon staat in Tabel 1. Die van de icosahedrale virussen variëren van -1,4 tot -3,0, wat aangeeft dat hun RNAs 〈MLD〉 waarden hebben die verschillen van en kleiner zijn dan de predicted MLD〉 waarden voorspeld voor willekeurige RNAs van gelijke lengte. Verder, een lineaire regressieanalyse van Z score vs. sequentielengte voor de icosahedrale virale RNAs vertoont een significante negatieve helling met een betrouwbaarheidsinterval >95%, wat impliceert dat de relatieve compactheid van deze RNAs, die alle nodig zijn om in capsiden van ongeveer dezelfde grootte te passen, toeneemt met de sequentielengte.

De gemiddelde Z-score van de 〈MLD〉 – waarden van het Tobamovirus ssRNAs is + 0,6. Het is opvallend dat deze ssrna ‘ s, die in cilindrische kapsels van variabele lengte verpakken, meer uitgebreide secundaire structuren en grotere 〈MLD values waarden hebben dan die van de icosahedrale virussen. Voor zowel de icosahedrale virussen als de Tobamovirussen lijkt er een overeenkomst te bestaan tussen de voorspelde secundaire structuren van hun genomen (zie Fig. S3) en de grootte en vorm van de kapsels waarin de genomen moeten passen. We veronderstellen dat, om virale assemblage te vergemakkelijken, ssRNA sequenties van zelfassemblagende icosahedrale virussen zijn geëvolueerd om relatief kleine 〈MLD〉 waarden te hebben en dat deze kleinere 〈MLD〉 waarden aanleiding geven tot kleinere Rg waarden.

deze resultaten suggereren dat de gevonden verschillen tussen de virale en willekeurige RNA ’s niet voorkomen simpelweg omdat de virale RNA’ s van biologische oorsprong zijn (elk is een positief-zintuig, direct vertaald messenger RNA); anders zou men geen verschil zien tussen de resultaten voor de icosahedrale en cilindrische virussen. Om dit verder te onderzoeken, analyseerden wij 500 ssRNAs die de transcripten van opeenvolgende 3.000-basissecties op gist (S. cerevisiae) chromosomen XI en XII zijn. Deze gist-afgeleide opeenvolgingen werden opgenomen om biologische RNAs te vertegenwoordigen die, hoewel geëvolueerd, niet aan selectieve druk zijn onderworpen om een bepaalde algemene grootte en vorm te hebben. Onze bevindingen, samengesteld in Tabel 2, tonen aan dat de 〈MLD〉 waarden van de gist afgeleide RNAs ongeveer dezelfde zijn als die van de willekeurige RNAs, wat aangeeft dat de verschillen tussen de willekeurige en virale ssrna ‘ s niet alleen het gevolg zijn van de biologische oorsprong van de laatste.

View this table:

  • View inline
  • View popup
Tabel 2.

samenstelling-afhankelijkheid van 〈MLD〉

zoals eerder vermeld, werd de samenstelling van de willekeurige RNAs gekozen om gemiddeld zo nauw mogelijk overeen te komen met die van de virale RNAs. Nochtans, verschillen vele individuele virale RNAs beduidend in samenstelling van de willekeurige RNAs, die de vraag opwerpen of de zelfde verschillen in m MLD〉 zouden worden gezien als de virale RNAs elk met willekeurige RNAs van identieke samenstelling werden vergeleken. Om de gevoeligheid voor de samenstelling van de 〈MLD〉 waarden van de willekeurige RNAs te testen, analyseerden we 3.000-base willekeurig permuted RNAs van uniforme (25% G, 25% C, 25% A, 25% U) samenstelling. De resultaten, vermeld in Tabel 2, tonen aan dat de 〈MLD〉 ongevoelig is voor kleine wijzigingen in de samenstelling. Verder verschilt de gemiddelde samenstelling van de gist RNAs beduidend van die van beide reeksen willekeurige RNAs, maar hun 〈MLD〉 waarden zijn ongeveer hetzelfde.

hoe waarschijnlijk is het dat de voorspelde verschillen in 〈MLD〉 tussen virale en niet-virale RNAs aanwezig zijn in werkelijke RNAs? RNAsubopt en alle gelijkaardige programma ‘ s die de structuur van RNA voorspellen hebben het vermogen, in principe, om alle mogelijke niet-pseudoknotted structuren te vinden. Dus, de nauwkeurigheid van RNAsubopt (zijn vermogen om goed monster uit het ensemble) hangt niet af van welke structuren het in staat is om te voorspellen (het kan ze allemaal voorspellen, met uitzondering van degenen met pseudoknots), maar eerder op de energieën die het toewijst aan hen, die worden bepaald door zijn energiemodel. Zoals eerder vermeld, eisen we alleen dat RNAsubopt voldoende nauwkeurig is om algemene grofkorrelige kenmerken van de secundaire structuur van RNA te voorspellen, zoals 〈MLD〉. Om te beoordelen of onze bevindingen specifiek zijn voor RNAsubopt (en dus mogelijk een Artefact van het specifieke energiemodel waarop RNAsubopt is gebaseerd), hebben we virale en willekeurige ssRNAs vergeleken met mfold, dat vergelijkbaar is met RNAsubopt, maar enigszins verschilt in zowel zijn energiemodel als de structuren die het samples van het ensemble. Terwijl de 〈MLD〉 waarden gegenereerd door RNAsubopt verschillen van de AMLD waarden gegenereerd door mfold, vertoonden beide hetzelfde systematische verschil in MLD tussen virale en willekeurige ssRNAs, en ongeveer dezelfde schaling relaties voor willekeurige sequenties (AMLD ∼ N0.74±0,01 voor mfold, zie Fig. S4).

om de robuustheid van deze voorspellingen verder te testen, vergeleken we willekeurige en virale ssrna ‘ s met behulp van ons vereenvoudigd RNA-vouwprogramma. Dit programma bepaalt geen individuele secundaire structuren, en maakt bijgevolg geen berekening van 〈MLD〉 mogelijk. Het bepaalt echter wel koppelingskansen, waardoor de maximale gemiddelde ladderafstand (MALD) van het gehele ensemble van structuren kan worden berekend, wat de maximale waarde is van de ensemblegemiddelden van de N2 ladderafstanden geassocieerd met elke n-basisreeks. We vinden dat dit programma—zoals hierboven besproken, die gebaseerd zijn op meer realistische energie-opdrachten-ook systematische verschillen voorspelt tussen willekeurige en virale RNAs, waardoor kleinere MALD waarden voor virale sequenties dan voor niet-virale (zie Fig. S5). Aldus, zelfs is een hoogst vereenvoudigd energiemodel dat slechts rekening houdt met de interactie van de naaste buren voldoende om een fundamenteel verschil tussen de secundaire structuren van virale en willekeurig permuted ssrna opeenvolgingen te onthullen. Met dit vereenvoudigde model, voor willekeurige opeenvolgingen van lengtes 2.000-4.000, MALD ∼ n0. 66±0,02.

De vouwprogramma ‘ s die we gebruiken, kunnen geen structuren produceren die pseudoknots bevatten. Hoewel bekend is dat pseudoknots voorkomen in virale RNAs, zoals die welke 3’-terminale tRNA-achtige structuren vormen (8), zijn ze typisch lokaal (waarbij basen gescheiden zijn door <102 nt langs de sequentie); dienovereenkomstig, zou het negeren van deze soorten geen significante invloed moeten hebben op onze voorspelling van de totale grootte. Het bewijsmateriaal is gevonden voor pseudoknots van de langere waaier, zoals het kussen van haarspelden verbindende basissen die door zo velen zoals 400 nt (31) worden gescheiden, maar zelfs zijn deze dicht met betrekking tot de totale lengte van virale genomen. Hoe dan ook, ons doel is het ontwikkelen van een nulth-order theoretisch model dat de determinanten van de totale grootte vangt, met pseudoknots, zoenen haarspelden, en andere details opgenomen later als dat nodig is.

om 〈MLD〉 in Rg te vertalen, is het nuttig om de secundaire structuren van RNA in kaart te brengen op polymeermodellen waarvan de configuratiestatistieken goed begrepen zijn, zoals ideale lineaire en “ster” polymeren. Door gebruik te maken van de eenvoudigste idealisering, zoals in het hierboven besproken vrij verbonden kettingmodel, kunnen we structuren vervangen zoals de twee in Fig. 1 A en B door lineaire kettingen waarvan de effectieve contourlengtes (Leff) worden gegeven door hun 〈MLD〉 waarden. Om deze mapping te voltooien, modelleren we de duplex-secties als de stijve schakels van de ketting, en de ss-uitstulpingen, bubbels en multibranch-lussen als de flexibele verbindingen die ze verbinden. De effectieve Kuhn lengte (beff) is dus de gemiddelde duplexlengte in de ssrna secundaire structuur, een eigenschap die ongeveer hetzelfde is (5 bp) voor alle onderzochte opeenvolgingen. Dit komt overeen met een gemiddelde DUPLEXLENGTE van RNA van 1-2 nm. Omdat de persistentielengte (een maat voor de lengteschaal waarbij buigen wordt waargenomen) van dsRNA ≈60 nm (32) is, is het modelleren van de duplex secties als stijve lichamen een uitstekende benadering. De SS lussen bevatten gemiddeld ongeveer zes SS basissen, en zo schatten we dat een typische bel ongeveer drie ss basissen aan elke kant heeft; de persistentie lengte van ssRNA is waarschijnlijk vergelijkbaar met die van ssDNA, ongeveer twee basissen (33).

Van deze mapping tussen secundaire structuren en effectieve lineaire polymeren, volgt dat de Rg van een ssRNA molecuul met een willekeurige volgorde moet worden bepaald door deIngesloten Afbeelding Combineren van de laatste vergelijking met onze eerdere resultaat, 〈MLD〉 ∼ N0.67, rendementenIngesloten Afbeelding Voor een niet-zelf-het vermijden van lineaire keten, ν = 0.5, in welk geval, Rg ∼ N0.34; voor een self-vermijden van lineaire keten, ν ≈ 0.6, waardoor Rg ∼ N0.40.

deze benadering kan worden verbreed door de ssrna secundaire structuren in kaart te brengen op een alternatief polymeer modelsysteem dat alle mogelijke paden door de structuur, en dus alle takken omvat. Voor elk ideaal polymeer, lineair of vertakt,ingebed beeld waarbij Lij de afstand langs de ruggengraat tussen monomeren i en j is (34). Verdergaand als hierboven, verkrijgen weEmbedded Image waar Lij, eff is vervangen door LDij in de tweede stap. De ALD is de gemiddelde ladderafstand, d.w.z., het gemiddelde van de N2 paarsgewijze ladderafstanden in een RNA secundaire structuur, en 〈ALD〉 is het ensemblegemiddelde. Door gebruik te maken van waarden voor 〈ALD〉 precies berekend op basis van de koppelingskansen gegenereerd door RNAfold, hebben we de analyse in Fig. 2. De resultaten zijn gelijkwaardig, met A ALD n n0.68±0,01 en RG n N0.34, en tonen aan dat de verschillen tussen willekeurige en virale ssrna ‘ s behouden blijven wanneer takken expliciet worden opgenomen (zie fig. 3 en de Z-scores van de 〈ALD〉 – waarden in de laatste kolom van Tabel 1). Net als bij MLD is ALD robuust ten opzichte van het energiemodel. De resultaten verkregen met het vereenvoudigde vouwprogramma(a ALD n N0.68 ± 0,01) zijn weergegeven in Fig. S6.

Fig. 3.

hetzelfde als Fig. 2, maar met 〈ALD〉, berekend met RNAfold, ter vervanging van 〈MLD〉. 〈ALD〉 is een maat voor de grootte die expliciet alle takken omvat.