Articles

Förutsäga storlekarna av stora RNA-molekyler

resultat

de nuvarande RNA-vikningsprogrammen är kända för att ha begränsad noggrannhet för långa sekvenser (26). För våra ändamål är det emellertid inte nödvändigt att alla, eller till och med de flesta, av de enskilda parningarna förutses korrekt. Snarare behöver de förutsagda strukturerna bara vara tillräckligt exakta för att fånga de grovkorniga funktionerna som bestämmer 3D-storlek. Vår fråga blir därför följande: Kan de relativa storlekarna av stora ssRNA förutsägas från beräkningsberäkningar av lämpliga egenskaper hos deras sekundära strukturer?

för att göra sådana uppskattningar måste vi identifiera en grovkornig egenskap hos den sekundära strukturen som dikterar 3D-storlek. Den enda egenskapen hos en sekundär struktur som uppenbarligen och direkt uppfyller detta kriterium är dess ”förlängning.” Fig. 1 A och B visar respektive” typiska ” virala och slumpmässiga ssRNAs av ungefär samma längd. Det kan ses att den slumpmässiga ssRNA är påfallande mer utökad. SsRNA i Fig. 1A är från ett virus i familjen Leviviridae. Ytterligare representativa strukturer, från Bromovirus, Tymovirus och Tobamovirusgenera, visas i fikon. S2 och S3.

iv xmlns: xhtml= ”http://www.w3.org/1999/xhtml Fig. 1.

förutsagda sekundära strukturer av ssRNA. (A) Enterobacteria FAG Q (i familjen Leviviridae) ssRNA. (B) slumpmässigt permuterad ssRNA. Var och en är 4 000 nt lång och visas i samma skala. MLDs för dessa strukturer är 221 respektive 368. (Dessa är representativa för deras respektive ensemblegenomsnitt: Den fag Q ssRNA är 240, och den mld 4000-bas ssRNA är 361.) De gula överlagren illustrerar banorna associerade med MLDs (se text och 50-nt-exemplet som visas i C). Mld-värden beräknades med rnasubopt; siffror ritades med mfold.

denna skillnad i förlängning av sekundära strukturer översätter till en skillnad i 3D-storlek. För att utvärdera förlängning som kandidatkaraktäristik krävs ett kvantitativt mått på denna egenskap. Bundschuh och Hwa introducerade stegeavstånd som ett mått på avståndet mellan godtyckliga baser i ssRNA sekundära strukturer (27). Stegeavståndet, LDij, är antalet baspar (”stegpinnar” på en ”stege”) som korsas längs den mest direkta vägen i den sekundära strukturen som förbinder baserna i och j. eftersom ds-sektioner är väsentligen styva stavar, medan ss-sektioner är diskett, räknas endast ds-sektioner i detta mått på avstånd. För att karakterisera den totala storleken på RNA-sekundära strukturer med en enda kvantitet introducerar vi maximalt stegeavstånd (MLD), vilket är det största värdet av LDij för alla kombinationer av i och j. med andra ord är det stegeavståndet associerat med den längsta direkta vägen över sekundärstrukturen. Detta illustreras i Fig. 1C, med en mfe sekundär struktur av en godtycklig 50-nt-lång sekvens, vars MLD råkar vara 11. MLD-banorna för denna sekundära struktur och för de i Fig. 1 A och B illustreras med gula överlägg.

för att utvärdera dess användbarhet som ett prediktivt mått på storlek bestämde vi ensemble-average MLD-värden (Scorpion mld-värden) i sex virala taxa (listade i Tabell 1), vars alla virioner består helt enkelt av ett ssRNA-genom inneslutet i ett proteinskal. Virusen i fem av taxa har vardera ett sfäriskt (t = 3 icosahedral) skal med fast radie som består av 180 kopior av en enda genprodukt, kapsidproteinet. Deras ssRNA varierar i storlek från 3000 till 7000 nt, men de yttre diametrarna på deras kapsider är alla 26-28 nm (28, 29). Däremot samlas virusen från det återstående taxonet, Tobamovirusen, i cylindriska skal med fast radie (18 nm) men variabel längd (i genomsnitt 300 nm i genomsnitt). Således, till skillnad från genomerna i icosahedral virus, de av Tobamovirus är inte skyldiga att passa in i ett skal av fast storlek; längre ssRNA längder leder helt enkelt till längre (fast diameter) cylindrar (30). Från vår start gissning skulle man förutsäga att Tobamovirusen inte är under selektivt tryck för att ha RNA som är särskilt kompakta. Dessutom, eftersom alla fem taxa av icosahedral virus har kapsider av ungefär samma storlek, kan man förvänta sig att divergensen mellan storleken på virala och slumpmässiga ssRNA ökar med sekvenslängd.

visa denna tabell:

  • Visa inline
  • visa popup
Tabell 1.

skillnader i mld mld mld s och ALD mld mld mellan virala och slumpmässiga sekvenser

den genomsnittliga sammansättningen av de enskilda virala ssRNA som analyseras här (exklusive Tymovirus, vars kompositioner är atypiska för de virus som undersökts i denna studie) är 24,0% G, 22,1% C, 26,9% a och 27,0% U. Vi måste dock inte bara redogöra för den genomsnittliga kompositionen utan också den genomsnittliga skillnaden i sammansättning mellan baser som potentiellt kan par, dvs G och C, A och U, och g och U. denna kompositionsskillnad (igen, inte inklusive tymovirus) är 2.9 procentenheter för %G- % C, 2,9 för %A − %U och 4,0 för %G − %U (t.ex. om ett individuellt viralt ssRNA innehöll 22% g och 26% C, eller 26% G och 22% C, skulle dess %G − %C-skillnad vara 4 procentenheter). För att möjliggöra en balans mellan dessa två medelvärden—nukleotidprocentandelar och deras skillnader för parningsbaser—valde vi den ”virusliknande” kompositionen 24% G, 22% C, 26% A och 28% U för de slumpmässigt permuterade sekvenserna. Med denna komposition genererade och analyserade vi 500 slumpmässiga sekvenser av längd 2,500 nt, 500 av längd 3,000 nt och 300 i var och en av längderna 4,000, 5,000, 6,000 och 7,000 nt. Den mld för varje viral och slumpmässig sekvens bestämdes med rnasubopt.

mld–värdena för de icosahedriska virala RNA: erna är systematiskt mindre än de för de slumpmässiga rna: erna, vilket kan ses i loggloggdiagrammet för MLD-tabell för MLD-tabell vs. sekvenslängd som visas i Fig. 2. Varje enskild viral ssRNA är betecknad med en symbol som indikerar dess taxon. Genomerna av Bromovirus och Cucomovirus är multipartite; de är uppdelade mellan fyra olika ssRNA. Resultaten visas för de längsta och näst längsta av dessa, identifierade enligt konvention som rna 1 och 2, som paketerar i separata (men tydligen identiska) kapsider. Även plottas är den genomsnittliga 〈MLD〉 (〈MLD〉) värden för olika längder av slumpmässiga sekvenser, och deras standardavvikelser; resultatet är ungefär linjär (R2 = 0.993), med en lutning indikerar 〈MLD〉 ∼ N0.67±0.01 över detta område.

Fig. 2.

Log–log-plot av MLD av MLD av MLD vs. sekvenslängd för virala och slumpmässigt permuterade ssRNA. De virala ssRNA identifieras av symbolerna som anges i nyckeln (infälld). Bromoviridae som analyseras här är från Bromovirus-och Cucomovirusgenerna. Den raka linjen är en minsta kvadrat som passar till de mld-värden som beräknas för slumpmässiga sekvenser av längder 2,500, 3,000, 4,000, 5,000, 6,000, och 7000 nt; de vertikala linjerna visar standardavvikelserna. Rnasubopt.

dessa skalningsförhållanden för slumpmässiga ssRNA ligger nära N0.69 variation erhållen numeriskt av Bundschuh och Hwa för ett liknande mått på avstånd, genom att använda en energimodell där endast Watson–Crick-parningar är tillåtna, interaktionsenergin är densamma för alla Par och entropi ignoreras (27). Deras mått på avstånd är stegeavståndet mellan den första och (N/2 + 1)basen, i genomsnitt över alla strukturer i ensemblen för en slumpmässig sekvens av enhetlig komposition och sedan över många sekvenser.

för varje viral ssRNA beräknade vi z-poängen för MLD-mld-mld, d. v. s., antalet standardavvikelser som skiljer dess mld-värden från de förutsagda mld-värdena för slumpmässiga sekvenser med samma längd. Den senare bestäms från regressionsekvationen ritad i Fig. 2 (se SI-Text). Medelvärdet Z för varje taxon anges i Tabell 1. De av de icosahedrala virusen sträcker sig från -1,4 till -3,0, vilket indikerar att deras rna har mld-värden som skiljer sig från och är mindre än de mld-värden som förutses för lika långa slumpmässiga rna. Ytterligare, en linjär regressionsanalys av Z-poäng vs. sekvenslängd för icosahedral viral RNA visar en signifikant negativ lutning med ett konfidensintervall >95%, vilket innebär att den relativa kompaktiteten hos dessa RNA, som alla krävs för att passa in i kapsider av ungefär samma storlek, ökar med sekvenslängd.

den genomsnittliga Z-poängen för MLD-värdena för Tobamovirus ssRNA är +0,6. Det är slående att dessa ssRNA, som förpackas i cylindriska kapsider med variabel längd, har mer utökade sekundära strukturer och större mld-värden för MLD-värden för MLD-värden än icosahedral-virusen. För både icosahedral virus och Tobamovirus, det verkar finnas en korrespondens mellan de förutsagda sekundära strukturerna i deras genom (Se Fig. S3) och storleken och formen på kapsiderna i vilka genomerna måste passa. Vi antar att, för att underlätta viral montering, ssRNA-sekvenser av självmonterande icosahedral-virus har utvecklats till att ha relativt små mld-värden för MLD och att dessa mindre mld-värden för MLD ger upphov till mindre rg-värden.

dessa resultat tyder på att skillnaderna mellan virala och slumpmässiga rna inte uppstår helt enkelt för att virala RNA är av biologiskt ursprung (var och en är en positiv känsla, direkt översatt messenger RNA); annars skulle man inte se någon skillnad mellan resultaten för icosahedral och cylindriska virus. För att undersöka detta ytterligare analyserade vi 500 ssRNA som är transkript av på varandra följande 3000-bassektioner på jäst (S. cerevisiae) kromosomer XI och XII. Dessa jäst-härledda sekvenser inkluderades för att representera biologiska RNA som, även om de utvecklats, inte har utsatts för selektiva tryck för att ha en viss total storlek och form. Våra resultat, som sammanställts i Tabell 2, visar att mld-värdena för de jäst-härledda rna: erna i mld i mld är ungefär desamma som för de slumpmässiga rna: erna, vilket indikerar att skillnaderna mellan de slumpmässiga och virala ssRNA inte bara beror på det biologiska ursprunget för det senare.

visa denna tabell:

  • Visa inline
  • visa popup
Tabell 2.

Kompositionsberoende av XXL mld XLB

som tidigare nämnts valdes sammansättningen av de slumpmässiga rna: erna för att i genomsnitt matcha den hos de virala RNA: erna så nära som möjligt. Många enskilda virala RNA skiljer sig emellertid signifikant i sammansättning från de slumpmässiga RNA, vilket väcker frågan om samma skillnader i mld i mld i mld skulle ses om de virala RNA var och en jämfördes med slumpmässiga rna med identisk sammansättning. För att testa känsligheten för sammansättningen av MLD-värdena för de slumpmässiga rna-värdena för de slumpmässiga rna: erna analyserade vi 3000-bas slumpmässigt permuterade rna med enhetlig (25% g, 25% C, 25% A, 25% U) sammansättning. Resultaten anges i Tabell 2, visar att 〈MLD〉 är okänsligt för små sammansättning ändras. Vidare skiljer sig den genomsnittliga sammansättningen av jäst-rna signifikant från den för båda uppsättningarna av slumpmässiga rna, ändå är deras mld-värden för MLD-värden ungefär desamma.

hur sannolikt är det att de förutsagda skillnaderna i mld i mld mellan virala och icke-virala RNA finns i faktiska rna? RNAsubopt och alla liknande program som förutsäger RNA-struktur har i princip förmågan att hitta alla möjliga icke-pseudoknoterade strukturer. Således beror noggrannheten hos RNAsubopt (dess förmåga att korrekt sampla från ensemblet) inte på vilka strukturer den kan förutsäga (den kan förutsäga dem alla, spärra dem med pseudoknoter), utan snarare på de energier som den tilldelar dem, som bestäms av dess energimodell. Som nämnts tidigare, vi kräver bara att RNAsubopt vara tillräckligt noggranna för att förutsäga allmänt grovkornig funktioner av RNA sekundär struktur, såsom 〈MLD〉. För att utvärdera om våra resultat är specifika för RNAsubopt (och därför möjligen en artefakt av den speciella energimodellen som RNAsubopt bygger på) jämförde vi virala och slumpmässiga ssRNA genom att använda mfold, vilket liknar RNAsubopt men skiljer sig något i både sin energimodell och de strukturer som den samplar från ensemblet. Medan de mld-värden som genereras av rnasubopt skiljer sig från amld-värden som genereras av mfold, visade båda samma systematiska skillnad i MLD mellan virala och slumpmässiga ssRNA, och ungefär samma skalningsförhållanden för slumpmässiga sekvenser (amld 0,74 0,01 för mfold, se Fig. S4).

för att ytterligare testa robustheten hos dessa förutsägelser jämförde vi slumpmässiga och virala ssRNA med vårt förenklade RNA-vikningsprogram. Detta program bestämmer inte enskilda sekundära strukturer,och följaktligen tillåter inte beräkning av MLD. Det bestämmer emellertid parningssannolikheter, vilket möjliggör beräkning av det maximala genomsnittliga stegeavståndet (MALD) för hela ensemblet av strukturer, vilket är det maximala värdet av ensemblegenomsnitten för N2-stegeavstånden associerade med varje N-bassekvens. Vi finner att detta program-som de som diskuterats ovan, som bygger på mer realistiska energiuppdrag—också förutsäger systematiska skillnader mellan slumpmässiga och virala RNA, vilket ger mindre MALD-värden för virala sekvenser än för icke-virala (se Fig. S5). Således är även en mycket förenklad energimodell som bara tar hänsyn till närmaste granninteraktioner tillräcklig för att avslöja en grundläggande skillnad mellan de sekundära strukturerna av virala och slumpmässigt permuterade ssRNA-sekvenser. Med denna förenklade modell, för slumpmässiga sekvenser av längder 2,000–4,000, mald GHz N0. 66 0,02.

de vikningsprogram vi använder kan inte producera strukturer som innehåller pseudoknoter. Även om pseudoknoter är kända för att förekomma i virala RNA, såsom de som bildar 3′-terminala tRNA-liknande strukturer (8), är de vanligtvis lokala (involverar baser åtskilda av <102 nt längs sekvensen); följaktligen bör ignorering av dem inte väsentligt påverka vår förutsägelse av total storlek. Bevis har hittats för pseudoknoter med längre räckvidd, såsom kyssande hårnålar som förbinder baser åtskilda av så många som 400 nt (31), men även dessa är nära i förhållande till den totala längden av virala genom. I vilket fall som helst, vårt mål är att utveckla en nollordersteoretisk modell som fångar determinanterna för den totala storleken, med pseudoknoter, kyssande hårnålar, och andra detaljer som ingår senare vid behov.

för att översätta mld till rg är det användbart att kartlägga RNA-sekundära strukturer på polymermodeller vars konfigurationsstatistik är väl förstådd, såsom ideala linjära och ”stjärnpolymerer”. Genom att använda den enklaste idealiseringen, som i den fritt ledade kedjemodellen som diskuterats ovan, kan vi ersätta strukturer som de två som visas i Fig. 1 A och B genom linjära kedjor vars effektiva konturlängder (Leff) ges av deras mld-värden för MLD för MLD. För att slutföra denna kartläggning modellerar vi duplexsektionerna som de styva länkarna i kedjan, och ss-utbuktningarna, bubblorna och multibranch-slingorna som de flexibla lederna som förbinder dem. Den effektiva Kuhn-längden (beff) är således den genomsnittliga duplexlängden i ssRNA-sekundärstrukturen, en egenskap som är ungefär densamma (5 bp) för alla undersökta sekvenser. Detta motsvarar en genomsnittlig RNA-duplexlängd på 1-2 nm. Eftersom persistenslängden (ett mått på längdskalan vid vilken böjning observeras) av dsRNA är 60 nm (32) är modellering av duplexsektionerna som styva kroppar en utmärkt approximation. Ss-slingorna innehåller i genomsnitt cirka sex ss-baser, och därmed uppskattar vi att en typisk bubbla har ungefär tre ss-baser på varje sida; uthållighetslängden för ssRNA är sannolikt lik den för ssDNA, ungefär två baser (33).

Från denna kartläggning mellan sekundära strukturer och effektiv linjära polymerer, det följer att Rg av en ssRNA molekyl med en godtycklig sekvens bör bestämmas medInbäddad Bild Kombinera den sista ekvationen med våra tidigare resultat, 〈MLD〉 ∼ N0.67, avkastningenInbäddad Bild För en icke-själv-undvika linjär kedja, ν = 0.5, i vilket fall, Rg ∼ N0.34, för en själv-för att undvika linjär kedja, ν ≈ 0.6, ge Rg ∼ N0.40.

detta tillvägagångssätt kan breddas genom att kartlägga ssRNA-sekundära strukturer på ett alternativt polymermodellsystem som står för alla möjliga vägar över strukturen och därmed inkluderar alla grenar. För varje ideal polymer, linjär eller grenad,inbäddad bild där Lij är avståndet längs ryggraden mellan monomererna i och j (34). Fortsätter som ovan erhåller viinbäddad bild där Lij,eff har ersatts av LDij i det andra steget. ALD är det genomsnittliga stegeavståndet, dvs., medelvärdet av N2 parvis stege avstånd i en RNA sekundär struktur, och 2D är dess ensemble genomsnitt. Genom att använda värden för att beräkna exakt från de ihopkopplings sannolikheter som genereras av rnafold, vi har upprepat analysen som visas i Fig. 2. Resultaten är ekvivalenta, med ALD 0,68 0,01 och Rg 0,34, och visar att skillnaderna mellan slumpmässiga och virala ssRNA bevaras när grenar uttryckligen ingår (Se fig. 3 och Z-poängen för värdena i den sista kolumnen i Tabell 1). Som med MLD är ALD robust med avseende på energimodellen. Resultat som erhållits med det förenklade vikningsprogrammet (0,01 0,01 xnumx xnumx xnumx xnumx xnumx xnumx xnumx xnumx xnumx xnumx xnumx) visas i fig. S6.

Fig. 3.

samma som Fig. 2, men med 2st. Ald…., beräknat med RNAfold, som ersätter mld. ALD är ett mått på storlek som uttryckligen omfattar alla grenar.