Forutsi størrelsene på store rna-molekyler
Resultater
de nåværende rna-foldingsprogrammene er kjent for å ha begrenset nøyaktighet for lange sekvenser (26). For vårt formål er det imidlertid ikke nødvendig at alle, eller til og med de fleste, av de enkelte sammenkoblingene blir korrekt spådd. Snarere trenger de forutsagte strukturer bare å være tilstrekkelig nøyaktige for å fange de grovkornede funksjonene som bestemmer 3d-størrelsen. Vårt spørsmål blir derfor følgende: Kan de relative størrelsene av store ssrna forutsies fra beregningsestimater av passende egenskaper av deres sekundære strukturer?
for å gjøre slike estimater må vi identifisere en grovkornet egenskap for den sekundære strukturen som dikterer 3D-størrelse. Den eneste karakteristisk for en sekundær struktur som mest åpenbart, og direkte, oppfyller dette kriteriet er dens «extendedness.» Fig. 1 A og B viser henholdsvis» typisk utseende » virale og tilfeldige ssrnaer av omtrent samme lengde. Det kan ses at den tilfeldige ssRNA er slående mer utvidet. SsRNA I Fig. 1A er fra et virus I Leviviridae-familien. Ytterligere representative strukturer, Fra Bromovirus, Tymovirus og Tobamovirus slekter, er vist I Fiken. S2 og S3.
Spådde sekundære strukturer av ssRNAs. (A) Enterobakterier fag Qß (I Leviviridae-familien) ssRNA. (B) Tilfeldig permuted ssRNA. Hver er ≈4000 nt i lengde og vist i samme skala. MLDs av disse strukturene er henholdsvis 221 og 368. (Disse er representative for deres respektive ensemble gjennomsnitt: Den 〈MLD〉 av Phage Qß Ssrna er 240, og den 〈MLD〉 av 4 000 tilfeldige ssrna er 361.) De gule overleggene illustrerer banene som er knyttet Til MLDs (se tekst og 50-nt-eksemplet som er avbildet I C). 〈MLD〉 verdier ble beregnet med RNAsubopt; tall ble trukket med mfold.
denne forskjellen i utvidelsen av sekundære strukturer oversetter til en forskjell I 3d-størrelse. For å evaluere forlengelse som kandidatkarakteristikk, er det nødvendig med et kvantitativt mål på denne egenskapen. Bundschuh og Hwa introduserte stigeavstand som et mål på avstanden mellom vilkårlige baser i ssrna sekundære strukturer (27). Stigeavstanden, LDij, er antall basepar («trinn «på en» stige») som krysses langs den mest direkte banen i den sekundære strukturen som forbinder baser i og j. fordi ds-seksjoner er i hovedsak stive stenger, mens ss-seksjoner er diskett, teller bare ds-seksjoner i dette avstandsmålet. For å karakterisere den totale størrelsen PÅ rna sekundære strukturer ved hjelp av en enkelt mengde, introduserer vi maksimal stigeavstand (MLD), som er den største verdien Av LDij for alle kombinasjoner av i og j. med andre ord er det stigeavstanden forbundet med den lengste direkte banen over sekundærstrukturen. Dette er illustrert I Fig. 1C, med en mfe sekundær struktur av en vilkårlig 50-nt-lang sekvens, HVIS MLD skjer for å være 11. MLD-banene til denne sekundære strukturen og av De I Fig. 1 A og B er illustrert med gule overlegg.
for å evaluere bruken som et prediktivt mål på størrelse, bestemte vi ensemble-gjennomsnittlige mld-verdier (〈MLD〉) i seks virale taxa (oppført I Tabell 1), hvis alle virioner bare består av et ssrna-genom innkapslet i et proteinskall. Virusene til fem av taxa har hver en fast radius sfærisk (T = 3 icosahedral) skall bestående av 180 kopier av et enkelt genprodukt, kapsidproteinet. Deres ssRNAs varierer i størrelse fra 3000 til 7000 nt, men de ytre diametrene til deres capsids er alle 26-28 nm (28, 29). I motsetning til dette samler virusene til det gjenværende taxonet, Tobamovirusene, seg i sylindriske skall med fast radius (18 nm), men variabel lengde (gjennomsnittlig ≈300 nm). Således, i motsetning til genomene til icosahedral-virusene, er De Av Tobamovirusene ikke pålagt å passe inn i et skall av fast størrelse; lengre ssrna lengder fører bare til lengre (fast diameter) sylindere (30). Fra vår startforutsetning vil man forutsi at Tobamovirusene ikke er under selektivt trykk for å ha Rna som er spesielt kompakte. I tillegg, fordi alle fem taxa av icosahedral virus har capsids av omtrent samme størrelse, ville man forvente at divergensen mellom størrelsen på viral og tilfeldig ssRNAs å øke med sekvenslengde.
- Vis inline
- vis popup
de 〈mld〉 – verdiene til de icosahedrale virale Rnaene er systematisk mindre enn de for de tilfeldige Rnaene, som det kan ses på logg-loggplottet til 〈mld〉 versus sekvenslengden som vises i Fig. 2. Hver enkelt viral ssRNA er betegnet med et symbol som indikerer dens taxon. Genomene Til Bromovirus og Cucomovirus er multipartitt; de er delt mellom fire forskjellige ssRNAs. Resultatene er vist for den lengste og nest lengste av disse, identifisert ved konvensjon Som Rna 1 og 2, som pakker inn separate (men tilsynelatende identiske) kapsidene. Også plottet er den gjennomsnittlige 〈MLD〉 (〈MLD〉) verdier av de ulike lengder av tilfeldige sekvenser, og deres standardavvik; resultatet er tilnærmet lineært (R2 = 0.993), med en skråning som indikerer 〈MLD〉 ∼ N0.67±0.01 over dette området.
Logg – logg plott av 〈MLD〉 vs sekvenslengde for virale og tilfeldig permuterte ssrnaer. De virale ssrnaene er identifisert av symbolene som er oppført i nøkkelen (Innsatsen). Den Bromoviridae analysert her er Fra Bromovirus og Cucomovirus slekter. Den rette linjen er en minste kvadraters passform til 〈MLD〉 verdier beregnet for tilfeldige lengdesekvenser 2,500, 3,000, 4,000, 5,000, 6,000, og 7000 nt; de vertikale linjene viser standardavvikene. 〈MLD〉 verdier ble beregnet med RNAsubopt.
disse skaleringsrelasjonene for tilfeldige ssrnaer er nær N0.69 variasjon oppnådd numerisk Av Bundschuh Og Hwa for et lignende mål på avstand, ved å bruke en energimodell der Bare Watson–Crick-sammenkoblinger er tillatt, interaksjonsenergien er den samme for alle par, og entropi ignoreres (27). Deres mål på avstand er stigeavstanden mellom den første og (N/2 + 1)basen, i gjennomsnitt over alle strukturer i ensemblet for en tilfeldig sekvens av ensartet sammensetning og deretter over mange sekvenser.
for hver virale ssRNA beregnet Vi z-poengsummen for den 〈MLD〉, dvs. det er et antall standardavvik som skiller sine 〈mld〉 fra de anslåtte 〈mld〉 verdiene av tilfeldige sekvenser med identisk lengde. Sistnevnte er bestemt fra regresjonsligningen plottet I Fig. 2 (se SI Tekst). Gjennomsnittlig Z-score for hvert taxon er oppført I Tabell 1. De av icosahedral-virusene varierer fra -1.4 til -3.0, noe som indikerer at Deres Rna-Er har 〈mld〉 verdier som er forskjellige fra og mindre enn de 〈mld〉 som er spådd for tilfeldige rna-er like lange. Videre, en lineær regresjonsanalyse Av Z score vs. sekvenslengde for de icosahedrale virale rna-Ene viser en signifikant negativ helling med et konfidensintervall >95%, noe som innebærer at den relative kompaktiteten til Disse Rna-Ene, som alle er nødvendige for å passe inn i kapsider av omtrent samme størrelse, øker med sekvenslengde.
den gjennomsnittlige z-poengsummen for de 〈mld〉 verdiene av Tobamovirus ssRNAs er + 0.6. Det er påfallende at disse ssrnaene, som pakker inn sylindriske kapsider av variabel lengde, har mer utvidede sekundære strukturer og større 〈mld〉 verdier enn de icosahedral virusene. For både icosahedral-virusene og Tobamovirusene ser det ut til å være en korrespondanse mellom de forutsagte sekundære strukturer av deres genomer (Se Fig. S3) og størrelsen og formen på kapsidene som genomene må passe inn i. Vi hypoteser at ssRNA-sekvenser av selvmonterende icosahedral-virus, for å lette viral montering, har utviklet seg til å ha relativt små 〈mld〉 verdier og at disse mindre 〈mld〉 verdiene gir opphav til mindre Rg-verdier.Disse resultatene antyder at forskjellene som finnes mellom de virale Og tilfeldige Rna-Ene ikke forekommer bare fordi de virale Rna-Ene er av biologisk opprinnelse( hver er en positiv-sans, direkte oversatt messenger RNA); ellers ville man ikke se forskjell mellom resultatene for de icosahedral og sylindriske virusene. For å undersøke dette videre, analyserte vi 500 ssRNAs som er transkripsjoner av påfølgende 3000-base seksjoner på gjær (s. cerevisiae) kromosomer XI OG XII. Disse gjæravledede sekvensene ble inkludert for å representere biologiske Rna som, selv om de utviklet seg, ikke har blitt utsatt for selektivt trykk for å ha en bestemt total størrelse og form. Våre funn, samlet i Tabell 2, viser at de 〈MLD〉 – verdiene for gjæravledede Rna er omtrent de samme som for de tilfeldige Rna, noe som indikerer at forskjellene mellom tilfeldige og virale ssrna ikke bare skyldes den biologiske opprinnelsen til sistnevnte.
- Vis inline
- vis popup
Sammensetning-avhengighet av 〈mld〉
som nevnt tidligere ble sammensetningen av de tilfeldige Rna valgt for å samsvare i gjennomsnitt med de virale Rna så nært som mulig. Mange individuelle virale Rna-Er varierer imidlertid vesentlig i sammensetning fra de tilfeldige Rna-ene, og reiser spørsmålet om de samme forskjellene i 〈MLD〉 ville bli sett hvis de virale Rna-ene hver ble sammenlignet med tilfeldige Rna-Er med identisk sammensetning. For å teste sensitiviteten for sammensetningen av 〈MLD ④ verdier av tilfeldige Rna, analyserte vi 3,000-base tilfeldig permuterte Rna av uniform (25% G, 25% C, 25% A, 25% U) sammensetning. Resultatene, oppført i Tabell 2, viser at 〈MLD〉 er ufølsom for små sammensetningsendringer. Videre er den gjennomsnittlige sammensetningen av gjær-Rna-er forskjellig vesentlig fra sammensetningen for begge settene av tilfeldige Rna-er, men deres 〈mld〉 verdier er omtrent det samme.
Hvor sannsynlig er det at de forventede forskjellene i 〈MLD〉 mellom virale Og ikke-virale Rna er til stede i faktiske Rna? RNAsubopt og alle lignende programmer som forutsier RNA struktur har evnen, i prinsippet, å finne alle mulige ikke-pseudoknotted strukturer. Dermed er nøyaktigheten Av RNAsubopt (dens evne til å prøve riktig fra ensemblet) ikke avhengig av hvilke strukturer det er i stand til å forutsi (det kan forutsi dem alle, sperrer de med pseudoknoter), men heller på energiene det tilordner dem, som bestemmes av energimodellen. Som nevnt tidligere krever Vi bare At rnasubopt er tilstrekkelig nøyaktig til å forutsi generelle grovkornede trekk ved rna-sekundærstrukturen, som for eksempel 〈MLD〉 For å vurdere om våre funn er spesifikke For RNAsubopt (og derfor muligens en artefakt av den spesielle energimodellen Som RNAsubopt er basert på), sammenlignet vi virale og tilfeldige ssRNAs ved å bruke mfold, som ligner RNAsubopt, men avviker noe i både energimodellen og strukturene den prøver fra ensemblet. Der de 〈MLD〉 verdiene generert av RNAsubopt er forskjellige fra AMLD verdiene generert av mfold, viste begge den samme systematiske forskjellen i MLD mellom virale og tilfeldige ssrna, og omtrent samme skaleringsforhold for tilfeldige sekvenser (AMLD ∼ N0.74±0.01 for mfold, Se Fig. S4).for ytterligere å teste robustheten til disse spådommene, sammenlignet vi tilfeldige og virale ssrnaer ved hjelp av vårt forenklede rna-foldingsprogram. Dette programmet bestemmer ikke individuelle sekundære strukturer og tillater derfor ikke beregning av 〈MLD〉 Det bestemmer imidlertid sammenkoblingssannsynligheter, som tillater beregning av maksimal gjennomsnittlig stigeavstand (MALD) for hele ensemblet av strukturer, som er maksimumsverdien av ensemblets gjennomsnitt Av n2-stigeavstandene knyttet til hver n-basesekvens. Vi finner at dette programmet—som de som er omtalt ovenfor, som er basert på mer realistiske energioppdrag-også spår systematiske forskjeller mellom tilfeldige Og virale Rna, noe som gir mindre MALD verdier for virale sekvenser enn for ikke-virale seg (Se Fig. S5). Dermed er selv en svært forenklet energimodell som bare tar hensyn til nærmeste nabo-interaksjoner tilstrekkelig til å avsløre en grunnleggende forskjell mellom sekundære strukturer av virale og tilfeldig permuterte ssRNA-sekvenser. MED denne forenklede modellen, for tilfeldige sekvenser av lengder 2,000–4,000, MALD ∼ N0. 66±0.02.
foldeprogrammene vi bruker, kan ikke produsere strukturer som inneholder pseudoknoter. Selv om pseudoknoter er kjent for å forekomme i virale Rna, som de som danner 3′-terminale tRNA-lignende strukturer (8), er de vanligvis lokale(involverer baser adskilt av < 102 nt langs sekvensen); følgelig bør ignorering av dem ikke påvirke vår prediksjon av total størrelse betydelig. Bevis har blitt funnet for lengre rekkevidde pseudoknoter, for eksempel kyssende hårnål som forbinder baser adskilt av så mange som 400 nt (31), men selv disse er nær i forhold til den totale lengden av virale genomer. I alle fall, vårt mål er å utvikle en zeroth-order teoretisk modell som fanger determinanter av total størrelse, med pseudoknots, kyssing hårnåler, og andre detaljer inkludert senere etter behov.
For å oversette 〈mld〉 til Rg, er det nyttig å kartlegge rna sekundære strukturer på polymermodeller hvis konfigurasjonsstatistikk er godt forstått, for eksempel ideelle lineære og «stjerne» polymerer. Ved å bruke den enkleste idealiseringen, som i den fritt leddkjedemodellen som er omtalt ovenfor, kan vi erstatte strukturer som de to vist I Fig. 1 A og B av lineære kjeder hvis effektive konturlengder (Leff) er gitt av deres 〈MLD〉 verdier. For å fullføre denne kartleggingen modellerer vi tosidige seksjoner som de stive leddene i kjeden, og ss buler, bobler og multibranch looper som de fleksible leddene som forbinder dem. Den effektive Kuhnlengden (beff) er dermed den gjennomsnittlige duplekslengden i ssrna-sekundærstrukturen, en egenskap som er omtrent den samme (5 bp) for alle undersøkte sekvenser. Dette tilsvarer en gjennomsnittlig rna duplekslengde på 1-2 nm. Fordi utholdenhetslengden (et mål på lengdeskalaen der bøyning observeres) av dsRNA er ≈60 nm (32), er modellering av tosidige seksjoner som stive legemer en utmerket tilnærming. Ss-løkkene inneholder i gjennomsnitt omtrent seks ss-baser, og dermed anslår vi at en typisk boble har omtrent tre ss-baser på hver side; utholdenhetslengden til ssRNA er sannsynligvis lik ssDNA, omtrent to baser (33).
Fra denne tilordningen mellom sekundære strukturer og effektiv lineære polymerer, det følger at Rg av en ssRNA molekyl med en tilfeldig rekkefølge bør bestemmes av Kombinerer den siste likningen med våre tidligere resultat, 〈MLD〉 ∼ N0.67, rentene For en non-self-unngå lineær kjede, ν = 0.5, i hvilket tilfelle, Rg ∼ N0.34; for en selv-unngå lineær kjede, ν ≈ 0.6, noe som gir Rg ∼ N0.40.
denne tilnærmingen kan utvides ved å kartlegge ssrna sekundære strukturer på en alternativ polymer modell system som står for alle mulige baner på tvers av strukturen, og dermed omfatter alle grener. For enhver ideell polymer, lineær eller forgrenet, Hvor Lij er avstanden langs ryggraden mellom monomerer i og j (34). Fortsetter som ovenfor, får vi Hvor Lij, eff har blitt erstattet Av LDij i andre trinn. ALD er gjennomsnittlig stigeavstand, dvs., gjennomsnittet Av N2 parvise stigeavstandene i EN rna-sekundær struktur, og 〈ALD〉 er ensemblets gjennomsnitt. Ved å bruke verdier for 〈ALD〉 beregnet nøyaktig ut fra paringssannsynlighetene generert Av RNAfold, har vi gjentatt analysen vist I Fig. 2. Resultatene er ekvivalente med 〈ALD 〉 ∼ n0.68±0.01 og Rg ∼ N0.34, og viser at forskjellene mellom tilfeldige og virale ssrnaer bevares når grener eksplisitt inkluderes (se fig. 3 Og z-poengene til 〈ALD〉 – verdiene i Den siste kolonnen I Tabell 1). SOM MED MLD er ALD robust med hensyn til energimodellen. Resultater oppnådd med det forenklede foldeprogrammet (〈ALD 〉 ∼ n0.68±0.01) er vist i fig. S6.
Samme Som Fig. 2, men med 〈ALD〉, beregnet med RNAfold, som erstatter 〈mld〉 〈ALD〉 er et mål på størrelse som eksplisitt inkluderer alle grener.