Forudsigelse af størrelserne af store RNA-molekyler
resultater
de nuværende RNA-foldeprogrammer vides at have begrænset nøjagtighed for lange sekvenser (26). Til vores formål er det imidlertid ikke nødvendigt, at alle eller endda de fleste af de enkelte parringer forudsiges korrekt. Snarere behøver de forudsagte strukturer kun være tilstrækkeligt nøjagtige til at fange de grovkornede funktioner, der bestemmer 3D-størrelse. Vores spørgsmål bliver derfor følgende: Kan de relative størrelser af store ssrna ‘ er forudsiges ud fra beregningsestimater af passende egenskaber ved deres sekundære strukturer?
for at foretage sådanne estimater skal vi identificere en grovkornet Karakteristik af den sekundære struktur, der dikterer 3D-størrelse. Det eneste kendetegn ved en sekundær struktur, der mest åbenlyst og direkte opfylder dette kriterium, er dens “udvidelse.” Fig. 1 A og B viser henholdsvis” typisk udseende “virale og tilfældige ssrna’ er af omtrent samme længde. Det kan ses, at den tilfældige ssRNA er påfaldende mere udvidet. SsRNA i Fig. 1A er fra en virus i Leviviridae-familien. Yderligere repræsentative strukturer, fra bromovirus, Tymovirus og Tobamovirus slægter, er vist i fig. S2 og S3.
forudsagde sekundære strukturer af ssrna ‘ er. A) enterobakterier (i Leviviridae-familien) Ssrna. (B) tilfældigt permuteret ssRNA. Hver er 4.000 nt i længden og vist i samme skala. MLD ‘ erne for disse strukturer er henholdsvis 221 og 368. (Disse er repræsentative for deres respektive ensemble gennemsnit: Mld er 240, og MLD er på 4.000 tilfældige ssrna ‘ er er 361.) De gule overlejringer illustrerer de stier, der er knyttet til MLDs (se tekst og 50-nt-eksemplet afbildet i C). – Værdier blev beregnet med RNAsubopt; tal blev tegnet med mfold.
denne forskel i forlængelsen af sekundære strukturer oversættes til en forskel i 3D-størrelse. For at evaluere udvidelse som kandidatkarakteristik kræves et kvantitativt mål for denne ejendom. Bundschuh og hva introducerede stigeafstand som et mål for afstanden mellem vilkårlige baser i ssrna sekundære strukturer (27). Stigeafstanden, LDij, er antallet af basepar (“trin “på en” stige”), der krydses langs den mest direkte sti i den sekundære struktur, der forbinder baser i og j. fordi ds-sektioner i det væsentlige er stive stænger, mens ss-sektioner er diskette, tælles kun ds-sektioner i dette mål for afstand. For at karakterisere den samlede størrelse af RNA sekundære strukturer ved hjælp af en enkelt mængde introducerer vi maksimal stigeafstand (MLD), som er den største værdi af LDij for alle kombinationer af i og j. med andre ord er det stigeafstanden forbundet med den længste direkte sti på tværs af den sekundære struktur. Dette er illustreret i Fig. 1C, med en MFE sekundær struktur af en vilkårlig 50-nt-lang sekvens, hvis MLD tilfældigvis er 11. MLD-stierne i denne sekundære struktur og af dem i Fig. 1 A og B er illustreret med gule overlays.
for at evaluere dets anvendelighed som et forudsigeligt mål for størrelse bestemte vi ensemble-gennemsnitlige MLD-værdier i seks virale takser (anført i tabel 1), hvis alle virioner simpelthen består af et ssRNA-genom indkapslet i en proteinskal. Virusene fra fem af takserne har hver en sfærisk (T = 3 icosahedral) skal, der består af 180 kopier af et enkelt genprodukt, kapsidproteinet. Deres ssrna ‘ er varierer i størrelse fra 3.000 til 7.000 nt, men de ydre diametre af deres capsider er alle 26-28 nm (28, 29). I modsætning hertil samles vira fra den resterende takson, Tobamovirus, i cylindriske skaller med fast radius (18 nm), men variabel længde (gennemsnit 300 nm). I modsætning til genomerne af de icosahedral-vira er Tobamovirus ikke forpligtet til at passe ind i en skal af fast størrelse; længere ssrna-længder fører simpelthen til længere (fast diameter) cylindre (30). Fra vores start formodning ville man forudsige, at Tobamovirus ikke er under selektivt pres for at have RNA ‘ er, der er særligt kompakte. Desuden, fordi alle fem takser af icosahedral vira har capsider af omtrent samme størrelse, ville man forvente, at divergensen mellem størrelsen af de virale og tilfældige ssrna ‘ er øges med sekvenslængde.
- se inline
- se popup
forskelle i Kris MLD Kris s og Kris ALD Kris s mellem virale og tilfældige sekvenser
den gennemsnitlige sammensætning af de individuelle virale ssrna ‘ er, der er analyseret her (ikke inklusive Tymovirus, hvis sammensætninger er atypiske for de vira, der er undersøgt i denne undersøgelse), er 24,0% G, 22,1% C, 26,9% A og 27,0% U. vi skal dog ikke kun tage højde for den gennemsnitlige sammensætning, men også den gennemsnitlige uoverensstemmelse i sammensætningen mellem baser, der potentielt er i stand til at par, dvs.g og C, A og U, og G og U. denne sammensætning uoverensstemmelse (igen, ikke inklusive tymovirus) er 2.9 procentpoint for %G − %C, 2,9 for %a − %U og 4,0 for %G − %U (f.eks. om en individuel viral ssrna indeholdt 22% G og 26% C eller 26% G og 22% C, ville dens %G − %C forskel være 4 procentpoint). For at muliggøre en balance mellem disse to gennemsnit—nukleotidprocenter og deres forskelle for parringsbaser—valgte vi den “viruslignende” sammensætning 24% G, 22% C, 26% A og 28% U for de tilfældigt permuterede sekvenser. Med denne sammensætning genererede og analyserede vi 500 tilfældige sekvenser af længde 2.500 nt, 500 af længde 3.000 nt og 300 i hver af længderne 4.000, 5.000, 6.000 og 7.000 nt. Den mld mld af hver viral og tilfældig sekvens blev bestemt med RNAsubopt.
de russiske MLD–værdier for de icosahedrale virale RNA ‘er er systematisk mindre end de tilfældige RNA’ er, som det kan ses i log-log-plottet for de russiske MLD-værdier vs. sekvenslængde vist i Fig. 2. Hver enkelt viral ssRNA er udpeget med et symbol, der angiver dets takson. Genomerne af Bromovirus og Cucomovirus er flerpartite; de er opdelt mellem fire forskellige ssrna ‘ er. Resultaterne vises for den længste og næstlængste af disse, identificeret ved konvention som RNA ‘ er 1 og 2, som pakker i separate (men tilsyneladende identiske) capsids. Også plottet er den gennemsnitlige lang MLD〉 (LANG MLD〉) værdier af de forskellige længder af tilfældige sekvenser, og deres standardafvigelser; resultatet er tilnærmelsesvis lineær (R2 = 0.993), med en hældning, der angiver, lang MLD〉 ∼ N0.67±0.01 over dette interval.
Log–log plot af lld mld vs. sekvenslængde for virale og tilfældigt permuterede ssrna ‘ er. De virale ssrna ‘ er identificeres ved hjælp af symbolerne i nøglen (indsat). Bromoviridae analyseret her er fra bromovirus og Cucomovirus slægter. Den lige linje er en mindste kvadrater, der passer til de røde mld-værdier, der beregnes for tilfældige sekvenser af længder 2,500, 3,000, 4,000, 5,000, 6,000, og 7.000 nt; de lodrette linjer viser standardafvigelserne. Mld-værdier blev beregnet med RNAsubopt.
disse skaleringsforhold for tilfældige ssrna ‘ er er tæt på N0.69 variation opnået numerisk af Bundschuh og hva for et lignende mål for afstand ved hjælp af en energimodel, hvor kun parringer er tilladt, interaktionsenergien er den samme for alle par, og entropi ignoreres (27). Deres mål for afstand er stigeafstanden mellem den første og (N/2 + 1)th base, i gennemsnit over alle strukturer i ensemblet for en tilfældig sekvens af ensartet sammensætning og derefter over mange sekvenser.
for hver viral ssRNA, vi beregnet å-score for den Kurt MLD, dvs., antallet af standardafvigelser, der adskiller dens larp mld-larp fra de forudsagte larp mld-larp-værdier af tilfældige sekvenser af samme længde. Sidstnævnte bestemmes ud fra regressionsligningen afbildet i Fig. 2 (Se SI-teksten). Den gennemsnitlige score for hver takson er angivet i tabel 1. De af de icosahedrale vira spænder fra -1,4 til -3,0, hvilket indikerer, at deres RNA ‘er har prislip MLD-værdier, der er forskellige fra og mindre end de prislip mld-værdier, der er forudsagt for tilfældige RNA’ er med samme længde. Endvidere er en lineær regressionsanalyse af S-score vs. sekvenslængde for de icosahedral virale RNA ‘ er viser en signifikant negativ hældning med et konfidensinterval >95%, hvilket antyder, at den relative kompakthed af disse RNA ‘ er, som alle kræves for at passe ind i capsider af omtrent samme størrelse, øges med sekvenslængde.
den gennemsnitlige å-score for de to Tobamovirus ssrna ‘ er er +0,6. Det er slående, at disse ssrna ‘ er, der pakker ind i cylindriske kapsider med variabel længde, har mere udvidede sekundære strukturer og større larr MLD-værdier end de icosahedral-vira. For både de icosahedral vira og Tobamovirus ser der ud til at være en korrespondance mellem de forudsagte sekundære strukturer i deres genomer (se Fig. S3) og størrelsen og formen af kapsiderne, som genomerne skal passe ind i. Vi antager, at, for at lette viral samling, ssRNA-sekvenser af selvsamlende icosahedral-vira har udviklet sig til at have relativt små LRR mld-LR-værdier, og at disse mindre lrrrld-LR-værdier giver anledning til mindre rg-værdier.
disse resultater antyder, at forskellene, der findes mellem de virale og tilfældige RNA ‘er, ikke forekommer simpelthen fordi de virale RNA’ er er af biologisk oprindelse (hver er en positiv sans, direkte oversat messenger-RNA); ellers ville man ikke se en forskel mellem resultaterne for de icosahedral og cylindriske vira. For at undersøge dette yderligere analyserede vi 500 ssrna ‘ er, der er transkriptionerne af på hinanden følgende 3.000-basesektioner på gær (S. cerevisiae) kromosomer. Disse gærafledte sekvenser blev inkluderet for at repræsentere biologiske RNA ‘ er, der, selvom de er udviklet, ikke har været udsat for selektive tryk for at have en bestemt samlet størrelse og form. Vores fund, samlet i tabel 2, viser, at de mld-værdier af de gærafledte RNA ‘er er omtrent de samme som for de tilfældige RNA’ er, hvilket indikerer, at forskellene mellem de tilfældige og virale ssrna ‘ er ikke kun skyldes sidstnævntes biologiske oprindelse.
- se inline
- se popup
sammensætnings-afhængighed af kript MLD kript
som tidligere nævnt blev sammensætningen af de tilfældige RNA ‘er valgt til i gennemsnit at matche den for de virale RNA’ er så tæt som muligt. Imidlertid, mange individuelle virale RNA ‘er adskiller sig markant i sammensætning fra de tilfældige RNA’ er, rejser spørgsmålet om, hvorvidt de samme forskelle i karrus MLD karrus ville ses, hvis de virale RNA ‘er hver blev sammenlignet med tilfældige RNA’ er med identisk sammensætning. For at teste følsomheden over for sammensætningen af de tilfældige RNA ‘er analyserede vi 3.000-baserede tilfældigt permuterede RNA’ er med ensartet (25% G, 25% C, 25% a, 25% U) sammensætning. Resultaterne, der er anført i tabel 2, viser, at den røde MLD-røde er ufølsom over for små sammensætningsændringer. Yderligere, den gennemsnitlige sammensætning af gær-RNA ‘erne adskiller sig markant fra den for begge sæt tilfældige RNA’ er, alligevel er deres ris-MLD-værdi omtrent den samme.
hvor sandsynligt er det, at de forudsagte forskelle i larp mld larp mellem virale og ikke-virale RNA ‘er er til stede i faktiske RNA’ er? RNAsubopt og alle lignende programmer, der forudsiger RNA-struktur, har i princippet evnen til at finde alle mulige ikke-pseudoknottede strukturer. Nøjagtigheden af RNAsubopt (dens evne til korrekt at prøve fra ensemblet) afhænger således ikke af, hvilke strukturer den er i stand til at forudsige (den kan forudsige dem alle, bortset fra dem med pseudoknoter), men snarere på de energier, den tildeler dem, som bestemmes af dens energimodel. Som tidligere nævnt kræver vi kun, at RNAsubopt er tilstrækkelig nøjagtig til at forudsige generelle grovkornede træk ved RNA-sekundær struktur, såsom LR MLD LR. For at evaluere, om vores fund er specifikke for RNAsubopt (og derfor muligvis en artefakt af den bestemte energimodel, som RNAsubopt er baseret på), sammenlignede vi virale og tilfældige ssrna ‘ er ved hjælp af mfold, som ligner RNAsubopt, men adskiller sig noget i både dens energimodel og de strukturer, den prøver fra ensemblet. Mens de af RNAsubopt genererede mld-værdier er forskellige fra de AMLD-værdier, der genereres af mfold, viste begge den samme systematiske forskel i MLD mellem virale og tilfældige ssrna ‘ er og omtrent de samme skaleringsforhold for tilfældige sekvenser (amld-værdi n0.74-værdi 0,01 for mfold, se Fig. S4).
for yderligere at teste robustheden af disse forudsigelser sammenlignede vi tilfældige og virale ssrna ‘ er ved hjælp af vores forenklede RNA-foldningsprogram. Dette program bestemmer ikke individuelle sekundære strukturer og tillader derfor ikke beregning af kurr MLD kurr. Det bestemmer dog parringssandsynligheder, som muliggør beregning af den maksimale gennemsnitlige stigeafstand (MALD) for hele ensemblet af strukturer, hvilket er den maksimale værdi af ensemblegennemsnittene for N2-stigeafstande forbundet med hver n-basesekvens. Vi finder ud af, at dette program—som dem, der er diskuteret ovenfor, som er baseret på mere realistiske energiopgaver—også forudsiger systematiske forskelle mellem tilfældige og virale RNA ‘ er, hvilket giver mindre MALD-værdier for virale sekvenser end for ikke-virale (se Fig. S5). Således er selv en meget forenklet energimodel, der blot tager højde for nærmeste nabointeraktioner, tilstrækkelig til at afsløre en grundlæggende forskel mellem de sekundære strukturer af virale og tilfældigt permuterede ssrna-sekvenser. Med denne forenklede model, for tilfældige sekvenser af længder 2.000-4.000, MALD liter n0.66 liter 0,02.
de foldeprogrammer, vi anvender, kan ikke producere strukturer, der indeholder pseudoknoter. Selvom pseudoknoter vides at forekomme i virale RNA’er, såsom dem, der danner 3′ -terminale tRNA-lignende strukturer (8), er de typisk lokale (involverer baser adskilt af <102 nt langs sekvensen); derfor bør ignorering af dem ikke påvirke vores forudsigelse af den samlede størrelse væsentligt. Der er fundet beviser for pseudoknoter med længere rækkevidde, såsom kysse hårnåle, der forbinder baser adskilt af så mange som 400 nt (31), Men selv disse er tæt i forhold til den samlede længde af virale genomer. Under alle omstændigheder, vores mål er at udvikle en nulordens teoretisk model, der fanger determinanterne for den samlede størrelse, med pseudoknoter, kysse hårnåle, og andre detaljer inkluderet senere efter behov.
for at oversætte lld mld til RG er det nyttigt at kortlægge RNA-sekundære strukturer på polymermodeller, hvis konfigurationsstatistik er godt forstået, såsom ideelle lineære og “stjerne” polymerer. Ved at bruge den enkleste idealisering, som i den frit sammenføjede kædemodel, der er diskuteret ovenfor, kan vi erstatte strukturer som de to vist i Fig. 1 A og B ved lineære kæder, hvis effektive konturlængder (Leff) er givet ved deres kurr MLD-kurrværdier. For at fuldføre denne kortlægning modellerer vi duplekssektionerne som de stive led i kæden, og ss buler, bobler og multibranch sløjfer som de fleksible led, der forbinder dem. Den effektive Kuhn-længde (beff) er således den gennemsnitlige duplekslængde i ssrna sekundær struktur, en egenskab, der er omtrent den samme (5 bp) for alle undersøgte sekvenser. Dette svarer til en gennemsnitlig RNA-duplekslængde på 1-2 nm. Fordi persistenslængden (et mål for længdeskalaen, hvor bøjning observeres) af dsRNA er 60 nm (32), er modellering af duplekssektionerne som stive legemer en fremragende tilnærmelse. Ss-sløjferne indeholder i gennemsnit ca. seks ss-baser, og vi estimerer således, at en typisk boble har ca.tre ss-baser på hver side; ssrna ‘s persistenslængde svarer sandsynligvis til ssDNA’ s, ca. to baser (33).
i denne kortlægning mellem sekundære strukturer og effektiv lineære polymerer, følger det, at de Rg en ssRNA molekyle med en vilkårlig rækkefølge, skal bestemmes af Kombinere den sidste ligning med vores tidligere resultat, lang MLD〉 ∼ N0.67, udbytter For en ikke-selv-undgå lineær kæde, ν = 0.5, i hvilket tilfælde, Rg ∼ N0.34; for en selv-at undgå lineær kæde, n ≈ 0.6, hvilket giver Rg ∼ N0.40.
denne tilgang kan udvides ved at kortlægge ssrna sekundære strukturer på et alternativt polymermodelsystem, der tegner sig for alle mulige stier på tværs af strukturen og således inkluderer alle grene. For enhver ideel polymer, lineær eller forgrenet, hvor Lij er afstanden langs rygraden mellem monomerer i og j (34). Som ovenfor opnår vi hvor Lij,eff er blevet erstattet af LDij i andet trin. ALD er den gennemsnitlige stigeafstand, dvs., gennemsnittet af N2 parvise stigeafstande i en RNA sekundær struktur, og Kurt ALD er dets ensemblegennemsnit. Ved at bruge værdier for Kurt ALD beregnet nøjagtigt ud fra parringssandsynlighederne genereret af RNAfold, vi har gentaget analysen vist i Fig. 2. Resultaterne er ækvivalente, med Kurt ALD Kurt n0.68 Kurt 0,01 og RG Kurt N0.34, og viser, at forskellene mellem tilfældige og virale ssrna ‘ er bevares, når grene eksplicit er inkluderet (se fig. 3 og S-scoringerne for de samlede værdier i den sidste kolonne i tabel 1). Som med MLD er ALD robust med hensyn til energimodellen. Resultater opnået med det forenklede foldeprogram (Kurt ALD Kurt n0.68 Kurt 0,01) er vist i fig. S6.
samme som Fig. 2, men med kr. ALD kr., beregnet med RNAfold, erstatter kr.MLD kr. Kurt ALD er et mål for størrelse, der eksplicit inkluderer alle grene.