Articles

Suurten RNA-molekyylien koon ennustaminen

tulokset

nykyisillä RNA: n taitto-ohjelmilla tiedetään olevan rajallinen tarkkuus pitkille sekvensseille (26). Meidän tarkoituksiamme varten ei kuitenkaan ole välttämätöntä, että kaikki tai edes suurin osa yksittäisistä pareista ennustetaan oikein. Sen sijaan ennustettujen rakenteiden täytyy olla vain riittävän tarkkoja, jotta 3D-koon määrittävät karkearakeiset piirteet saadaan talteen. Kysymyksemme on siis seuraava:: Voidaanko suurten ssrnojen suhteelliset koot ennustaa niiden sekundaarirakenteiden sopivien ominaisuuksien laskennallisista estimaateista?

tällaisten arvioiden tekemiseksi on tunnistettava sekundäärirakenteesta karkearakeinen ominaisuus, joka sanelee 3D-koon. Tämän kriteerin ilmeisimmin ja suoraan täyttävän sekundaarirakenteen yksittäinen ominaisuus on sen ” laajeneminen.”Kuva. 1 A ja B osoittavat vastaavasti ”tyypillisen näköisiä” virus-ja satunnaisia ssrnoja, joiden pituus on suunnilleen sama. Voidaan nähdä, että satunnainen ssRNA on silmiinpistävän laajempi. SsRNA viikuna. 1A on peräisin leviviridae-heimoon kuuluvasta viruksesta. Muita edustavia rakenteita, alkaen Bromovirus, Tymovirus ja Tobamovirus suvut, näkyvät viikunat. S2 ja S3.

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml Fig. 1.

ssRNAs: n ennustetut sekundaarirakenteet. (A) enterobakteerit phage Qß (leviviridae-heimossa) ssRNA. B) satunnaisesti permuovattu ssRNA. Kunkin pituus on ≈4 000 nt ja se esitetään samalla asteikolla. Näiden rakenteiden Mldit ovat vastaavasti 221 ja 368. (Nämä edustavat kunkin ryhmän keskiarvoja: Faagi Qß ssRNA: n 〈MLD〉 on 240 ja 4 000-kantaisen satunnaisen ssRNAs: n 〈MLD〉 on 361.) Keltaiset peittokuvat kuvaavat MLDs: ään liittyviä polkuja (KS.teksti ja C: ssä kuvattu 50-nt-esimerkki). 〈MLD〉 arvot laskettiin rnasuboptilla; luvut piirrettiin mfold: llä.

tämä ero toisiorakenteiden laajuudessa merkitsee eroa 3D-koossa. Jotta voidaan arvioida laajentumista ehdokkaana ominaisuutena, tarvitaan tämän ominaisuuden määrällinen mitta. Bundschuh ja Hwa ottivat käyttöön tikasetäisyyden ssrna: n toissijaisissa rakenteissa mielivaltaisten perusteiden välisen etäisyyden mittana (27). Tikkaiden etäisyys, LDij, on niiden emäsparien (”puolat” ”tikapuilla”) lukumäärä, jotka risteytetään suorinta polkua pitkin emästen i ja j yhdistävässä toisiorakenteessa. koska ds-osat ovat pohjimmiltaan jäykkiä sauvoja, kun taas ss-osat ovat levykkeitä, vain DS-osat lasketaan tässä etäisyyden mittauksessa. RNA-toisiorakenteiden kokonaiskoon kuvaamiseksi yhdellä suureella otetaan käyttöön maksimitikkaetäisyys (maximum ladder distance, MLD), joka on LDij: n suurin arvo kaikille I: n ja j: n yhdistelmille. Tätä havainnollistetaan Kuvassa. 1C, jonka MFE-toisiorakenne on mielivaltainen 50-nt – pituinen sekvenssi, jonka MLD sattuu olemaan 11. MLD polkuja tämän toissijaisen rakenteen ja niiden Kuvassa. 1 A ja B on kuvitettu keltaisilla peittokuvilla.

arvioidaksemme sen käyttökelpoisuutta koon ennustavana mittana määritimme ensemble-keskimääräiset MLD (〈MLD〉) – arvot kuudessa viruksen taksonissa (lueteltu taulukossa 1), joiden kaikkien viriot koostuvat yksinkertaisesti ssRNA-genomista, joka on koteloitunut proteiinikuoreen. Viiden taksonin viruksilla on kullakin kiinteäsäikeinen pallomainen (T = 3 ikosaedrinen) kuori, joka koostuu 180 kopiosta yhdestä geenituotteesta, kapsidiproteiinista. Niiden ssrnat ovat kooltaan 3 000-7 000 nt, mutta niiden kapsidien ulkohalkaisijat ovat kaikki 26-28 nm (28, 29). Sen sijaan jäljelle jääneiden taksonien eli Tobamovirusten virukset kasautuvat lieriömäisiksi kuoriksi, joiden säde on kiinteä (18 nm) mutta pituus vaihteleva (keskiarvo ≈300 nm). Toisin kuin ikosaedristen virusten genomien, Tobamovirusten ei siis tarvitse mahtua kiinteän kokoiseen kuoreen, vaan ssRNA: n pituudet johtavat yksinkertaisesti pidempiin (kiinteän halkaisijan) sylintereihin (30). Lähtötietojen perusteella voisi ennustaa, että Tobamoviruksiin ei kohdistu valikoivaa painetta saada RNA: ita, jotka ovat erityisen kompakteja. Lisäksi, koska kaikilla viidellä ikosaedrivirusten taksoneilla on kapsideja, jotka ovat suunnilleen samankokoisia, voisi olettaa, että ero viruksen ja satunnaisen ssrnojen koon välillä kasvaa sekvenssin pituuden myötä.

katso tätä taulukkoa:

  • katso inline
  • Katso popup
Taulukko 1.

tässä analysoitujen yksittäisten ssrnojen keskimääräinen koostumus (lukuun ottamatta Tymoviruksia, joiden koostumukset ovat epätyypillisiä tässä tutkimuksessa tutkituille viruksille) on 24, 0% G, 22, 1% C, 26, 9% A ja 27, 0% U. pari eli G ja C, A ja U sekä G ja U. tämä koostumusero (jälleen, lukuun ottamatta tymoviruksia) on 2.9 prosenttiyksikköä %G − %C: lle, 2,9% a − %U: lle ja 4,0% g − %U: lle (esim.sisältääkö yksittäinen virus ssRNA 22% g: tä ja 26% C: tä tai 26% g: tä ja 22% C: tä, sen %G − %C: n ero olisi 4 prosenttiyksikköä). Jotta nämä kaksi keskiarvoa—nukleotidiprosentit ja niiden erot pariliitosemäksissä—olisivat tasapainossa, valitsimme ”viruksen kaltaisen” koostumuksen 24% G, 22% C, 26% A ja 28% U satunnaisesti permittyjen sekvenssien osalta. Tämän koostumuksen, olemme luoneet ja analysoineet 500 satunnainen sekvenssit pituus 2,500 nt, 500 pituus 3,000 nt, ja 300 kunkin pituudet 4,000, 5,000, 6,000, ja 7,000 nt. Kunkin virus – ja satunnaisjärjestyksen 〈MLD〉 määritettiin rnasuboptilla.

ikosaedrisen viraalisen RNA: n 〈MLD〉–arvot ovat systemaattisesti pienempiä kuin satunnaisen RNA: n arvot, kuten voidaan nähdä Kuviossa 〈MLD〉 vs. sekvenssin pituudesta. 2. Jokainen yksittäinen virus ssRNA on nimetty symbolilla, joka osoittaa sen taksonin. Bromovirusten ja Cucomovirusten genomit ovat moniosaisia; ne jaetaan neljään eri ssrnaan. Tulokset esitetään pisimmälle ja toiseksi pisimmälle näistä, jotka on yleissopimuksen mukaan määritelty RNAs 1: ksi ja 2: ksi, jotka pakataan erillisiksi (mutta ilmeisesti identtisiksi) kapsideiksi. Myös piirretty ovat keskimäärin 〈MLD〉 (〈MLD〉) arvot eri pituisia satunnaisia sekvenssejä, ja niiden keskihajonnat; tulos on noin lineaarinen (R2 = 0.993), joiden kaltevuus osoittaa 〈MLD〉 ∼ N0.67±0.01 yli tällä alueella.

Kuva. 2.

log-log-kuvaaja 〈MLD〉 vs. sekvenssin pituus virusperäisille ja satunnaisesti permutoiduille ssrnoille. Virusperäiset ssrnat tunnistetaan avaimessa luetelluista symboleista (pikkukuva). Tässä analysoidut Bromoviridae ovat peräisin Bromovirus-ja Cucomovirus-suvuista. Suora on pienin-neliöt sopivat 〈MLD values arvot lasketaan satunnainen sekvenssien pituudet 2,500, 3,000, 4,000, 5,000, 6,000, ja 7000 nt; pystyviivat osoittavat keskihajonnat. 〈MLD〉 arvot laskettiin rnasuboptilla.

nämä skaalaussuhteet satunnaisilla ssrnoilla ovat lähellä N0: ää.69 variaatio, joka saadaan numeerisesti Bundschuhin ja Hwa: n avulla samanlaiselle etäisyyden mittalle käyttämällä energiamallia, jossa vain Watson–Crick-paritukset ovat sallittuja, vuorovaikutusenergia on sama kaikille pareille ja entropia jätetään huomiotta (27). Niiden mitta etäisyys on tikkaiden välinen etäisyys ensimmäisen ja (N / 2 + 1)TH perusta, keskiarvona kaikkien rakenteiden ensemble satunnaisessa järjestyksessä yhtenäinen koostumus ja sitten monien sekvenssien.

jokaiselle viruksen ssRNA: lle laskettiin 〈MLD〉: n z-pisteet, ts., niiden keskihajonnojen lukumäärä, jotka erottavat sen 〈MLD〉: n ennustetuista 〈MLD〉: n arvoista, jotka ovat samanpituisia satunnaisia sekvenssejä. Jälkimmäinen määritetään Kuvassa piirretystä regressioyhtälöstä. 2 (ks. SI-teksti). Kunkin taksonin Z-pisteiden keskiarvo on lueteltu taulukossa 1. Ikosaedristen virusten arvot vaihtelevat -1,4: stä -3,0: aan, mikä osoittaa, että niiden Rnoilla on 〈MLD〉-arvot, jotka poikkeavat ja ovat pienempiä kuin samanpituisille satunnaisille Rnoille ennustetut 〈MLD〉 – arvot. Lisäksi lineaarinen regressioanalyysi Z-pisteestä vs. ikosaedrisen viruksen RNA: n sekvenssin pituus osoittaa merkittävää negatiivista kaltevuutta luottamusvälillä >95%, mikä tarkoittaa, että näiden RNA: iden suhteellinen tiiviys, joiden kaikkien edellytetään mahtuvan suunnilleen samankokoisiin kapsideihin, kasvaa sekvenssin pituuden myötä.

tobamovirus ssRNAs: n 〈MLD〉 – arvojen keskimääräinen Z-pistemäärä on +0,6. On silmiinpistävää, että näillä ssrnoilla, jotka pakkautuvat vaihtelevan pituisiksi sylinterimäisiksi kapsideiksi, on pidemmät sekundaarirakenteet ja suuremmat M MLD〉 – arvot kuin ikosaedriviruksilla. Sekä ikosaedriset virukset että Tobamovirukset näyttävät vastaavan niiden genomien ennustettuja sekundaarirakenteita(KS. S3) ja niiden kapsidien kokoa ja muotoa, joihin genomien on sovittava. Oletamme, että virusten kokoonpanon helpottamiseksi ssRNA-sekvenssit itsekokoautuvista ikosaedriviruksista ovat kehittyneet suhteellisen pieniksi 〈MLD〉 – arvoiksi ja että nämä pienemmät 〈MLD〉 – arvot aiheuttavat pienempiä Rg-arvoja.

nämä tulokset viittaavat siihen, että viruksen ja satunnaisen RNA: n välillä havaitut erot eivät johdu pelkästään siitä, että viruksen RNA: t ovat biologista alkuperää (jokainen on positiivisessa mielessä suoraan käännettyä lähetti-RNA: ta); muutoin ikosaedristen ja lieriömäisten virusten tulosten välillä ei olisi eroa. Tutkiaksemme tätä tarkemmin, analysoimme 500 ssrnaa, jotka ovat peräkkäisten 3000-emäsosien transkriptioita hiivan (S. cerevisiae) kromosomeissa XI ja XII. Nämä hiivasta saadut sekvenssit otettiin mukaan edustamaan biologisia RNA: ita, joihin ei ole kohdistunut valikoivia paineita, jotta niillä olisi tietty koko ja muoto. Havaintomme, koottu taulukossa 2, osoittavat, että yeast MLD〉 arvot hiiva-johdettu RNAs ovat suunnilleen samat kuin Random RNAs, mikä osoittaa, että erot satunnaisen ja virus-ssRNAs eivät johdu pelkästään biologisesta alkuperästä jälkimmäisen.

katso tätä taulukkoa:

  • katso inline
  • Katso popup
Taulukko 2.

Composition-dependence of 〈MLD

kuten aiemmin mainittiin, satunnaisten RNA: iden koostumus valittiin vastaamaan keskimäärin viruksen RNA: iden koostumusta mahdollisimman tarkasti. Kuitenkin monet yksittäiset virusten RNA: t eroavat koostumukseltaan merkittävästi satunnaisista RNA: ista, mikä herättää kysymyksen siitä, ovatko samat erot 〈MLD〉: ssä nähtäisiin, jos viruksen RNA: ita verrattaisiin satunnaisiin RNA: iin, joilla on sama koostumus. Testataksemme satunnaisen RNAs: n 〈MLD〉-arvojen koostumuksen herkkyyttä analysoimme 3000-base satunnaisesti permutoidun RNAS: n yhdenmukaisen (25% G, 25% C, 25% a, 25% U) koostumuksen. Taulukossa 2 luetellut tulokset osoittavat, että the MLD〉 on herkkä pienille koostumusmuutoksille. Lisäksi hiivan RNAS: n keskimääräinen koostumus eroaa merkittävästi molempien Random RNAs-sarjojen koostumuksesta, mutta niiden 〈MLD〉 – arvot ovat suunnilleen samat.

kuinka todennäköistä on, että viruksellisten ja ei-viraalisten RNA: iden ennustetut erot in 〈MLD〉 esiintyvät varsinaisissa RNA: issa? Rnasuboptilla ja kaikilla vastaavilla RNA: n rakennetta ennustavilla ohjelmilla on periaatteessa kyky löytää kaikki mahdolliset ei-pseudoknottoidut rakenteet. Näin ollen rnasuboptin tarkkuus (sen kyky oikein samplata kokonaisuudesta) ei riipu siitä, mitä rakenteita se pystyy ennustamaan (se voi ennustaa ne kaikki, lukuun ottamatta niitä, joilla on pseudoknotit), vaan pikemminkin energioista, joita se antaa niille, jotka määräytyvät sen energiamallin mukaan. Kuten aiemmin mainittiin, edellytämme vain, että RNAsubopt on riittävän tarkka ennustaakseen RNA-toisiorakenteen yleiset karkearakeiset piirteet, kuten 〈MLD〉. Arvioidaksemme, ovatko havaintomme erityisiä Rnasuboptille (ja siksi mahdollisesti tietyn energiamallin artefakti, johon RNAsubopt perustuu), vertasimme virus-ja random ssRNAs: ia käyttämällä mfold: ää, joka on samanlainen kuin RNAsubopt, mutta eroaa jonkin verran sekä energiamallissaan että rakenteissaan, jotka se ottaa kokonaisuudesta. Vaikka rnasuboptin tuottamat 〈MLD〉 – arvot poikkeavat MFOLD: n tuottamista AMLD-arvoista, molemmat osoittivat saman systemaattisen eron MLD: ssä virus-ja satunnaisrnojen välillä ja suunnilleen samat skaalaussuhteet satunnaisille sekvensseille (AMLD ∼ N0.74±0.01 mfold: lle, KS.Kuva. S4).

testataksemme edelleen näiden ennusteiden luotettavuutta vertasimme satunnaisia ja viruksellisia ssrnoja käyttäen yksinkertaistettua RNA: n taitto-ohjelmaamme. Tämä ohjelma ei määritä yksittäisiä sekundaarirakenteita, eikä näin ollen salli of MLD〉: n laskemista. Se kuitenkin määrittää pariutumisen todennäköisyydet, jolloin voidaan laskea koko rakenteiden kokonaisuuden suurin keskimääräinen tikapuuetäisyys (MALD), joka on kuhunkin n-kantajaksoon liittyvien N2-tikkaiden etäisyyksien Ensemblen keskiarvojen suurin arvo. Havaitsemme, että tämä ohjelma—kuten edellä mainitut, jotka perustuvat realistisempiin energiatehtäviin—ennustaa myös systemaattisia eroja satunnais-ja virusperäisten RNA: iden välillä, antaen pienempiä mald-arvoja virussekvensseille kuin ei-viraalisille (KS. S5). Näin ollen jopa erittäin yksinkertaistettu energiamalli, joka vain ottaa huomioon lähimmän naapurin vuorovaikutukset, riittää paljastamaan perustavanlaatuisen eron virus-ja satunnaisesti permanentoitujen ssRNA-sekvenssien sekundaarirakenteiden välillä. Tällä yksinkertaistetulla mallilla satunnaisille jaksoille, joiden pituudet ovat 2000-4000, MALD ∼ N0. 66±0.02.

käyttämämme taitto-ohjelmat eivät pysty tuottamaan rakenteita, jotka sisältävät pseudoknotteja. Vaikka pseudoknotteja tiedetään esiintyvän viruksen RNA: ssa, kuten niissä, jotka muodostavat 3′-terminaalisen tRNA: n kaltaisia rakenteita (8), ne ovat tyypillisesti paikallisia (joissa emäkset on erotettu <102 nt sekvenssin mukaisesti); näin ollen niiden huomiotta jättäminen ei vaikuta merkittävästi ennusteeseemme kokonaiskoosta. Todisteita on löydetty pidemmistä pseudoknoteista, kuten suutelevista hiuspinneistä, jotka yhdistävät emäksiä, joita erottaa jopa 400 nt (31), mutta nekin ovat lähellä viruksen genomien kokonaispituutta. Joka tapauksessa, tavoitteenamme on kehittää zeroth-order teoreettinen malli, joka tallentaa tekijät kokonaiskoon, pseudoknots, Suudella hiuspinnit, ja muita yksityiskohtia myöhemmin tarvittaessa.

〈MLD〉: n kääntämiseksi RG: ksi on hyödyllistä kartoittaa RNA: n sekundaarirakenteet polymeerimalleille, joiden konfiguraatiotilastot tunnetaan hyvin, kuten ideaalisille lineaarisille ja ”star” – polymeereille. Käyttämällä yksinkertaisinta idealisointia, kuten edellä käsitellyssä vapaasti nivelletyssä ketjumallissa, voimme korvata rakenteita, kuten kaksi kuvassa esitettyä. 1 A ja B lineaarisilla ketjuilla, joiden efektiiviset ääriviivojen pituudet (Leff) annetaan niiden 〈MLD〉 – arvoilla. Tämän kartoituksen täydentämiseksi mallimme duplex-osat ketjun jäykiksi renkaiksi ja SS-pullistumat, kuplat ja monihaaraiset silmukat niitä yhdistäviksi joustaviksi liitoksiksi. Efektiivinen Kuhn-pituus (beff) on siis ssRNA-sekundaarirakenteen keskimääräinen duplex-pituus, ominaisuus, joka on suunnilleen sama (5 bp) kaikille tutkituille sekvensseille. Tämä vastaa keskimäärin 1-2 nm: n RNA-dupleksipituutta. Koska dsRNA: n pysyvyyspituus (pituusasteikon mitta, jolla taivutus havaitaan) on ≈60 nm (32), duplex-osien mallintaminen jäykiksi kappaleiksi on erinomainen approksimaatio. Ss-silmukoissa on keskimäärin noin kuusi SS-emästä, joten arvioimme, että tyypillisessä kuplassa on noin kolme SS-emästä kummallakin puolella; ssRNA: n pysyvyyspituus on todennäköisesti sama kuin ssDNA: lla, noin kaksi emästä (33).

tästä sekundaarirakenteiden ja efektiivisten lineaaristen polymeerien välisestä kartoituksesta seuraa, että mielivaltaisen sekvenssin omaavan ssRNA-molekyylin RG tulisi määrittääupotetun kuvan yhdistämällä viimeinen yhtälö aikaisempaan tulokseemme 〈mld 〉 ∼ N0.67 saadaanupotettu kuva ei-itseään välttävälle lineaariketjulle, ν = 0.5, jolloin RG ∼ N0.34; itseään välttävälle lineaariselle ketjulle ν ≈ 0.6, jolloin saadaan RG ∼ N0.40.

tätä lähestymistapaa voidaan laajentaa kartoittamalla ssRNA-toisiorakenteet vaihtoehtoiseen polymeerimallijärjestelmään, joka ottaa huomioon kaikki mahdolliset reitit rakenteen poikki ja siten sisältää kaikki haarat. Minkä tahansa ideaalisen, lineaarisen tai haarautuneen polymeerin osaltaupotettu kuva, jossa Lij on monomeerien i ja j välinen etäisyys selkärangassa (34). Edetessämme kuten yllä, saadaanupotettu kuva jossa Lij,eff on korvattu LDij: llä toisessa vaiheessa. ALD on keskimääräinen tikkaiden etäisyys, ts., keskimääräinen N2 pairwise tikapuiden etäisyydet RNA toissijainen rakenne, ja 〈ALD〉 on sen ensemble keskiarvo. Käyttämällä arvoja 〈ALD〉 laskettu täsmälleen pariliitoksen todennäköisyydet tuottamat RNAfold, olemme toistaneet analyysin esitetty Fig. 2. Tulokset ovat vastaavat, kanssa 〈ALD〉 ∼ N0.68 ± 0.01 ja RG ∼ N0.34, ja osoittavat, että erot satunnaisen ja virus ssrnas säilyvät, kun oksat ovat nimenomaisesti mukana (ks. 3 ja taulukon 1 viimeisessä sarakkeessa olevien 〈ALD〉 – arvojen Z-pisteet). Kuten MLD: ssä, ALD on energiamallin suhteen vankkarakenteinen. Yksinkertaistetulla taitto-ohjelmalla (〈ALD 〉 ∼ N0.68±0.01) saadut tulokset on esitetty kuvassa. S6.

Kuva. 3.

sama kuin Fig. 2, mutta 〈ALD〉, laskettuna rnafoldilla, korvaten 〈MLD〉. 〈ALD〉 on koon mitta, joka sisältää eksplisiittisesti kaikki haarat.