Articles

A nagy RNS-molekulák méretének előrejelzése

eredmények

a jelenlegi RNS-hajtogatási programok ismert, hogy korlátozott pontossággal rendelkeznek a hosszú szekvenciák esetében (26). Céljainkhoz azonban nem szükséges, hogy az összes, vagy akár a legtöbb, az egyes párosításokat helyesen jósolják meg. Inkább az előre jelzett struktúráknak csak elég pontosnak kell lenniük ahhoz, hogy rögzítsék a 3D méretét meghatározó durva szemcsés jellemzőket. Kérdésünk tehát a következő lesz: Megjósolható-e a nagy ssrns-ek relatív mérete a másodlagos struktúráik megfelelő tulajdonságainak számítási becsléseiből?

az ilyen becslések elvégzéséhez meg kell határoznunk a másodlagos szerkezet durva szemcsés jellemzőjét, amely a 3D méretét diktálja. A másodlagos struktúra egyetlen jellemzője, amely a legnyilvánvalóbb, közvetlenül, megfelel ennek a kritériumnak, a “kiterjedtség.”Ábra. Az 1 A és B körülbelül azonos hosszúságú “tipikus kinézetű” vírusos és véletlenszerű ssrns-eket mutat. Látható, hogy a véletlenszerű ssrns feltűnően hosszabb. Az ssRNA az ábrán. Az 1A A Leviviridae család egyik vírusából származik. A Bromovírus, a Tymovírus és a Tobamovírus nemzetségek további reprezentatív struktúráit a füge mutatja. S2 és S3.

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml ábra. 1.

az ssrns-ek előre jelzett másodlagos struktúrái. A) enterobaktériumok fágja Q (A Leviviridae családban) ssrns. (B) véletlenszerűen permutált ssrns. Mindegyik 4000 nt hosszúságú, és azonos méretarányban van feltüntetve. Ezeknek a szerkezeteknek az MLD – je 221, illetve 368. (Ezek reprezentatívak a megfelelő együttes átlagukra: A Q fágok közül az MLD (MLD) és az ssrns (Ssrns) száma 240, a 4000 bázisú véletlenszerű ssrns (ssrns) száma pedig 361.) A sárga fedvények az MLD-khez kapcsolódó útvonalakat szemléltetik (lásd a szöveget és a C-ben ábrázolt 50-nt példát). Az MLD (MLD) értékeket rnasubopt-tal számítottuk ki, a számokat mfold-tal rajzoltuk.

Ez a különbség a másodlagos struktúrák kiterjesztésében a 3D méret különbségévé válik. A kiterjesztettség mint jelölt jellemző értékeléséhez ennek a tulajdonságnak a mennyiségi mérésére van szükség. Bundschuh és Hwa bevezette a létra távolságát az ssrns másodlagos szerkezeteiben lévő tetszőleges bázisok közötti távolság mértékeként (27). A létra távolsága, LDij, az alappárok (“létrák” a “létrán”) száma, amelyeket az I és j bázisokat összekötő másodlagos szerkezet legközvetlenebb útja mentén kereszteznek. mivel a ds szakaszok lényegében merev rudak, míg az ss szakaszok hajlékonylemezek, ebben a távolságmérésben csak a ds szakaszokat számoljuk. Az RNS szekunder struktúrák teljes méretének egyetlen mennyiség felhasználásával történő jellemzésére bevezetjük maximális létra távolság (MLD), amely az LDij legnagyobb értéke az összes kombináció esetében i és j. más szavakkal, ez a létra távolsága, amely a szekunder szerkezet leghosszabb közvetlen útjához kapcsolódik. Ezt az ábra szemlélteti. 1C, tetszőleges 50 nt hosszú szekvencia MFE másodlagos struktúrájával, amelynek MLD-je történetesen 11. Ennek a másodlagos struktúrának és az ábrán szereplőknek az MLD útvonalai. Az 1 A és a B sárga fedvényekkel van ábrázolva.

a méret prediktív mértékeként való hasznosságának értékeléséhez meghatároztuk az együttes átlagos MLD (MLD MLD) értékeket hat vírus taxonban (az 1.táblázatban felsorolva), amelyek Összes virionja egyszerűen egy ssrns genomból áll, amely egy fehérjehéjon belül van. A taxonok közül öt vírusának rögzített sugarú gömb alakú (T = 3 ikozaéder) héja van, amely egyetlen géntermék, a kapszid fehérje 180 példányából áll. Ssrns-ek mérete 3000-7000 nt, de kapszidjaik külső átmérője mind 26-28 nm (28, 29). Ezzel szemben a fennmaradó taxon, a Tobamovírusok vírusai rögzített sugarú (18 nm), de változó hosszúságú (átlagosan 300 nm) hengeres héjakká állnak össze. Így az ikozaéderes vírusok genomjaival ellentétben a Tobamovírusok genomjainak nem kell rögzített méretű héjba illeszkedniük; a hosszabb ssrns-hosszúságok egyszerűen hosszabb (rögzített átmérőjű) hengerekhez vezetnek (30). Kiinduló sejtésünkből azt jósolhatnánk, hogy a Tobamovírusok nincsenek szelektív nyomás alatt, hogy különösen kompakt RNS-ek legyenek. Továbbá, mivel az ikozaéderes vírusok mind az öt taxonja megközelítőleg azonos méretű kapszidokkal rendelkezik, a vírus mérete és a véletlenszerű ssrns-ek közötti eltérés a szekvencia hosszával növekszik.

a táblázat megtekintése:

  • Inline
  • felugró ablak megtekintése
1.táblázat.

különbségek a ~ MLD ~ s és a ~ ALD ~ s között a vírus és a véletlenszerű szekvenciák között

az itt elemzett egyes vírus ssrns-ek átlagos összetétele (a Tymovírusok kivételével, amelyek összetétele atipikus az ebben a tanulmányban vizsgált vírusok számára) 24,0% G, 22,1% C, 26,9% A és 27,0% U. azonban nemcsak az átlagos összetételt kell figyelembe vennünk, hanem az összetételben az olyan bázisok közötti átlagos eltérést is, amelyek potenciálisan pár, azaz G és C, A és U, és G és U. Ez az összetételbeli eltérés (ismét a tymovírusokat nem számítva) 2.9 százalékpont a % G- % C, 2,9% a – % U, és 4,0% G − %U (például, hogy egy egyedi vírus ssrns tartalmazott 22% G és 26% C, vagy 26% G és 22% C, A %G − %C különbség lenne 4 százalékpont). A két átlag—a nukleotid százalékok és a párosítási bázisok közötti különbségek—közötti egyensúly érdekében a “vírusszerű” összetételt választottuk 24% G, 22% C, 26% A és 28% U a véletlenszerűen permutált szekvenciákhoz. Ezzel a kompozícióval 500 véletlenszerű szekvenciát generáltunk és elemeztünk, amelyek hossza 2500 nt, 500 hossza 3000 nt, és 300 a 4000, 5000, 6000 és 7000 nt. Az egyes vírus-és véletlen szekvenciák közül az MLD-t az rnasubopt-tal határoztuk meg.

A 〈MLD〉 értékek, az emberek vírus Rns szisztematikusan kisebb, mint a véletlenszerű Rns, mint látható, a log–log telek 〈MLD〉 vs sorozat hossza jelenik meg Ábra. 2. Minden egyes vírusos ssrns-t egy szimbólum jelöli, amely jelzi a taxonját. A Bromovírusok és a Cucomovírusok genomjai többrészesek; négy különböző ssrns között oszlanak meg. Ezek közül a leghosszabb és a második leghosszabb eredményeket mutatják be, amelyeket az egyezmény szerint RNS 1 és 2-ként azonosítanak, amelyek különálló (de látszólag azonos) kapszidokba csomagolnak. Is ábrázoltuk az átlagos 〈MLD〉 (〈MLD〉) értékek a különböző hosszúságú véletlen sorozatok, valamint a szórás; az eredmény körülbelül lineáris (R2 = 0.993), egy lejtőn, jelezve, 〈MLD〉 ∼ N0.67±0.01 át ezt a tartományt.

ábra. 2.

Log-a vírus és a véletlenszerűen permutált ssrns-ek szekvenciahossz vs.MLD-ek naplójának diagramja. A vírusos ssrns-eket a kulcsban felsorolt szimbólumok azonosítják (betét). Az itt elemzett Bromoviridae a Bromovirus és a Cucomovirus nemzetségből származik. Az egyenes egy legkisebb négyzet, amely illeszkedik a véletlen hosszúságú szekvenciákhoz kiszámított ~ MLD ~ értékekhez 2,500, 3,000, 4,000, 5,000, 6,000, 7000 nt; a függőleges vonalak a szórásokat mutatják. Az MLD (MLD) értékeket az RNAsubopt segítségével számítottuk ki.

ezek a skálázási kapcsolatok véletlenszerű ssrns-ekhez közel vannak az N0-hoz.69 a Bundschuh és a Hwa által numerikusan kapott variáció hasonló távolságmérésre, olyan energiamodell alkalmazásával, amelyben csak Watson–Crick párosítások megengedettek, az interakciós energia minden pár esetében azonos, és az entrópiát figyelmen kívül hagyják (27). Távolságuk mértéke az első és (N/2 + 1)bázis közötti létra távolság, átlagolva az együttes összes struktúrájára egy egyenletes összetételű véletlen sorrendre, majd sok sorozatra.

minden egyes vírus ssrns – re kiszámítottuk a z pontszámot az MLD-ből, azaz., azon szórások száma, amelyek elválasztják a (Z) – t (MLD) a (z) előre jelzett (MLD) – től (MLD) az azonos hosszúságú véletlen sorozatok (véletlen sorozatok) – értékeit. Ez utóbbit az ábrán ábrázolt regressziós egyenlet alapján határozzuk meg. 2 (lásd SI szöveg). Az egyes taxonok átlagos Z pontszámát az 1. táblázat tartalmazza. Az ikozaéderes vírusok -1,4 és -3,0 között mozognak, ami azt jelzi, hogy RNS-eknek vannak olyan MLD-k, amelyek eltérnek az egyenlő hosszúságú véletlenszerű RNS-ekre előre jelzett ~ MLD-ktől, vagy kisebbek annál. Továbbá a Z pontszám lineáris regressziós analízise vs. az ikozaéderes vírusos RNS-ek szekvenciahossza szignifikáns negatív meredekséget mutat konfidencia intervallummal >95%, ami azt jelenti, hogy ezeknek az RNS-eknek a relatív tömörsége, amelyek mindegyike szükséges ahhoz, hogy megközelítőleg azonos méretű kapszidokba illeszkedjenek, a szekvencia hosszával növekszik.

a Tobamovírus ssrns-ek átlagos z-pontszáma +0,6. Meglepő, hogy ezek az ssrns-ek, amelyek változó hosszúságú hengeres kapszidokba csomagolnak, hosszabb másodlagos struktúrákkal és nagyobb számú MLD-vel rendelkeznek, mint az ikozaéderes vírusok. Mind az ikozaéderes vírusok, mind a Tobamovírusok esetében úgy tűnik, hogy összefüggés van genomjuk előre jelzett másodlagos struktúrái között (lásd az ábrát. S3) és a kapszidok mérete és alakja, amelyekbe a genomoknak illeszkedniük kell. Feltételezzük, hogy a vírusszerelés megkönnyítése érdekében az önszerelő ikozaéderes vírusok ssrns-szekvenciái viszonylag kicsivé fejlődtek ~MLD ~ értékek és hogy ezek a kisebb ~MLD ~ értékek kisebb Rg értékeket eredményeznek.

Ezek az eredmények azt sugallják, hogy a vírus és a véletlenszerű RNS-ek között talált különbségek nem pusztán azért fordulnak elő, mert a vírusos RNS-ek biológiai eredetűek (mindegyik pozitív értelemben vett, közvetlenül lefordított messenger RNS); különben nem látnánk különbséget az ikozaéderes és hengeres vírusok eredményei között. Ennek további vizsgálatához 500 ssrns-t elemeztünk, amelyek az élesztő (S. cerevisiae) xi és XII kromoszóma egymást követő 3000 bázisszakaszának átiratai. Ezek az élesztőből származó szekvenciák olyan biológiai RNS-eket ábrázoltak, amelyek bár fejlődtek, nem voltak kitéve szelektív nyomásnak, hogy különleges méretük és alakjuk legyen. A 2. táblázatban összeállított eredményeink azt mutatják, hogy az élesztőből származó RNS-ek (RNS-ek) ~ MLD ~ értékei megközelítőleg megegyeznek a véletlenszerű RNS-ekével, jelezve, hogy a véletlenszerű és a vírusos ssrns-ek közötti különbségek nem pusztán az utóbbi biológiai eredetéből származnak.

a táblázat megtekintése:

  • Inline
  • felugró ablak megtekintése
2.táblázat.

összetétel-függés a (z) ~ MLD ~ ~

mint korábban említettük, a véletlenszerű RNS-ek összetételét úgy választottuk meg, hogy átlagosan a lehető legszorosabban illeszkedjen a vírusos RNS-ek összetételéhez. Azonban, sok egyedi vírusos RNS összetétele jelentősen eltér a véletlenszerű RNS-ektől, felvetve azt a kérdést, hogy ugyanazok a különbségek vannak-e az MLD-ben, ha a vírusos RNS-eket összehasonlítanák az azonos összetételű véletlenszerű RNS-ekkel. A véletlen RNS-ek (MLD, MLD, MLD) értékeinek összetételére való érzékenység teszteléséhez 3000 bázisú, véletlenszerűen permutált, egyenletes (25% G, 25% C, 25% a, 25% U) összetételű RNS-t elemeztünk. A 2. táblázatban felsorolt eredmények azt mutatják, hogy a (z) MLD (MLD), a (z) 6. szám nem érzékeny a kis összetételű változásokra. Továbbá, az élesztő RNS-ek átlagos összetétele jelentősen eltér a véletlenszerű RNS-ek mindkét halmazától, mégis ezek közül az MLD-k megközelítőleg azonosak.

mennyire valószínű, hogy a vírus és a nem vírus RNS-ek közötti előre jelzett különbségek a tényleges RNS-ekben jelen vannak? Az RNAsubopt és minden hasonló program, amely megjósolja az RNS szerkezetét, elvileg képes megtalálni az összes lehetséges nem pszeudoknottált struktúrát. Így az RNAsubopt pontossága (annak képessége, hogy megfelelően mintát vegyen az együttesből) nem attól függ, hogy milyen struktúrákat képes megjósolni (mindegyiket meg tudja jósolni, kivéve a pszeudoknotokkal rendelkezőket), hanem a hozzájuk rendelt energiáktól, amelyeket az energiamodell határoz meg. Mint korábban említettük,csak azt követeljük meg, hogy az RNAsubopt kellően pontos legyen az RNS másodlagos szerkezetének általános durva szemcsés jellemzőinek előrejelzéséhez, mint pl. Annak értékelésére, hogy eredményeink specifikusak-e az RNAsubopt-ra (és ezért valószínűleg annak az adott energiamodellnek a műtárgya, amelyen az RNAsubopt alapul), összehasonlítottuk a vírusos és véletlenszerű ssrns-eket az mfold használatával, amely hasonló az RNAsubopt-hoz, de némileg különbözik mind az energiamodelljében, mind az együttesből vett struktúrákban. Míg az rnasubopt által generált (MLD) MLD-értékek eltérnek az mfold által generált amld-értékektől, mindkettő ugyanazt a szisztematikus különbséget mutatta az MLD-ben a vírus és a véletlenszerű ssrns-ek között, és megközelítőleg azonos skálázási összefüggéseket mutatott a véletlenszerű szekvenciák esetében (AMLD (N0.74) 0.01 az mfold esetében, lásd az ábrát. S4).

Ezen előrejelzések robusztusságának további teszteléséhez véletlenszerű és vírusos ssrns-eket hasonlítottunk össze egyszerűsített RNS hajtogató programunk segítségével. Ez a program nem határozza meg az egyes másodlagos struktúrákat,következésképpen nem teszi lehetővé az MLD (MLD) számú számításokat. Ez azonban meghatározza a párosítási valószínűségeket, amely lehetővé teszi a maximális átlagos létratávolság (MALD) kiszámítását a teljes szerkezetegyüttes számára, amely az egyes n-bázissorozatokhoz társított N2 létra távolságok együttes átlagának maximális értéke. Megállapítottuk, hogy ez a program—hasonlóan a fentiekben tárgyaltakhoz, amelyek reálisabb energiakiosztásokon alapulnak—a véletlenszerű és a vírusos RNS-ek közötti szisztematikus különbségeket is megjósolja, kisebb MALD értékeket adva a vírusszekvenciákra, mint a nem vírusokra (Lásd az ábrát. S5). Így még egy nagyon leegyszerűsített energiamodell is elegendő ahhoz, hogy felfedje a vírus és a véletlenszerűen permutált ssrns szekvenciák másodlagos struktúrái közötti alapvető különbséget. Ezzel az egyszerűsített modellel a 2000-4000 hosszúságú véletlenszerű szekvenciákhoz mald 66 n0,02.

az általunk alkalmazott hajtogatási programok nem hozhatnak létre pszeudoknotokat tartalmazó struktúrákat. Bár ismert, hogy pszeudoknotok fordulnak elő a vírusos RNS-ekben, például azokban, amelyek 3′-terminális tRNS-szerű struktúrákat alkotnak (8), ezek jellemzően lokálisak (a bázisokat elválasztva <102 nt a szekvencia mentén); ennek megfelelően ezek figyelmen kívül hagyása nem befolyásolhatja jelentősen a teljes méret előrejelzését. Bizonyítékot találtak a hosszabb hatótávolságú pszeudoknotokra, például a 400 nt-vel elválasztott bázisokat összekötő csókos hajtűkre (31), de még ezek is közel állnak a vírusgenomok teljes hosszához. Mindenesetre célunk egy nulladik rendű elméleti modell kifejlesztése, amely rögzíti a teljes méret meghatározóit, pszeudoknotokkal, csókos hajtűkkel és egyéb részletekkel később, ha szükséges.

ahhoz, hogy a (z) ~ MLD ~ – t Rg-re lefordítsuk, hasznos az RNS másodlagos struktúráit olyan polimer modellekre leképezni, amelyek konfigurációs statisztikája jól ismert, mint például az ideális lineáris és a “csillag” polimerek. A legegyszerűbb idealizálás alkalmazásával, mint a fent tárgyalt szabadon illesztett láncmodellben, kicserélhetjük az ábrán látható kettőhöz hasonló szerkezeteket. 1 A és B lineáris láncok, amelyek effektív kontúrhossz (Leff) az MLD (MLD) értékekkel vannak megadva. A leképezés befejezéséhez a duplex szakaszokat a lánc merev láncszemeként, az ss kidudorodásokat, buborékokat és többágú hurkokat pedig rugalmas illesztésekként modellezzük, amelyek összekötik őket. Az effektív Kuhn-hossz (beff) tehát az ssrns másodlagos struktúrájának átlagos duplex hossza, amely tulajdonság az összes vizsgált szekvencia esetében megközelítőleg azonos (5 bp). Ez egy átlagos RNS duplex hosszúságnak felel meg, 1-2 nm. Mivel a dsrns perzisztencia hossza (annak a hosszskálának a mértéke, amelynél a hajlítás megfigyelhető) 60 nm (32), a duplex szakaszok merev testekként történő modellezése kiváló közelítés. Az SS hurkok átlagosan körülbelül hat SS bázist tartalmaznak, ezért úgy becsüljük, hogy egy tipikus buboréknak körülbelül három ss bázisa van mindkét oldalon; az ssrns perzisztencia hossza valószínűleg hasonló az ssdns-hez, körülbelül két bázis (33).

ez feltérképezése közötti másodlagos szerkezetek, hatékony lineáris polimerek, ebből következik, hogy a Rg-egy ssRNA molekula egy tetszőleges sorrendben kell meghatározni, hogy azEmbedded Image Ötvözi az utolsó egyenlet a korábbi eredményt, 〈MLD〉 ∼ N0.67 a hozamokEmbedded Image egy non-self-elkerülve a lineáris láncot, ν a pillanatnyi = 0.5, ebben az esetben, Rg ∼ N0.34; egy önálló, elkerülve a lineáris láncot, ν a pillanatnyi ≈ 0.6, így Rg ∼ N0.40.

Ez a megközelítés kibővíthető az ssrns másodlagos struktúráinak egy alternatív polimer modellrendszerre történő leképezésével, amely figyelembe veszi a szerkezet minden lehetséges útját, és így magában foglalja az összes ágat. Bármely ideális, lineáris vagy elágazó polimer esetébenbeágyazott kép ahol Lij az I és j monomerek (34) közötti távolság a gerinc mentén. A fentiek szerint eljárva megkapjuk abeágyazott képet ahol a Lij,eff helyébe az LDij lépett a második lépésben. Az ALD az átlagos létra távolság, azaz., az n átlaga2 páronként létra távolságok egy RNS másodlagos szerkezetben, és az együttesének együttes átlaga. Az rnafold által generált párosítási valószínűségekből pontosan kiszámított értékek felhasználásával a (z) ALD-hez, megismételtük az ábrán látható elemzést. 2. Az eredmények ekvivalensek, az ALD-n0,68-n0,01-es és az RG-N0,34-es adatokkal, és azt mutatják, hogy a véletlenszerű és a vírusos ssrns-ek közötti különbségek megmaradnak, ha az ágakat kifejezetten belefoglaljuk (lásd az ábrát. 3 és a z pontszámok az 1.táblázat utolsó oszlopában szereplő, a (z) számú ALD-számú, a (z) számú számjegy. Az MLD – hez hasonlóan az ALD is robusztus az energiamodell tekintetében. Az egyszerűsített hajtogatási programmal kapott eredményeket (~ALD ~ N0.68 ~ 0.01) az ábrán mutatjuk be. S6.

ábra. 3.

ugyanaz, mint a Fig. 2, de a (z) rnafold értékkel számított) ALD-vel, a (z) helyett a (z) MLD-vel. 〈ALD〉 az intézkedés méret, amely kifejezetten tartalmazza az összes ágak.