Articles

Předpovídání velikosti velké molekuly RNA

Výsledky

aktuální RNA skládací programy jsou známo, že mají omezenou přesnost pro dlouhé sekvence (26). Pro naše účely, Nicméně, není nutné, aby byly všechny, nebo dokonce většina, jednotlivých párů správně předpovězeny. Předpokládané struktury musí být spíše dostatečně přesné, aby zachytily hrubozrnné rysy, které určují velikost 3D. Naše otázka se proto stává následující: Lze relativní velikosti velkých ssrna předpovědět z výpočetních odhadů vhodných vlastností jejich sekundárních struktur?

pro provedení takových odhadů musíme identifikovat hrubozrnnou charakteristiku sekundární struktury, která diktuje 3D velikost. Jedinou charakteristikou sekundární struktury, která nejvíce zjevně a přímo splňuje toto kritérium, je její „rozšíření“.“ Obr. 1 a A B vykazují „typicky vypadající“ virové a náhodné ssrna přibližně stejné délky. Je vidět, že náhodná ssRNA je nápadně rozšířenější. SsRNA na obr. 1A pochází z viru z čeledi Leviviridae. Další reprezentativní struktury z rodů Bromovirus, Tymovirus a Tobamovirus jsou znázorněny na obr. S2 a S3.

iv xmlns: xhtml= „http://www.w3.org/1999/xhtml Obr. 1.

predikované sekundární struktury ssrna. A) Enterobacteria fág Qß (v čeledi Leviviridae) ssRNA. B) náhodně permutovaná ssRNA. Každý z nich má délku ≈4,000 nt a je zobrazen ve stejném měřítku. MLDs těchto struktur jsou 221 a 368. (Ty jsou reprezentativní pro jejich příslušné průměry souborů: 〈MLD〉 fágové Qß ssRNA je 240 a 〈MLD〉 náhodných ssRNAs 4 000 bází je 361.) Žluté překryvy ilustrují cesty spojené s MLDs (Viz text a příklad 50-nt znázorněný v C). Hodnoty m MLD were byly vypočteny pomocí RNAsubopt; čísla byla nakreslena pomocí mfold.

tento rozdíl v rozšíření sekundárních struktur se promítá do rozdílu ve 3D velikosti. Pro vyhodnocení extendedness jako kandidátské charakteristiky je vyžadováno kvantitativní měřítko této vlastnosti. Bundschuh a Hwa zavedly žebříkovou vzdálenost jako měřítko vzdálenosti mezi libovolnými základnami v sekundárních strukturách ssRNA (27). Žebřík vzdálenost, LDij, je počet párů bází („příčky“ na „žebřík“), které se projíždí po nejpřímější cestu v sekundární struktura, která spojuje základy i a j. Protože ds sekce jsou v podstatě tuhé tyče, vzhledem k tomu, že oddíly ss jsou diskety, pouze ds oddíly jsou počítány v tomto měření vzdálenosti. Charakterizovat celkovou velikost RNA sekundární struktury pomocí jediné množství, představíme maximální žebřík vzdálenost (MLD), což je největší hodnota LDij pro všechny kombinace i a j. Jinými slovy, je to žebřík vzdálenost spojená s nejdelší přímá cesta přes sekundární struktury. To je znázorněno na obr. 1C, se sekundární strukturou MFE libovolné 50-NT-dlouhé sekvence, jejíž MLD je shodou okolností 11. Mld dráhy této sekundární struktury a cest na obr. 1 A A B jsou znázorněny žlutými překryvy.

zhodnotit svou užitečnost jako prediktivní měření velikosti, zjistili jsme, ensemble-průměrné MMR (〈MLD〉) hodnoty v šest virové taxonů (uvedené v Tabulce 1), jejíž virionů se skládá pouze z ssRNA genom, obalená v rámci bílkoviny shell. Viry pěti taxony mají každý pevná-poloměr kulové (T = 3 dvacetistěnná) shell skládá ze 180 kopií jednoho genu produktu, kapsidový protein. Jejich ssrna se pohybují ve velikosti od 3 000 do 7 000 nt, ale vnější průměry jejich kapsidů jsou všechny 26-28 nm (28, 29). Naproti tomu viry zbývajícího taxonu, Tobamoviry, se shromažďují do válcových skořápek s pevným poloměrem (18 nm), ale proměnnou délkou (v průměru ≈300 nm). Tedy, na rozdíl od genomy dvacetistěnná viry, ty Tobamoviruses není nutné, aby se vešly do pláště pevnou velikost; delší ssRNA délky jednoduše vést k delší (pevná-průměr) válce (30). Z naší počáteční domněnky by se dalo předpovědět, že Tobamoviry nejsou pod selektivním tlakem, aby měly RNA, které jsou zvláště kompaktní. Kromě toho, protože všech pět taxonů z dvacetistěnná viry capsids přibližně stejné velikosti, by se dalo očekávat, rozdíly mezi velikostí virové a náhodné ssRNAs zvýší se délka sekvence.

zobrazit tuto tabulku:

  • Zobrazit inline
  • zobrazit vyskakovací okno

Tabulka 1.

Rozdíly v 〈MLD〉a 〈ALD〉y mezi virovou a náhodné sekvence,

průměrné složení jednotlivých virových ssRNAs analyzovány tady (ne včetně Tymoviruses, jehož skladby jsou atypické pro viry, zkoumané v této studii) je 24.0% G, 22.1% C, O 26,9%, a 27.0% U. musíme Však brát v úvahu nejen průměrné složení, ale také průměrný rozdíl ve složení mezi základnami potenciálně schopen dvojice, tj., G a C a U a G a U. Toto složení rozpor (znovu, ne včetně Tymoviruses) je 2.9 procentních bodů u %G − %C, 2.9% A − %U, a 4,0 %G − %U (např. zda jedinec virové ssRNA obsažené 22% G a 26% C, nebo 26% G a 22% C, jeho %G − %C rozdíl 4 procentní body). Umožnit rovnováhu mezi těmito dvěma průměry—nukleotidů procenta a jejich rozdíly pro párování bází—jsme si vybrali „virus-like“ složení 24% G, 22% C 26% a 28% U u náhodně deionizovaná sekvence. S tímto složením, jsme vytvořili a analyzovali 500 náhodné sekvence o délce 2,500 nt, 500 délce 3000 nt a 300 v každé z délek na 4000, s 5000, s 6000, 7000 nt. 〈MLD each každé virové a náhodné sekvence byla stanovena pomocí RNAsubopt.

〈MLD〉 hodnoty dvacetistěnná virové Rna jsou systematicky menší než náhodné RNAs, jak lze vidět v log–log graf 〈MLD〉 vs. délka sekvence zobrazeny v Obr. 2. Každá jednotlivá virová ssRNA je označena symbolem označujícím její taxon. Genomy Bromovirů a Cucomovirů jsou multipartitní; jsou rozděleny mezi čtyři různé ssrna. Výsledky jsou uvedeny pro nejdelší a druhou nejdelší z nich, identifikované konvencí jako RNA 1 a 2, které se balí do samostatných (ale zjevně identických) kapsidů. Také jsou vyneseny průměrné 〈MLD〉 (〈MLD〉) hodnoty různých délek náhodné sekvence, a jejich směrodatné odchylky; výsledek je přibližně lineární (R2 = 0.993), s svah s uvedením 〈MLD〉 ∼ N0.67±0.01 nad tento rozsah.

Obr. 2.

log-log graf 〈MLD vs. vs. délka sekvence pro virové a náhodně permutované ssrna. Virové ssrna jsou identifikovány symboly uvedenými v klíči (vložka). Zde analyzované Bromoviridae pocházejí z rodů Bromovirus a Cucomovirus. Přímka je nejméně čtverců na 〈MLD〉 hodnoty vypočtené pro náhodné sekvence délky 2,500, 3,000, 4,000, 5,000, 6,000, a 7000 nt; svislé čáry ukazují směrodatné odchylky. Hodnoty m MLD were byly vypočteny pomocí RNAsubopt.

tyto škálovací vztahy pro náhodné ssrna jsou blízké N0.69 variace získaná numericky Bundschuhem a Hwa pro podobnou míru vzdálenosti, použitím energetického modelu, ve kterém jsou povoleny pouze párování Watson-Crick, je interakční energie stejná pro všechny páry a entropie je ignorována (27). Jejich měřítkem je vzdálenost žebříku, vzdálenost mezi první a (N/2 + 1). základny, v průměru za všechny struktury v souboru pro náhodný sled jednotné složení, a pak v průběhu mnoha sekvencí.

pro každou virovou ssRNA jsme vypočítali Z skóre 〈MLD〉, tj., počet směrodatných odchylek oddělujících jeho 〈MLD from od předpokládaných hodnot 〈MLD〉 náhodných sekvencí stejné délky. Ten je určen z regresní rovnice zakreslené na obr. 2 (Viz Text SI). Průměrné skóre z každého taxonu je uvedeno v tabulce 1. Ty dvacetistěnná viry rozmezí od -1.4 na -3,0, s uvedením jejich RNAs mít 〈MLD〉 hodnoty, které jsou odlišné od a menší než 〈MLD〉 hodnoty předpokládané pro rovné-délka náhodné RNAs. Dále, lineární regresní analýza skóre z vs. délka sekvence pro dvacetistěnná virové Rna ukazuje významný negativní sklon se spolehlivostí >95%, z čehož vyplývá, že relativní kompaktnost těchto Rna, z nichž všechny jsou potřebné, aby se vešly do capsids přibližně stejné velikosti, zvyšuje se délka sekvence.

průměrné skóre z hodnot 〈MLD values Tobamovirových ssRNAs je +0,6. Je zarážející, že tyto ssRNAs, který balík do válcové capsids proměnné délky, mají více rozšířené sekundární struktury a větší 〈MLD〉 hodnoty než dvacetistěnná viry. U ikosahedrálních virů i Tobamovirů se zdá, že existuje korespondence mezi předpokládanými sekundárními strukturami jejich genomů(viz obr. S3) a velikost a tvar kapsidů, do kterých musí genomy zapadat. Předpokládáme, že, aby se usnadnilo virové shromáždění, ssRNA sekvence self-montáž dvacetistěnná viry vyvinuly mít relativně malé 〈MLD〉 hodnoty, a že tyto menší 〈MLD〉 hodnoty vést k menším Rg hodnoty.

Tyto výsledky naznačují, že rozdíly mezi virovou a náhodné RNAs nevyskytují prostě proto, že virové Rna jsou biologického původu (každý je pozitivní smysl, přímo přeloženy messenger RNA); v opačném případě, jeden by neměl vidět rozdíl mezi výsledky pro dvacetistěnná a válcové viry. Další zkoumání jsme analyzovali 500 ssRNAs, že jsou přepisy po sobě jdoucích 3,000-základní sekce na kvasinky (S. cerevisiae) chromozomů XI a XII. Tyto kvasnice získané sekvence byly zahrnuty reprezentovat biologické RNAs, že i když se vyvinul, nebyly podrobeny selektivní tlaky na to, aby dané celkovou velikost a tvar. Naše zjištění, uvedené v Tabulce 2, ukazují, že 〈MLD〉 hodnoty kvasinek získaných RNAs jsou přibližně stejné jako u náhodné Rna, což naznačuje, že rozdíly mezi náhodné a virové ssRNAs nevyplývá pouze z biologického původu z druhé.

zobrazit tuto tabulku:

  • Zobrazit inline
  • zobrazit vyskakovací okno

Tabulka 2.

složení-závislost 〈MLD

jak již bylo zmíněno dříve, složení náhodných RNA bylo zvoleno tak, aby v průměru odpovídalo složení virových RNA co nejblíže. Mnoho jednotlivých virových RNA se však významně liší složením od náhodných RNA, což vyvolává otázku, zda by byly pozorovány stejné rozdíly v 〈MLD〉, kdyby byly virové RNA porovnány s náhodnými RNA stejného složení. Testovat citlivost na složení 〈MLD〉 hodnoty náhodné RNAs, jsme analyzovali 3,000-base náhodně deionizovaná RNAs jednotné (25% G, 25% C, 25% A, 25% U) složení. Výsledky uvedené v tabulce 2 ukazují, že the MLD〉 je necitlivý na malé změny složení. Dále se průměrné složení kvasinkových RNA výrazně liší od složení obou sad náhodných RNA, přesto jsou jejich hodnoty 〈MLD〉 přibližně stejné.

Jak je pravděpodobné, že předpokládané rozdíly v M MLD between mezi virovými a nevirovými RNA jsou přítomny ve skutečných RNA? RNAsubopt a všechny podobné programy, které předpovídají strukturu RNA, mají v zásadě schopnost najít všechny možné nepesevdoknotované struktury. To znamená, že přesnost RNAsubopt (jeho schopnost správně vzorku ze souboru) závisí ne na to, co struktur, je schopen předvídat (je možné předpovědět všechny z nich, kromě těch s pseudoknots), ale spíše na energie přiřadí k nim, která jsou určena jeho energetického modelu. Jak již bylo zmíněno, požadujeme pouze, aby RNAsubopt byl dostatečně přesný, aby předpověděl obecné hrubozrnné rysy sekundární struktury RNA, jako je 〈MLD〉. Vyhodnotit, zda naše zjištění jsou specifické pro RNAsubopt (a proto pravděpodobně artefakt daného energetického modelu, na kterém RNAsubopt je založena), jsme ve srovnání virových a náhodné ssRNAs pomocí mfold, které je podobné RNAsubopt ale liší poněkud v obou jeho energie modelu a struktury vzorků ze souboru. Vzhledem k tomu, že 〈MLD〉 hodnoty generované RNAsubopt se liší od SPP hodnoty generované mfold, jak ukázal stejný systematický rozdíl v MMR mezi virovou a náhodné ssRNAs, a přibližně stejná měřítka vztahy pro náhodné sekvence (SPP ∼ N0.74±0.01 pro mfold, viz Obr. S4).

pro další testování robustnosti těchto předpovědí jsme porovnali náhodné a virové ssrna pomocí našeho zjednodušeného programu skládání RNA. Tento program neurčuje jednotlivé sekundární struktury, a proto neumožňuje výpočet 〈MLD〉. Nicméně, to se určit párování pravděpodobnosti, která umožňuje výpočet maximální průměrné žebřík vzdálenost (MALD) celého souboru staveb, což je maximální hodnota souboru průměry N2 žebřík vzdálenosti spojené s každou N-základní sekvence. Zjistili jsme, že tento program, jako ty, je uvedeno výše, které jsou založeny na více realistické energie úkoly—také předpovídá, že systematické rozdíly mezi náhodné a virové Rna, dávat menší – hodnoty pro virové sekvence, než pro nonviral (viz Obr. S5). A tak, i velmi zjednodušený energetický model, který pouze bere v úvahu nejbližšího souseda interakce je dostatečná, aby odhalit zásadní rozdíl mezi sekundární struktury virových a náhodně deionizovaná ssRNA sekvence. S tímto zjednodušeným modelem, pro náhodné sekvence délek 2,000-4000, MALD ∼ N0. 66±0,02.

skládací programy, které používáme, nemohou vytvářet struktury, které obsahují pseudoknoty. I když pseudoknots jsou známo, že se vyskytují v virové Rna, jako jsou ty, které tvoří 3′-terminální tRNA-like structures (8), jsou obvykle místní (zahrnující základy odděleny pomocí <102 nt podél sekvence); v souladu s tím, jejich ignorování by se neměly výrazně ovlivnit naše predikce celkové velikosti. Byly nalezeny důkazy pro pseudoknoty s delším rozsahem, jako jsou líbání vlásenky spojující báze oddělené až 400 nt (31), ale i ty jsou blízké vzhledem k celkové délce virových genomů. V každém případě, naším cílem je vyvinout teoretický model nultého řádu, který zachycuje determinanty celkové velikosti, s pseudoknoty, líbání vlásenky, a další podrobnosti zahrnuty později podle potřeby.

přeložit 〈MLD〉 do Rg, je užitečné zmapovat RNA sekundární struktury na polymerní modely, jejichž konfigurační statistiky jsou tak zřejmé, jako ideální lineární a „hvězda“ polymery. Použitím nejjednodušší idealizace, jako ve výše popsaném modelu volně Spojeného řetězce, můžeme nahradit struktury, jako jsou dvě znázorněné na obr. 1 A A B lineárními řetězci, jejichž efektivní délky obrysů (Leff) jsou dány jejich hodnotami 〈MLD〉. K dokončení tohoto mapování, modelujeme duplexní sekce jako tuhé články řetězu, a SS boule, bubliny, a multibranch smyčky jako pružné spoje, které je spojují. Efektivní Kuhn délka (beff) je tedy průměrné duplex délka v ssRNA sekundární struktura, vlastnost, která je přibližně stejná (5 bp) pro všechny sekvence zkoumal. To odpovídá průměrné délce duplexu RNA 1-2 nm. Protože vytrvalost délka (měřítko délka měřítko, v němž ohýbání je pozorován) dsRNA je ≈60 nm (32), modelování duplexní úseky jako tuhého tělesa je vynikající aproximace. Ss smyčky, v průměru, obsahují přibližně šest ss základny, a proto odhadujeme, že typická bublina má přibližně tři ss základny na každé straně, vytrvalost délka ssRNA, je pravděpodobné, že podobný ssDNA, přibližně dvě základny (33).

Z tohoto mapování mezi sekundární struktury a efektivní lineární polymery, z toho vyplývá, že Rg z ssRNA molekuly s libovolnou posloupnost by měla být stanovena pomocíEmbedded Image Spojením poslední rovnice s naší dřívější výsledek, 〈MLD〉 ∼ N0.67, výnosyEmbedded Image Pro non-self-vyhnout lineární řetězce, ν = 0.5, což v tomto případě, Rg ∼ N0.34; pro self-vyhnout lineární řetězce, ν ≈ 0.6, což Rg ∼ N0.40.

tento přístup lze rozšířit mapováním sekundárních struktur ssRNA na alternativní systém polymerního modelu, který odpovídá za všechny možné cesty napříč strukturou, a tedy zahrnuje všechny větve. Pro všechny ideální polymer lineární nebo rozvětvený,Embedded Image, kde Lij je vzdálenost podél páteře mezi monomerů i a j (34). Řízení, jak je uvedeno výše, získámeEmbedded Image, kde Lij,eff byl nahrazen LDij v druhém kroku. ALD je průměrná vzdálenost žebříku, tj., průměr N2 párových žebříkových vzdáleností v sekundární struktuře RNA, a 〈ALD〉 je její průměr souboru. Použitím hodnot pro 〈ALD calculated vypočtených přesně z pravděpodobnosti párování generovaných RNAfold jsme zopakovali analýzu znázorněnou na obr. 2. Výsledky jsou ekvivalentní s 〈ALD〉 ∼ n0.68±0,01 a RG ∼ n0.34 a ukazují, že rozdíly mezi náhodnými a virovými ssrna jsou zachovány, pokud jsou větve explicitně zahrnuty (viz obr. 3 a skóre z hodnot 〈ALD〉 v posledním sloupci tabulky 1). Stejně jako u MLD je ALD robustní s ohledem na energetický model. Výsledky získané zjednodušeným programem skládání (〈ALD n n0.68±0,01) jsou znázorněny na obr. S6.

Obr. 3.

stejné jako obr. 2, ale s 〈ALD〉, počítáno s RNAfold, nahrazující 〈MLD〉. 〈ALD is je měřítko velikosti, které explicitně zahrnuje všechny větve.