Przewidywanie wielkości dużych cząsteczek RNA
wyniki
wiadomo, że obecne programy zwijania RNA mają ograniczoną dokładność dla długich sekwencji (26). Dla naszych celów nie jest jednak konieczne, aby wszystkie, a nawet większość, poszczególnych par były prawidłowo przewidywane. Przewidywane struktury muszą być raczej wystarczająco dokładne, aby uchwycić gruboziarniste cechy, które określają rozmiar 3D. Dlatego nasze pytanie brzmi następująco: Czy względne rozmiary dużych ssrna można przewidzieć na podstawie obliczeń szacunkowych odpowiednich właściwości ich struktur wtórnych?
aby dokonać takich szacunków, musimy zidentyfikować gruboziarnistą charakterystykę struktury wtórnej, która dyktuje Rozmiar 3D. Jedyną cechą struktury wtórnej, która najbardziej i bezpośrednio spełnia to kryterium, jest jej ” rozciągliwość.”Fot. 1 A i B wykazują odpowiednio” typowo wyglądające ” wirusowe i losowe ssrna o tej samej długości. Można zauważyć, że losowy ssRNA jest uderzająco bardziej rozszerzony. SsRNA na Rys. 1A pochodzi od wirusa z rodziny Leviviridae. Dodatkowe reprezentatywne struktury, z rodzajów Bromowirusów, Tymowirusów i Tobamowirusów, przedstawiono na fig. S2 i S3.
przewidywane wtórne struktury ssrna . A) Enterobacteria Fage Qß (w rodzinie Leviviridae) ssRNA. B) losowo permutowane ssRNA. Każda ma ≈4000 nt długości i jest pokazana w tej samej skali. Mld tych struktur wynosi odpowiednio 221 i 368. (Są one reprezentatywne dla ich odpowiednich średnich zespołów: 〈MLD〉 Fage Qß ssRNA wynosi 240, a 〈MLD〉 4000-bazowych losowych ssrna wynosi 361.) Żółte nakładki ilustrują ścieżki związane z MLDs (patrz tekst i przykład 50-nt przedstawiony w C). 〈MLD m wartości zostały obliczone za pomocą RNAsubopt; liczby zostały narysowane za pomocą mfold.
ta różnica w rozciągłości struktur wtórnych przekłada się na różnicę w rozmiarze 3D. Aby ocenić rozszerzalność jako cechę kandydata, wymagana jest miara ilościowa tej właściwości. Bundschuh i Hwa wprowadzili odległość drabiny jako miarę odległości między dowolnymi bazami w strukturach drugorzędnych ssRNA (27). Odległość drabiny, LDij, to liczba par zasad („szczebli” na „drabinie”), które są skrzyżowane wzdłuż najbardziej bezpośredniej ścieżki w strukturze drugorzędnej, która łączy podstawy i I j. ponieważ sekcje DS są zasadniczo sztywnymi prętami, podczas gdy sekcje ss są dyskietkami, tylko sekcje DS są liczone w tej miarze odległości. Aby scharakteryzować ogólną wielkość struktur drugorzędowych RNA za pomocą pojedynczej ilości, Wprowadzamy maksymalną odległość drabinkową (MLD), która jest największą wartością LDij dla wszystkich kombinacji i I j. innymi słowy, jest to odległość drabinkowa związana z najdłuższą bezpośrednią ścieżką przez strukturę drugorzędową. Jest to zilustrowane na Fig. 1C, o strukturze wtórnej MFE o dowolnej sekwencji o długości 50 nt, której MLD jest równe 11. MLD ścieżek tej struktury wtórnej i tych na Fig. 1 A i B są zilustrowane żółtymi nakładkami.
aby ocenić jego przydatność jako prognostycznej miary wielkości, określiliśmy ensemble-average MLD (〈MLD m) wartości w sześciu taksonach wirusa (wymienionych w tabeli 1), z których wszystkie wiriony składają się po prostu z genomu ssRNA zamkniętego w powłoce białkowej. Wirusy pięciu taksonów mają kulistą skorupę o stałym promieniu (t = 3 ikosahedral) składającą się ze 180 kopii pojedynczego produktu genowego, białka kapsydu. Ich ssrna mają rozmiar od 3000 do 7000 nt, ale zewnętrzne średnice ich kapsydów wynoszą 26-28 nm (28, 29). Natomiast wirusy pozostałych taksonów, Tobamowirusów, gromadzą się w cylindryczne muszle o stałym promieniu (18 nm), ale o zmiennej długości (średnio ≈300 nm). Tak więc, w przeciwieństwie do genomów wirusów ikosahedrycznych, genomy Tobamowirusów nie muszą pasować do skorupy o stałych rozmiarach; dłuższe długości ssRNA po prostu prowadzą do dłuższych cylindrów (o stałej średnicy) (30). Z naszych początkowych przypuszczeń można by przewidzieć, że Tobamowirusy nie są pod selektywną presją, aby mieć RNA, które są szczególnie zwarte. Ponadto, ponieważ wszystkie pięć taksonów wirusów ikosahedrycznych ma kapsydy mniej więcej tej samej wielkości, można by oczekiwać, że rozbieżność między wielkością wirusa a losowymi ssrna zwiększy się wraz z długością sekwencji.
- Zobacz inline
- Zobacz popup
różnice w 〈MLD m s i Al ALD between S między sekwencjami wirusowymi i losowymi
średni skład poszczególnych analizowanych tutaj wirusowych ssrna (nie wliczając tymowirusów, których skład jest nietypowy dla wirusów badanych w tym badaniu) wynosi 24,0% G, 22,1% C, 26,9% A i 27,0% U. musimy jednak uwzględnić nie tylko średni skład, ale także średnią rozbieżność w składzie między zasadami potencjalnie zdolnymi do do pary, tj. g i C, A i u oraz G i U. Ta rozbieżność składu (ponownie, nie licząc tymowirusów) wynosi 2.9 punktów procentowych dla %G – % C, 2,9 dla %A − %U i 4,0 dla %G − %U (np. niezależnie od tego, czy pojedyncza wirusowa ssRNA zawierała 22% g i 26% C, czy 26% G i 22% c, jej różnica w %G − %C wynosiłaby 4 punkty procentowe). Aby umożliwić równowagę między tymi dwoma średnimi-procentami nukleotydów i ich różnicami w parowaniu zasad-wybraliśmy „wirusopodobny” skład 24% G, 22% C, 26% A i 28% U Dla losowo permutowanych sekwencji. Dzięki tej kompozycji wygenerowaliśmy i przeanalizowaliśmy 500 losowych sekwencji o długości 2500 nt, 500 o długości 3000 nt i 300 w każdej z długości 4000, 5000, 6000 i 7000 nt. 〈MLD m każdej sekwencji wirusowej i losowej określono za pomocą RNAsubopt.
wartości 〈MLD〉 RNA wirusa icosahedral są systematycznie mniejsze niż wartości RNA losowych, co można zobaczyć na wykresie log–log 〈MLD V vs.długość sekwencji pokazanej na Fig. 2. Każda pojedyncza wirusowa ssRNA jest oznaczona symbolem wskazującym na jej takson. Genomy Bromowirusów i ogórków są wieloczęściowe; dzielą się na cztery różne ssrna. Wyniki przedstawiono dla najdłuższego i drugiego najdłuższego z nich, zidentyfikowanego zgodnie z konwencją jako RNA 1 i 2, które pakują się w oddzielne (ale pozornie identyczne) kapsydy. Również na wykresie przedstawiono średnie 〈млд〉 (〈млд〉) wartości różnych długościach przypadkowych sekwencji i ich odchylenia standardowe; wynik jest w przybliżeniu liniowy charakter (R2 = 0.993), z stoku z podaniem 〈млд〉 ∼ ч0.67±0.01 za tego zakresu.
log–log Wykres 〈MLD V vs.długość sekwencji dla wirusowych i losowo permutowanych ssrna . Wirusowe ssrna są identyfikowane za pomocą symboli wymienionych w kluczu (Inset). Analizowane tu Bromoviridae pochodzą z rodzajów Bromowirusów i ogórków. Linia prosta to najmniejsze kwadraty pasujące do wartości 〈MLD m obliczonych dla losowych sekwencji długości 2,500, 3,000, 4,000, 5,000, 6,000, i 7000 nt; pionowe linie pokazują odchylenia standardowe. 〈MLD m wartości zostały obliczone z RNAsubopt.
te zależności skalowania dla losowych ssrna są bliskie N0.69 zmienność uzyskana numerycznie przez Bundschuh i Hwa dla podobnej miary odległości, za pomocą modelu energetycznego, w którym dozwolone są tylko pary Watsona–Cricka, energia interakcji jest taka sama dla wszystkich par, a Entropia jest ignorowana (27). Ich miarą odległości jest odległość drabiny między pierwszą i (N/2 + 1)bazą, uśredniona dla wszystkich struktur w zespole dla losowej sekwencji o jednolitym składzie, a następnie dla wielu sekwencji.
dla każdego wirusowego ssRNA obliczyliśmy wynik z 〈MLD m, czyli, liczba odchyleń standardowych oddzielających jej 〈MLD m od przewidywanych 〈MLD m wartości losowych sekwencji o identycznej długości. Ten ostatni jest określony z równania regresji wykreślonego na Fig. 2 (patrz tekst SI). Średni wynik Z każdego taksonu przedstawiono w tabeli 1. Wirusy icosahedral wahają się od -1,4 do -3,0, co wskazuje, że ich RNA mają wartości 〈MLD〉, które są różne i mniejsze niż wartości 〈MLD predicted przewidywane dla losowych RNA o równej długości. Ponadto, Analiza regresji liniowej wyniku Z vs. długość sekwencji dla RNA wirusa icosahedral wykazuje znaczące ujemne nachylenie z przedziałem ufności >95%, co oznacza, że względna zwartość tych RNA, z których wszystkie są wymagane do dopasowania do capsids o mniej więcej tej samej wielkości, wzrasta wraz z długością sekwencji.
średni wynik Z wartości 〈MLD m ssrna Tobamowirusa wynosi +0,6. Uderzające jest to, że te ssrna, które pakują się w cylindryczne kapsydy o zmiennej długości, mają bardziej rozszerzone struktury drugorzędowe i większe wartości 〈MLD m niż u wirusów icosahedral. Zarówno w przypadku wirusów ikosahedrycznych, jak i Tobamowirusów, wydaje się, że istnieje zgodność między przewidywanymi drugorzędowymi strukturami ich genomów (patrz ryc. S3) oraz wielkość i kształt kapsydów, do których muszą pasować genomy. Stawiamy hipotezę, że aby ułatwić montaż wirusów, sekwencje ssRNA samoorganizujących się wirusów icosahedral wyewoluowały do stosunkowo małych wartości 〈MLD m i że te mniejsze wartości give MLD give powodują mniejsze wartości Rg.
wyniki te sugerują, że różnice między wirusowymi i losowymi RNA nie występują po prostu dlatego, że wirusowe RNA są pochodzenia biologicznego (każdy z nich jest dodatnio sensownym, bezpośrednio tłumaczonym posłańcem RNA); w przeciwnym razie nie widać różnicy między wynikami dla wirusów icosahedral i cylindric. Aby zbadać to dalej, przeanalizowaliśmy 500 ssrna, które są transkryptami kolejnych 3000-zasadowych sekcji na chromosomach drożdży (S. cerevisiae) XI I XII. Te sekwencje pochodzące z drożdży zostały włączone, aby reprezentować biologiczne RNA, które, chociaż wyewoluowały, nie zostały poddane presji selektywnej, aby miały określony ogólny rozmiar i kształt. Nasze odkrycia, zebrane w tabeli 2, pokazują, że wartości 〈MLD m RNA pochodzenia drożdżowego są w przybliżeniu takie same jak wartości RNA losowego, co wskazuje, że różnice między losowymi i wirusowymi ssrna nie wynikają jedynie z biologicznego pochodzenia tych ostatnich.
- Zobacz inline
- Zobacz popup
skład-zależność 〈MLD m
jak wspomniano wcześniej, skład losowych RNA został wybrany tak, aby jak najdokładniej odpowiadał składowi RNA wirusa. Jednak wiele pojedynczych wirusowych RNA różni się znacząco w składzie od losowych RNA, co rodzi pytanie, czy te same różnice w 〈MLD m byłyby widoczne, gdyby wirusowe RNA były porównywane z losowymi RNA o identycznym składzie. Aby przetestować wrażliwość na skład wartości 〈MLD m losowych RNA, przeanalizowaliśmy 3000-zasadowych losowo permutowanych RNA o jednolitym (25% G, 25% C, 25% A, 25% U) składzie. Wyniki, wymienione w tabeli 2, pokazują, że 〈MLD m jest niewrażliwy na niewielkie zmiany składu. Ponadto, średni skład drożdży RNA różni się znacząco od składu obu zestawów losowych RNA, jednak ich wartości 〈MLD m są w przybliżeniu takie same.
jak prawdopodobne jest, że przewidywane różnice w 〈MLD m między wirusowymi i niewirusowymi RNA są obecne w rzeczywistych RNA? RNAsubopt i wszystkie podobne programy, które przewidują strukturę RNA, mają w zasadzie zdolność znajdowania wszystkich możliwych struktur nie pseudoknotowanych. Tak więc, dokładność RNAsubopt (jego zdolność do prawidłowego próbkowania z zespołu) zależy nie od tego, jakie struktury jest w stanie przewidzieć (może przewidzieć wszystkie z nich, z wyjątkiem tych z pseudoknotów), ale raczej na energie, które przypisuje im, które są określone przez jego model energii. Jak wspomniano wcześniej, wymagamy tylko, aby RNAsubopt był wystarczająco dokładny, aby przewidzieć ogólne gruboziarniste cechy struktury wtórnej RNA, takie jak M MLD m. Aby ocenić, czy nasze odkrycia są specyficzne dla RNAsubopt (a zatem prawdopodobnie artefakt konkretnego modelu energetycznego, na którym opiera się RNAsubopt), porównaliśmy wirusowe i losowe ssrna za pomocą mfold, który jest podobny do RNAsubopt, ale różni się nieco zarówno w modelu energetycznym, jak i strukturach, które pobiera z zespołu. Podczas gdy wartości 〈MLD generated generowane przez RNAsubopt różnią się od wartości AMLD generowanych przez mfold, oba wykazały tę samą systematyczną różnicę w MLD między wirusowymi i losowymi ssrna oraz w przybliżeniu takie same zależności skalowania dla losowych sekwencji (AMLD ∼ N0, 74±0,01 dla mfold, patrz Fig. S4).
aby jeszcze bardziej przetestować solidność tych prognoz, porównaliśmy losowe i wirusowe ssrna przy użyciu naszego uproszczonego programu zwijania RNA. Program ten nie określa poszczególnych struktur drugorzędnych, a co za tym idzie nie pozwala na obliczenie 〈MLD m. Jednakże określa on prawdopodobieństwo parowania, co pozwala obliczyć maksymalną średnią odległość drabiny (MALD) całego zespołu struktur, która jest maksymalną wartością średnich łącznych odległości drabiny N2 związanych z każdą sekwencją N-bazową. Okazuje się, że ten program—jak te omówione powyżej, które są oparte na bardziej realistycznych przydziałach energii—również przewiduje systematyczne różnice między losowymi i wirusowymi RNA, dając mniejsze wartości MALD dla sekwencji wirusowych niż dla niewirusowych (patrz Rys. S5). Tak więc, nawet bardzo uproszczony model energii, który uwzględnia jedynie interakcje najbliższych sąsiadów, jest wystarczający, aby ujawnić zasadniczą różnicę między drugorzędowymi strukturami wirusowych i losowo permutowanych sekwencji ssRNA. Z tym uproszczonym modelem, dla losowych sekwencji o długości 2000-4000, MALD ∼ N0, 66±0,02.
programy składane, których używamy, nie mogą wytwarzać struktur zawierających pseudokibice. Chociaż wiadomo, że pseudoknoty występują w wirusowych RNA, takich jak te, które tworzą 3′-końcowe struktury podobne do tRNA (8), są one zazwyczaj lokalne (obejmujące Zasady oddzielone <102 nt wzdłuż sekwencji); w związku z tym ignorowanie ich nie powinno znacząco wpływać na nasze przewidywanie ogólnej wielkości. Znaleziono dowody na obecność pseudoknotów o dłuższym zasięgu, takich jak całujące się szpilki do włosów łączące bazy oddzielone aż 400 nt (31), ale nawet te są bliskie w stosunku do całkowitej długości genomów wirusowych. W każdym razie naszym celem jest opracowanie modelu teoretycznego zerowego rzędu, który przechwytuje determinanty ogólnej wielkości, z pseudokibicami, całującymi szpilkami do włosów i innymi szczegółami włączonymi później, jeśli to konieczne.
aby przetłumaczyć m MLD m na Rg, przydatne jest mapowanie struktur drugorzędowych RNA na modele polimerowe, których statystyki konfiguracyjne są dobrze zrozumiałe, takie jak idealne polimery liniowe i „gwiazdowe”. Stosując najprostszą idealizację, jak w omawianym powyżej modelu łańcucha swobodnie łączonego, możemy zastąpić struktury takie jak dwie pokazane na Fig. 1 A i B przez łańcuchy liniowe, których efektywne długości konturów (Leff) są podane przez ich wartości 〈MLD m. Aby zakończyć to odwzorowanie, modelujemy sekcje dupleksu jako sztywne ogniwa łańcucha, a wybrzuszenia ss, pęcherzyki i pętle Wielobranżowe jako elastyczne połączenia, które je łączą. Efektywna długość Kuhna (beff) jest więc średnią długością dupleksu w strukturze wtórnej ssRNA, właściwością, która jest w przybliżeniu taka sama (5 bp) dla wszystkich badanych sekwencji. Odpowiada to średniej długości dupleksu RNA 1-2 nm. Ponieważ długość trwałości (miara skali długości, przy której obserwuje się zginanie) dsRNA wynosi ≈60 nm (32), modelowanie odcinków dupleksu jako ciał sztywnych jest doskonałym przybliżeniem. Pętle ss zawierają średnio około sześciu baz ss, a zatem szacujemy, że typowa bańka ma około trzech baz ss z każdej strony; Długość trwałości ssRNA jest prawdopodobnie podobna do długości ssDNA, około dwóch baz (33).
z tego mapowania między strukturami drugorzędowymi a efektywnymi polimerami liniowymi wynika, że Rg cząsteczki ssRNA o dowolnej sekwencji powinien być określony przez łącząc Ostatnie równanie z naszym wcześniejszym wynikiem, m MLD n N0.67, daje dla nie-samo-unikającego łańcucha liniowego, ν = 0,5, w którym to przypadku RG ∼ N0.34; dla samoczynnego łańcucha liniowego, ν ≈ 0,6, dając Rg ∼ N0.40.
to podejście można rozszerzyć poprzez mapowanie struktur wtórnych ssRNA na alternatywny system modelu polimerowego, który uwzględnia wszystkie możliwe ścieżki w strukturze, a tym samym obejmuje wszystkie gałęzie. Dla dowolnego idealnego polimeru, liniowego lub rozgałęzionego,, gdzie Lij jest odległością wzdłuż szkieletu między monomerami i I j (34). Postępując jak wyżej, otrzymujemy gdzie Lij,eff został zastąpiony przez LDij w drugim kroku. ALD jest średnią odległością drabiny, tj., średnia odległości drabiny parowej N2 w strukturze drugorzędowej RNA, a 〈ALD〉 jest jego średnią zespoloną. Używając wartości 〈ALD calculated obliczonych dokładnie na podstawie prawdopodobieństwa parowania wygenerowanego przez RNAfold, powtórzyliśmy analizę pokazaną na Fig. 2. Wyniki są równoważne, z 〈ALD〉 ∼ N0. 68±0,01 i RG ∼ N0. 34 i pokazują, że różnice między losowymi i wirusowymi ssrna są zachowane, gdy gałęzie są wyraźnie włączone (patrz rys. 3 i wyniki Z wartości 〈ALD〉 w ostatniej kolumnie tabeli 1). Podobnie jak w przypadku MLD, ALD jest solidny w odniesieniu do modelu energetycznego. Wyniki uzyskane za pomocą uproszczonego programu składania (〈ALD〉 ∼ N0. 68 ± 0,01) przedstawiono na fig. S6.
to samo co rys. 2, ale z 〈ALD〉, obliczone z RNAfold, zastępując m MLD m. 〈ALD〉 jest miarą wielkości, która wyraźnie obejmuje wszystkie gałęzie.