Articles

Prezicerea dimensiunilor moleculelor mari de ARN

rezultate

se știe că programele actuale de pliere a ARN au o precizie limitată pentru secvențele lungi (26). Cu toate acestea, pentru scopurile noastre, nu este necesar ca toate, sau chiar majoritatea, perechile individuale să fie prezise corect. Mai degrabă, structurile prezise trebuie să fie suficient de precise pentru a capta caracteristicile cu granulație grosieră care determină dimensiunea 3d. Prin urmare, întrebarea noastră devine următoarea: Pot fi prezise dimensiunile relative ale Arns mari din estimările computaționale ale proprietăților adecvate ale structurilor lor secundare?

pentru a face astfel de estimări, trebuie să identificăm o caracteristică cu granulație grosieră a structurii secundare care dictează dimensiunea 3d. Caracteristica unică a unei structuri secundare care îndeplinește cel mai evident și direct acest criteriu este „extinderea” acesteia.”Fig. 1 A și B arată, respectiv, SSRN-uri virale și aleatorii „cu aspect tipic” de aproximativ aceeași lungime. Se poate observa că ssRNA aleatoriu este izbitor de extins. SsRNA din Fig. 1A provine dintr-un virus din familia Leviviridae. Structuri reprezentative suplimentare, din genurile Bromovirus, Tymovirus și Tobamovirus, sunt prezentate în smochine. S2 și S3.

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml Fig. 1.

structuri secundare prezise ale ssrna-urilor. (A) fagul enterobacteriilor Q (din familia Leviviridae) ssRNA. (B) ssRNA permutată aleatoriu. Fiecare are o lungime de 4.000 nt și este prezentată la aceeași scară. Mld-urile acestor structuri sunt 221 și, respectiv, 368. (Acestea sunt reprezentative pentru mediile lor de ansamblu respective: Valoarea de 240 MLD de 2000 mld de 4.000 de SSRN-uri aleatoare de bază este de 361.) Suprapunerile galbene ilustrează căile asociate MLDs (a se vedea textul și exemplul 50-nt descris în C). / B MLD〉 valorile au fost calculate cu RNAsubopt; cifrele au fost trase cu mfold.

această diferență în extinderea structurilor secundare se traduce printr-o diferență de dimensiune 3D. Pentru a evalua extinderea ca caracteristică a candidatului, este necesară o măsură cantitativă a acestei proprietăți. Bundschuh și Hwa au introdus distanța scării ca măsură a distanței dintre bazele arbitrare în structurile secundare ssRNA (27). Distanța scării, LDij, este numărul de perechi de baze („trepte” pe o „scară”) care sunt traversate de-a lungul celei mai directe căi din structura secundară care leagă bazele i și j. deoarece secțiunile ds sunt în esență tije rigide, în timp ce secțiunile ss sunt floppy, numai secțiunile ds sunt numărate în această măsură a distanței. Pentru a caracteriza dimensiunea totală a structurilor secundare ARN folosind o singură cantitate, introducem distanța maximă a scării (MLD), care este cea mai mare valoare a LDij pentru toate combinațiile de i și j. cu alte cuvinte, este distanța scării asociată cu cea mai lungă cale directă de-a lungul structurii secundare. Acest lucru este ilustrat în Fig. 1C, cu o structură secundară MFE a unei secvențe arbitrare de 50-nt, a cărei MLD se întâmplă să fie 11. Traseele MLD ale acestei structuri secundare și ale celor din Fig. 1 A și B sunt ilustrate cu suprapuneri galbene.

pentru a-i evalua utilitatea ca măsură predictivă a mărimii, am determinat valorile medii ale MLD-ului de ansamblu (0 MLD-uri) în șase taxoni virali (enumerați în tabelul 1), toți virionii cărora constau pur și simplu dintr-un genom ssRNA încapsulat într-o coajă proteică. Virusurile a cinci dintre taxoni au fiecare o coajă sferică cu rază fixă (T = 3 icosaedrică) formată din 180 de copii ale unui singur produs genetic, proteina capsidă. SSRN-urile lor variază în mărime de la 3.000 la 7.000 nt, dar diametrele exterioare ale capsidelor lor sunt toate de 26-28 nm (28, 29). În schimb, virusurile taxonului rămas, Tobamovirusurile, se asamblează în cochilii cilindrice cu rază fixă (18 nm), dar cu lungime variabilă (în medie, 300 nm). Astfel, spre deosebire de genomii virusurilor icosaedrice, cele ale Tobamovirusurilor nu sunt necesare pentru a se încadra într-o carcasă de dimensiuni fixe; lungimile mai lungi ale ssRNA duc pur și simplu la cilindri mai lungi (cu diametru fix) (30). Din presupunerea noastră inițială, s-ar prezice că Tobamovirusurile nu sunt sub presiune selectivă pentru a avea ARN-uri care sunt deosebit de compacte. În plus, deoarece toți cei cinci taxoni ai virusurilor icosaedrice au capside de aproximativ aceeași dimensiune, ne-am aștepta ca divergența dintre dimensiunea SSRN-urilor virale și aleatorii să crească odată cu lungimea secvenței.

vezi acest tabel:

  • vezi inline
  • vezi pop-up
Tabelul 1.

diferențe între secvențele virale și aleatoare

compoziția medie a SSRN-urilor virale individuale analizate aici (fără a include Tymovirusurile, ale căror compoziții sunt atipice pentru virusurile examinate în acest studiu) este de 24,0% G, 22,1% C, 26,9% a și 27,0% U. Cu toate acestea, trebuie să ținem cont nu numai de compoziția medie, ci și de discrepanța medie în compoziție între, adică G și C, A și U, și G și U. această discrepanță a compoziției (din nou, fără a include tymovirusurile) este 2.9 puncte procentuale pentru %G – % C, 2,9 pentru %a − %U și 4,0 pentru %G − %U (de exemplu, dacă un ssRNA viral individual conținea 22% G și 26% C sau 26% G și 22% C, diferența sa %G − %C ar fi de 4 puncte procentuale). Pentru a permite un echilibru între aceste două medii—procentele de nucleotide și diferențele lor pentru asocierea bazelor—am ales compoziția „asemănătoare virusului” 24% G, 22% C, 26% a și 28% U pentru secvențele permutate aleatoriu. Cu această compoziție, am generat și analizat 500 de secvențe aleatorii de lungime 2.500 nt, 500 de lungime 3.000 nt și 300 în fiecare dintre lungimile 4.000, 5.000, 6.000 și 7.000 nt. Cu rnasubopt s-a determinat valoarea de 0 MLD a fiecărui viral și aleator.

Valorile pentru ARN–urile virale icosaedrice sunt sistematic mai mici decât cele ale ARN-urilor aleatorii, așa cum se poate observa în graficul log-log din lungimea secvenței de la hectolitru MLD la hectolitru vs.lungimea secvenței afișată în Fig. 2. Fiecare ssRNA viral individual este desemnat cu un simbol care indică taxonul său. Genomurile Bromovirusurilor și Cucomovirusurilor sunt multipartite; sunt împărțite între patru SSRN-uri diferite. Rezultatele sunt prezentate pentru cea mai lungă și a doua cea mai lungă dintre acestea, identificate prin convenție ca ARN-uri 1 și 2, care se împachetează în capside separate (dar aparent identice). De asemenea, curba medie / b MLD〉 (/b MLD〉) valorile de diferite lungimi de secvențe aleatoare, și abaterile standard ale acestora; rezultatul este aproximativ liniară (R2 = 0.993), cu o pantă indică / b MLD〉 ∼ N0.67±0.01 peste acest interval.

Fig. 2.

log–log plot de 0 MLD-uri de 0 mld-uri vs.lungimea secvenței pentru arnsa-uri virale și permutate aleatoriu. SSRN-urile virale sunt identificate prin simbolurile enumerate în cheie (Inset). Bromoviridae analizate aici provin din genurile Bromovirus și Cucomovirus. Linia dreaptă este cea mai mică pătrățele se potrivesc cu valorile de la 0 MLD de la 0 la sută, calculate pentru secvențe aleatorii de lungimi 2,500, 3,000, 4,000, 5,000, 6,000, și 7.000 nt; liniile verticale arată abaterile standard. / B MLD〉 valorile au fost calculate cu RNAsubopt.

aceste relații de scalare pentru SSRN-uri aleatorii sunt apropiate de N0.69 variația obținută numeric de Bundschuh și Hwa pentru o măsură similară a distanței, prin utilizarea unui model energetic în care sunt permise doar perechile Watson–Crick, energia de interacțiune este aceeași pentru toate perechile, iar entropia este ignorată (27). Măsura lor de distanță este distanța scării dintre prima și (N/2 + 1) Baza, medie pe toate structurile din ansamblu pentru o secvență aleatorie de compoziție uniformă și apoi pe mai multe secvențe.

pentru fiecare Arns viral, s-a calculat scorul z al numărului de MLD-uri de la 0,7, adică., numărul de abateri standard de separare sale / b MLD〉 din prezis / b MLD〉 valori aleatoare de secvențe de aceeași lungime. Acesta din urmă este determinat din ecuația de regresie reprezentată în Fig. 2 (a se vedea textul SI). Scorul mediu Z pentru fiecare taxon este prezentat în tabelul 1. Cele ale virusurilor icosaedrice variază de la -1,4 la -3,0, indicând că ARN-urile lor au valori de 0 MLD-uri diferite și mai mici decât valorile de 1 MLD-uri prevăzute pentru ARN-uri aleatorii de lungime egală. Mai mult, o analiză de regresie liniară a scorului Z vs. lungimea secvenței pentru ARN-urile virale icosaedrice prezintă o pantă negativă semnificativă cu un interval de încredere >95%, ceea ce înseamnă că compactitatea relativă a acestor ARN-uri, toate necesare pentru a se încadra în capside de aproximativ aceeași dimensiune, crește odată cu lungimea secvenței.

media scorului Z a / b MLD〉 valorile Tobamovirus ssRNAs este de +0.6. Este frapant faptul că aceste Arns, care se ambalează în capside cilindrice de lungime variabilă, au structuri secundare mai extinse și valori mai mari de la sută la sută la sută decât cele ale virusurilor icosaedrice. Atât pentru virusurile icosaedrice, cât și pentru Tobamovirusuri, pare să existe o corespondență între structurile secundare prezise ale genomurilor lor (Vezi Fig. S3) și dimensiunea și forma capsidelor în care trebuie să se încadreze genomii. Ipotezăm că, pentru a facilita asamblarea virală, secvențele ssRNA ale virusurilor icosaedrice auto-asamblate au evoluat pentru a avea valori relativ mici de ordinul zecimal mld, respectiv valori mai mici de ordinul zecimal mld, și că aceste valori mai mici de ordinul zecimal dau naștere unor valori Rg mai mici.

aceste rezultate sugerează că diferențele găsite între ARN-urile virale și aleatoare nu apar pur și simplu pentru că ARN-urile virale sunt de origine biologică (fiecare este un sens pozitiv, tradus direct ARN mesager); altfel, nu s-ar vedea o diferență între rezultatele pentru virusurile icosaedrice și cilindrice. Pentru a examina acest lucru în continuare, am analizat 500 ssrna care sunt transcrierile secțiunilor consecutive de 3.000 de baze pe cromozomii de drojdie (S. cerevisiae) XI și XII. Aceste secvențe derivate din drojdie au fost incluse pentru a reprezenta ARN-uri biologice care, deși au evoluat, nu au fost supuse presiunilor selective pentru a avea o anumită dimensiune și formă generală. Constatările noastre, compilate în tabelul 2, arată că valorile pentru ARN-urile derivate din drojdie în valoare de MLD-uri în valoare de hectolitru sunt aproximativ aceleași cu cele ale ARN-urilor aleatorii, indicând faptul că diferențele dintre ARN-urile aleatorii și cele virale nu rezultă doar din originea biologică a acestora din urmă.

vezi acest tabel:

  • vezi inline
  • vezi pop-up
Tabelul 2.

Composition-dependencying of centimetric MLD xqtox

după cum s-a menționat anterior, compoziția ARN-urilor aleatorii a fost aleasă pentru a se potrivi, în medie, cu cea a ARN-urilor virale cât mai aproape posibil. Cu toate acestea, multe ARN-uri virale individuale diferă semnificativ în ceea ce privește compoziția de ARN-urile aleatorii, ridicând întrebarea dacă aceleași diferențe în mld-ul de la 7 la sută ar fi observate dacă ARN-urile virale ar fi comparate fiecare cu ARN-urile aleatorii de compoziție identică. Pentru a testa sensibilitatea la compozitie a valorilor inzvz MLD inzvz ale ARN-urilor aleatoare, s-au analizat ARN-uri de 3.000 de baze permutate aleatoriu ale compozitiei uniforme (25% G, 25% C, 25% A, 25% U). Rezultatele, prezentate în Tabelul 2, arată că / b MLD〉 este insensibil la micile modificări de compoziție. În plus, compoziția medie a ARN-urilor de drojdie diferă semnificativ de cea a ambelor seturi de ARN-uri aleatorii, totuși valorile lor de la 0 la sută la sută la sută sunt aproximativ aceleași.

cât de probabil este ca diferențele prezise în intervalul de valori maxime ale valorilor minime maxime între ARN-urile virale și cele nonvirale să fie prezente în ARN-urile reale? RNAsubopt și toate programele similare care prezic structura ARN au capacitatea, în principiu, de a găsi toate structurile posibile non-pseudoknotted. Astfel, precizia RNAsubopt (capacitatea sa de a proba în mod corespunzător din ansamblu) nu depinde de ce structuri este capabil să prezică (le poate prezice pe toate, cu excepția celor cu pseudoknots), ci mai degrabă de energiile pe care le atribuie, care sunt determinate de modelul său energetic. Așa cum am menționat mai devreme, solicităm doar ca RNAsubopt să fie suficient de precis pentru a prezice caracteristicile generale cu granulație grosieră ale structurii secundare a ARN, cum ar fi 0 MLD. Pentru a evalua dacă descoperirile noastre sunt specifice RNAsubopt (și, prin urmare, posibil un artefact al modelului energetic particular pe care se bazează RNAsubopt), am comparat SSRN-urile virale și aleatorii folosind mfold, care este similar cu RNAsubopt, dar diferă oarecum atât în modelul său energetic, cât și în structurile pe care le eșantionează din ansamblu. În timp ce valorile mld-uri de la secventa de valori de la mld-uri de valori de la RNAsubopt sunt diferite de valorile AMLD generate de mfold, ambele au arătat aceeași diferență sistematică în MLD între SSRN-urile virale și aleatoare, și aproximativ aceleași relații de scalare pentru secvențele aleatorii (amld-uri de valori n0.74 0.01 de la mfold, vezi Fig. S4).

pentru a testa în continuare robustețea acestor predicții, am comparat SSRN-urile aleatorii și virale folosind programul nostru simplificat de pliere a ARN-ului. Acest program nu determină structurile secundare individuale și, prin urmare, nu permite calcularea valorii de la 0 MLD. Cu toate acestea, determină probabilitățile de asociere, ceea ce permite calcularea distanței medii maxime a scării (MALD) a întregului ansamblu de structuri, care este valoarea maximă a mediilor ansamblului distanțelor scării N2 asociate cu fiecare secvență N-bază. Constatăm că acest program—la fel ca cele discutate mai sus, care se bazează pe alocări energetice mai realiste—prezice, de asemenea, diferențe sistematice între ARN-urile aleatorii și virale, oferind valori MALD mai mici pentru secvențele virale decât pentru cele nonvirale (vezi Fig. S5). Astfel, chiar și un model energetic extrem de simplificat, care ia în considerare doar interacțiunile cel mai apropiat vecin, este suficient pentru a dezvălui o diferență fundamentală între structurile secundare ale secvențelor virale și ale secvențelor ssRNA permutate aleatoriu. Cu acest model simplificat, pentru secvente aleatoare de lungimi 2.000-4.000, MALD n0. 66 0.02.

programele de pliere pe care le folosim nu pot produce structuri care conțin pseudoknots. Deși se știe că pseudocnoturile apar în ARN-urile virale, cum ar fi cele care formează structuri asemănătoare Arnt 3′-terminale (8), acestea sunt de obicei locale (implicând baze separate de <102 nt de-a lungul secvenței); în consecință, ignorarea acestora nu ar trebui să afecteze în mod semnificativ predicția noastră despre dimensiunea globală. S-au găsit dovezi pentru pseudoknots cu rază mai lungă de acțiune, cum ar fi sărutul de păr care leagă baze separate de până la 400 nt (31), dar chiar și acestea sunt apropiate de lungimea totală a genomului viral. În orice caz, scopul nostru este de a dezvolta un model teoretic de ordin zero care să surprindă factorii determinanți ai dimensiunii globale, cu pseudocoturi, coșuri de păr și alte detalii incluse ulterior, după cum este necesar.

pentru a traduce în rg, este utilă maparea structurilor secundare ARN pe modele polimerice ale căror statistici configuraționale sunt bine înțelese, cum ar fi polimerii liniari ideali și „stele”. Folosind cea mai simplă idealizare, ca în modelul lanțului liber îmbinat discutat mai sus, putem înlocui structuri precum cele două prezentate în Fig. 1 A și B prin lanțuri liniare ale căror lungimi efective ale conturului (Leff) sunt date de valorile lor de la 0 MLD la opt. Pentru a finaliza această cartografiere, modelăm secțiunile duplex ca verigile rigide ale lanțului, iar umflăturile ss, bulele și buclele multibranch ca îmbinări flexibile care le conectează. Lungimea efectivă Kuhn (beff) este astfel lungimea medie duplex în structura secundară ssRNA, o proprietate care este aproximativ aceeași (5 bp) pentru toate secvențele examinate. Aceasta corespunde unei lungimi medii duplex ARN de 1-2 nm. Deoarece lungimea de persistență (o măsură a scalei de lungime la care se observă îndoirea) a dsRNA este de 60 nm (32), modelarea secțiunilor duplex ca corpuri rigide este o aproximare excelentă. Buclele ss, în medie, conțin aproximativ șase baze ss și, prin urmare, estimăm că o bulă tipică are aproximativ trei baze ss pe fiecare parte; lungimea de persistență a ssRNA este probabil similară cu cea a ssDNA, aproximativ două baze (33).

De această mapare între structurile secundare și eficient polimeri liniari, rezultă că Rg de o ssRNA moleculă cu o secvență arbitrară ar trebui să fie determinată deEmbedded Image Combinarea ultima ecuație cu mai devreme urmare, / b > MLD〉 ∼ N0.67, randamenteleEmbedded Image Pentru un non-self-evitarea lanț liniar, ν = 0.5, caz în care, Rg ∼ N0.34; pentru o auto-evitarea lanț liniar, ν ≈ 0.6, oferindu-Rg ∼ N0.40.

această abordare poate fi extinsă prin maparea structurilor secundare ssRNA pe un sistem alternativ de model polimeric care explică toate căile posibile de-a lungul structurii și include astfel toate ramurile. Pentru orice polimer ideal, liniar sau ramificat,imagine încorporată unde Lij este Distanța de-a lungul coloanei vertebrale dintre monomerii i și j (34). Procedând ca mai sus, obținemimagine încorporată unde LIJ,eff a fost înlocuit cu LDij în a doua etapă. ALD este distanța medie a scării, adică., media distanțelor scării N2 în perechi într-o structură secundară ARN, iar ALD alsqq este media ansamblului său. Prin utilizarea valorilor pentru ALD alsqtxxt, calculate exact din probabilitățile de asociere generate de RNAfold, am repetat analiza prezentată în Fig. 2. Rezultatele sunt echivalente, cu numărul ALD ALD n0.68 0.01 și Rg N0. 34, și demonstrează că diferențele dintre Arns aleatoare și virale se păstrează atunci când ramurile sunt incluse în mod explicit (vezi fig. 3 și scorurile Z ale valorilor de la ALD la ALFT din ultima coloană a tabelului 1). Ca și în cazul MLD, ALD este robust în ceea ce privește modelul energetic. Rezultatele obținute cu programul de pliere simplificat (ALD ALD ALD n0.68 ALD 0.01) sunt prezentate în Fig. S6.

Fig. 3.

la fel ca Fig. 2, dar cu / b > ALD〉, calculată cu RNAfold, înlocuirea / b MLD〉. ALD alsoct este o măsură de mărime care include în mod explicit toate ramurile.