Articles

Predire le dimensioni delle grandi molecole di RNA

Risultati

Gli attuali programmi di piegatura dell’RNA sono noti per avere una precisione limitata per sequenze lunghe (26). Per i nostri scopi, tuttavia, non è necessario che tutti, o anche la maggior parte, dei singoli abbinamenti siano correttamente previsti. Piuttosto, le strutture previste devono essere sufficientemente accurate per catturare le caratteristiche a grana grossa che determinano le dimensioni 3D. La nostra domanda diventa quindi la seguente: Le dimensioni relative di grandi SSRNA possono essere previste dalle stime computazionali delle proprietà appropriate delle loro strutture secondarie?

Per fare tali stime, dobbiamo identificare una caratteristica a grana grossa della struttura secondaria che detta la dimensione 3D. L’unica caratteristica di una struttura secondaria che più ovviamente, e direttamente, soddisfa questo criterio è la sua ” estensione.” Fico. 1 A e B mostrano, rispettivamente, SSRNA virali e casuali “dall’aspetto tipico” di circa la stessa lunghezza. Si può vedere che l’ssRNA casuale è sorprendentemente più esteso. Il ssRNA in Fig. 1A proviene da un virus della famiglia Leviviridae. Ulteriori strutture rappresentative, dai generi Bromovirus, Tymovirus e Tobamovirus, sono mostrate nei fichi. S2 e S3.

iv xmlns:xhtml=” http://www.w3.org/1999/xhtml Fig. 1.

Strutture secondarie previste di SSRNA. (A) Enterobacteria phage Qß (nella famiglia Leviviridae) ssRNA. (B) ssRNA permutato casualmente. Ciascuno è ≈4,000 nt di lunghezza e mostrato alla stessa scala. I MLD di queste strutture sono 221 e 368, rispettivamente. (Questi sono rappresentativi delle rispettive medie di ensemble: Il ph MLD〉 del fago Qß ssRNA è 240, e il M MLD〉 di 4.000 SSRNA casuali di base è 361.) Le sovrapposizioni gialle illustrano i percorsi associati ai MLD (vedere il testo e l’esempio 50-nt raffigurato in C). I valori M MLD were sono stati calcolati con RNAsubopt; le cifre sono state disegnate con mpold.

Questa differenza nell’estensione delle strutture secondarie si traduce in una differenza nella dimensione 3D. Per valutare l’estensione come caratteristica candidata, è necessaria una misura quantitativa di questa proprietà. Bundschuh e Hwa hanno introdotto la distanza della scala come misura della distanza tra basi arbitrarie nelle strutture secondarie ssRNA (27). La distanza della scala, LDij, è il numero di coppie di basi (“pioli “su una” scala”) che sono attraversate lungo il percorso più diretto nella struttura secondaria che collega le basi i e j. Poiché le sezioni ds sono essenzialmente aste rigide, mentre le sezioni ss sono floppy, solo le sezioni ds sono contate in questa misura della distanza. Per caratterizzare la dimensione complessiva delle strutture secondarie di RNA utilizzando una singola quantità, introduciamo la distanza massima della scala (MLD), che è il valore più grande di LDij per tutte le combinazioni di i e j. In altre parole, è la distanza della scala associata al percorso diretto più lungo attraverso la struttura secondaria. Questo è illustrato in Fig. 1C, con una struttura secondaria MFE di una sequenza arbitraria di 50-nt-long, il cui MLD sembra essere 11. I percorsi MLD di questa struttura secondaria e di quelli in Fig. 1 A e B sono illustrati con sovrapposizioni gialle.

Per valutare la sua utilità come misura predittiva delle dimensioni, abbiamo determinato i valori medi di ensemble MLD (M MLD M) in sei taxa virali (elencati nella Tabella 1), tutti i cui virioni consistono semplicemente di un genoma ssRNA racchiuso all’interno di un guscio proteico. I virus di cinque taxa hanno ciascuno un guscio sferico a raggio fisso (T = 3 icosaedrico) costituito da 180 copie di un singolo prodotto genetico, la proteina capside. I loro SSRNA variano in dimensioni da 3.000 a 7.000 nt, ma i diametri esterni dei loro capsidi sono tutti 26-28 nm (28, 29). Al contrario, i virus del taxon rimanente, i Tobamovirus, si assemblano in gusci cilindrici di raggio fisso (18 nm) ma di lunghezza variabile (media ≈300 nm). Pertanto, a differenza dei genomi dei virus icosaedrici, quelli dei Tobamovirus non sono tenuti a inserirsi in un guscio di dimensioni fisse; lunghezze più lunghe degli ssRNA portano semplicemente a cilindri più lunghi (di diametro fisso) (30). Dalla nostra congettura di partenza, si potrebbe prevedere che i Tobamovirus non sono sotto pressione selettiva per avere RNA particolarmente compatti. Inoltre, poiché tutti e cinque i taxa dei virus icosaedrici hanno capsidi di circa le stesse dimensioni, ci si aspetterebbe che la divergenza tra le dimensioni degli SSRNA virali e casuali aumenti con la lunghezza della sequenza.

Visualizza questa tabella:

  • Visualizza in linea
  • Visualizza popup

Tabella 1.

le Differenze in 〈MLD〉s e 〈ALD〉s tra virale e sequenze casuali

La composizione media dei singoli virale ssRNAs analizzato qui (non compreso il Tymoviruses, le cui composizioni sono atipici per il virus esaminati in questo studio) è 24.0% G, Il 22,1% C, Del 26,9% A, e il 27.0% U. Tuttavia, si deve tenere conto non solo per la composizione media, ma anche la media discrepanza nella composizione tra le basi potenzialmente in grado di coppia, cioè, G e C, la A e la U e G e U. Questa composizione discrepanza (di nuovo, non è compreso il Tymoviruses) è 2.9 punti percentuali per %G- % C, 2,9 per %A − %U e 4,0 per %G − %U (ad esempio, se un singolo ssRNA virale conteneva 22% G e 26% C, o 26% G e 22% C, la sua differenza %G − %C sarebbe di 4 punti percentuali). Per consentire un equilibrio tra queste due medie—percentuali nucleotidiche e le loro differenze per le basi di accoppiamento—abbiamo scelto la composizione “simile al virus” 24% G, 22% C, 26% A e 28% U per le sequenze permutate casualmente. Con questa composizione, abbiamo generato e analizzato 500 sequenze casuali di lunghezza 2.500 nt, 500 di lunghezza 3.000 nt e 300 in ciascuna delle lunghezze 4.000, 5.000, 6.000 e 7.000 nt. Il M MLD〉 di ogni sequenza virale e casuale è stato determinato con RNAsubopt.

I valori M MLD of degli RNA virali icosaedrici sono sistematicamente più piccoli di quelli degli RNA casuali, come si può vedere nel grafico log–log di length MLD v rispetto alla lunghezza della sequenza visualizzata in Fig. 2. Ogni singolo ssRNA virale è designato con un simbolo che indica il suo taxon. I genomi dei Bromovirus e Cucomovirus sono multipartiti; sono divisi tra quattro diversi SSRNA. I risultati sono mostrati per il più lungo e il secondo più lungo di questi, identificati per convenzione come RNAS 1 e 2, che si raggruppano in capsid separati (ma apparentemente identici). Inoltre rappresentato la media 〈MLD〉 (〈MLD〉) i valori delle varie lunghezze delle sequenze casuali, e le loro deviazioni standard; il risultato è approssimativamente lineare (R2 = 0.993), con una pendenza 〈MLD〉 ∼ N0.67±0.01 oltre questa gamma.

Fig. 2.

Log-log plot di M MLD v rispetto alla lunghezza della sequenza per SSRNA virali e permutati casualmente. Gli SSRNA virali sono identificati dai simboli elencati nella chiave (Riquadro). I Bromoviridae analizzati qui provengono dai generi Bromovirus e Cucomovirus. La linea retta è un minimo quadrato adatto ai valori M MLD comp calcolati per sequenze casuali di lunghezze 2,500, 3,000, 4,000, 5,000, 6,000, e 7.000 nt; le linee verticali mostrano le deviazioni standard. I valori M MLD were sono stati calcolati con RNAsubopt.

Queste relazioni di ridimensionamento per SSRNA casuali sono vicine a N0.69 variazione ottenuta numericamente da Bundschuh e Hwa per una misura simile della distanza, utilizzando un modello energetico in cui sono consentiti solo accoppiamenti Watson–Crick, l’energia di interazione è la stessa per tutte le coppie e l’entropia viene ignorata (27). La loro misura della distanza è la distanza di scala tra la prima e (N/2 + 1)esima base, media su tutte le strutture nell’insieme per una sequenza casuale di composizione uniforme e quindi su molte sequenze.

Per ogni ssRNA virale, abbiamo calcolato il punteggio Z del M MLD〉, cioè, il numero di deviazioni standard che separano il suo M MLD values dai valori previsti 〈MLD of di sequenze casuali di lunghezza identica. Quest’ultimo è determinato dall’equazione di regressione tracciata in Fig. 2 (vedi Testo SI). Il punteggio Z medio di ciascun taxon è elencato nella Tabella 1. Quelli dei virus icosaedrici vanno da -1.4 a -3.0, indicando che i loro RNA hanno valori M MLD values che sono diversi e più piccoli dei valori M MLD predicted previsti per gli RNA casuali di uguale lunghezza. Inoltre, un’analisi di regressione lineare del punteggio Z vs. la lunghezza della sequenza per gli RNA virali icosaedrici mostra una pendenza negativa significativa con un intervallo di confidenza > 95%, il che implica che la relativa compattezza di questi RNA, tutti necessari per adattarsi a capsidi di circa la stessa dimensione, aumenta con la lunghezza della sequenza.

Il punteggio medio Z dei valori M MLD ss degli SSRNA Tobamovirus è +0,6. È sorprendente che questi SSRNA, che si raggruppano in capsidi cilindrici di lunghezza variabile, abbiano strutture secondarie più estese e valori M MLD values più grandi di quelli dei virus icosaedrici. Sia per i virus icosaedrici che per i Tobamovirus, sembra esserci una corrispondenza tra le strutture secondarie previste dei loro genomi(vedi Fig. S3) e la dimensione e la forma dei capsidi in cui i genomi devono adattarsi. Ipotizziamo che, per facilitare l’assemblaggio virale, le sequenze ssRNA di virus icosaedrici autoassemblanti si siano evolute per avere valori relatively MLD relatively relativamente piccoli e che questi valori M MLD give più piccoli diano origine a valori Rg più piccoli.

Questi risultati suggeriscono che le differenze riscontrate tra gli RNA virali e casuali non si verificano semplicemente perché gli RNA virali sono di origine biologica (ciascuno è un RNA messaggero di senso positivo, tradotto direttamente); altrimenti, non si vedrebbe una differenza tra i risultati per i virus icosaedrici e cilindrici. Per esaminarlo ulteriormente, abbiamo analizzato 500 SSRNA che sono le trascrizioni di sezioni consecutive di 3.000 basi sui cromosomi XI e XII del lievito (S. cerevisiae). Queste sequenze derivate dal lievito sono state incluse per rappresentare gli RNA biologici che, sebbene evoluti, non sono stati sottoposti a pressioni selettive per avere una particolare dimensione e forma complessiva. I nostri risultati, raccolti nella Tabella 2, mostrano che i valori M MLD of degli RNA derivati dal lievito sono approssimativamente uguali a quelli degli RNA casuali, indicando che le differenze tra gli SSRNA casuali e virali non derivano semplicemente dall’origine biologica di questi ultimi.

Visualizza questa tabella:

  • Visualizza in linea
  • Visualizza popup

Tabella 2.

Composizione-dipendenza di M MLD

Come accennato in precedenza, la composizione degli RNA casuali è stata scelta per corrispondere, in media, a quella degli RNA virali il più vicino possibile. Tuttavia, molti singoli RNA virali differiscono significativamente nella composizione dagli RNA casuali, sollevando la questione se le stesse differenze in M MLD would sarebbero viste se gli RNA virali fossero ciascuno confrontati con RNA casuali di composizione identica. Per testare la sensibilità alla composizione dei valori M MLD of degli RNA casuali, abbiamo analizzato 3.000-base di RNA permutati casualmente di composizione uniforme (25% G, 25% C, 25% A, 25% U). I risultati, elencati nella Tabella 2, mostrano che M MLD is è insensibile a piccole modifiche di composizione. Inoltre, la composizione media degli RNA di lievito differisce significativamente da quella di entrambi gli insiemi di RNA casuali, tuttavia i loro valori M MLD are sono approssimativamente gli stessi.

Quanto è probabile che le differenze previste in M MLD between tra RNA virali e non virali siano presenti negli RNA effettivi? RNAsubopt e tutti i programmi simili che prevedono la struttura dell’RNA hanno la capacità, in linea di principio, di trovare tutte le possibili strutture non pseudoknotted. Pertanto, l’accuratezza di RNAsubopt (la sua capacità di campionare correttamente dall’insieme) non dipende da quali strutture è in grado di prevedere (può prevederle tutte, escludendo quelle con pseudoknots), ma piuttosto dalle energie che assegna loro, che sono determinate dal suo modello energetico. Come accennato in precedenza, richiediamo solo che RNAsubopt sia sufficientemente preciso per prevedere le caratteristiche generali a grana grossa della struttura secondaria dell’RNA, come M MLD〉. Per valutare se i nostri risultati sono specifici per RNAsubopt (e quindi forse un artefatto del particolare modello energetico su cui si basa RNAsubopt), abbiamo confrontato gli SSRNA virali e casuali usando mpold, che è simile a RNAsubopt ma differisce in qualche modo sia nel suo modello energetico che nelle strutture che campiona dall’insieme. Mentre i valori M MLD generated generati da RNAsubopt sono diversi dai valori AMLD generati da mpold, entrambi hanno mostrato la stessa differenza sistematica in MLD tra SSRNA virali e casuali e approssimativamente le stesse relazioni di scala per le sequenze casuali (AMLD N N0. 74±0.01 per mpold, vedere Fig. S4).

Per testare ulteriormente la robustezza di queste previsioni, abbiamo confrontato gli SSRNA casuali e virali usando il nostro programma di piegatura dell’RNA semplificato. Questo programma non determina singole strutture secondarie e di conseguenza non consente il calcolo di M MLD〉. Tuttavia, determina le probabilità di accoppiamento, che consente il calcolo della distanza media massima della scala (MALD) dell’intero insieme di strutture, che è il valore massimo delle medie dell’insieme delle distanze di scala N2 associate a ciascuna sequenza N-base. Troviamo che questo programma—come quelli discussi sopra, che si basano su assegnazioni energetiche più realistiche-prevede anche differenze sistematiche tra RNA casuali e virali, dando valori MALD più piccoli per le sequenze virali rispetto a quelli non virali (vedi Fig. S5). Pertanto, anche un modello energetico altamente semplificato che tiene semplicemente conto delle interazioni più vicine è sufficiente per rivelare una differenza fondamentale tra le strutture secondarie delle sequenze di ssRNA virali e permutate casualmente. Con questo modello semplificato, per sequenze casuali di lunghezze 2,000-4,000, MALD N N0. 66±0.02.

I programmi di piegatura che impieghiamo non possono produrre strutture che contengono pseudoknots. Sebbene pseudoknots siano noti per verificarsi in RNA virali, come quelli che formano strutture simili a tRNA 3′-terminale (8), sono tipicamente locali (coinvolgendo basi separate da <102 nt lungo la sequenza); di conseguenza, ignorarli non dovrebbe influenzare significativamente la nostra previsione della dimensione complessiva. Sono state trovate prove per pseudoknots a più lungo raggio, come baciare forcine che collegano basi separate da ben 400 nt (31), ma anche queste sono vicine alla lunghezza complessiva dei genomi virali. In ogni caso, il nostro obiettivo è quello di sviluppare un modello teorico di ordine zeroth che cattura i determinanti della dimensione complessiva, con pseudoknots, kissing hairpins e altri dettagli inclusi in seguito, se necessario.

Per tradurre M MLD into in Rg, è utile mappare le strutture secondarie dell’RNA su modelli polimerici le cui statistiche configurazionali sono ben comprese, come i polimeri lineari ideali e “stellari”. Usando l’idealizzazione più semplice, come nel modello a catena liberamente snodato discusso sopra, possiamo sostituire strutture come le due mostrate in Fig. 1 A e B da catene lineari le cui lunghezze di contorno effettive (Leff) sono date dai loro valori M MLD.. Per completare questa mappatura, modelliamo le sezioni duplex come i collegamenti rigidi della catena e i rigonfiamenti ss, bolle e anelli multibranchi come i giunti flessibili che li collegano. La lunghezza effettiva di Kuhn (beff) è quindi la lunghezza media duplex nella struttura secondaria ssRNA, una proprietà che è approssimativamente la stessa (5 bp) per tutte le sequenze esaminate. Ciò corrisponde ad una lunghezza media duplex di RNA di 1-2 nm. Poiché la lunghezza di persistenza (una misura della scala di lunghezza in cui si osserva la flessione) di dsRNA è ≈60 nm (32), modellare le sezioni duplex come corpi rigidi è un’ottima approssimazione. I loop ss, in media, contengono circa sei basi ss, e quindi stimiamo che una tipica bolla abbia circa tre basi ss su ciascun lato; la lunghezza di persistenza di ssRNA è probabilmente simile a quella di ssDNA, circa due basi (33).

Da questa associazione tra strutture secondarie ed efficace polimeri lineari, ne consegue che la Rg di un ssRNA molecola con una sequenza arbitraria deve essere determinata da unEmbedded Image Combinando l’ultima equazione con i nostri precedenti risultati, 〈MLD〉 ∼ N0.67, i rendimentiEmbedded Image Per un non-self-evitando catena lineare, ν = 0.5, nel qual caso, Rg ∼ N0.34; per evitare catena lineare, n ≈ 0.6, dando Rg ∼ N0.40.

Questo approccio può essere ampliato mappando le strutture secondarie ssRNA su un sistema modello polimerico alternativo che rappresenta tutti i possibili percorsi attraverso la struttura e quindi include tutti i rami. Per qualsiasi polimero ideale, lineare o ramificato, Immagine incorporata dove Lij è la distanza lungo la spina dorsale tra i monomeri i e j (34). Procedendo come sopra, otteniamo Immagine incorporata dove Lij, eff è stato sostituito da LDij nel secondo passaggio. L’ALD è la distanza media della scala, cioè, la media delle distanze di scala a coppie N2 in una struttura secondaria di RNA, e 〈ALD is è la sua media di insieme. Utilizzando i valori per 〈ALD calculated calcolati esattamente dalle probabilità di accoppiamento generate da RNAfold, abbiamo ripetuto l’analisi mostrata in Fig. 2. I risultati sono equivalenti, con ss ALD N N0.68±0.01 e Rg N N0.34, e dimostrano che le differenze tra SSRNA casuali e virali sono preservate quando i rami sono esplicitamente inclusi (vedi Fig. 3 e i punteggi Z dei valori AL ALD in nell’ultima colonna della Tabella 1). Come con MLD, ALD è robusto rispetto al modello energetico. I risultati ottenuti con il programma di piegatura semplificato (AL ALD N N0.68±0.01) sono mostrati in Fig. S6.

Fig. 3.

Come Fig. 2, ma con AL ALD〉, calcolato con RNAfold, sostituendo M MLD〉. 〈ALD is è una misura di dimensione che include esplicitamente tutti i rami.