Articles

Predecir el tamaño de moléculas de ARN grandes

Resultados

Se sabe que los programas actuales de plegado de ARN tienen una precisión limitada para secuencias largas (26). Para nuestros propósitos, sin embargo, no es necesario que todos, o incluso la mayoría, de los emparejamientos individuales se predigan correctamente. Más bien, las estructuras predichas solo necesitan ser lo suficientemente precisas para capturar las características de grano grueso que determinan el tamaño 3D. Por lo tanto, nuestra pregunta se convierte en la siguiente: ¿Se pueden predecir los tamaños relativos de los ARNSS grandes a partir de estimaciones computacionales de las propiedades apropiadas de sus estructuras secundarias?

Para hacer tales estimaciones, debemos identificar una característica de grano grueso de la estructura secundaria que dicta el tamaño 3D. La única característica de una estructura secundaria que más evidente y directamente cumple con este criterio es su «extensión».» Higo. 1 A y B muestran, respectivamente, SSRNAS virales y aleatorios de apariencia «típica» de aproximadamente la misma longitud. Se puede ver que el ARNSS aleatorio está sorprendentemente más extendido. La ssRNA en la Fig. 1A es de un virus de la familia Leviviridae. Estructuras representativas adicionales, de los géneros Bromovirus, Tymovirus y Tobamovirus, se muestran en las Figs. S2 y S3.

iv xmlns:xhtml=»http://www.w3.org/1999/xhtml Fig. 1.

Estructuras secundarias previstas de los ssRNAs. A)Enterobacteria phage Qß (en la familia Leviviridae), ARNSS. B) ARNSS permutados aleatoriamente. Cada uno tiene ≈4.000 nt de longitud y se muestra a la misma escala. Los MLD de estas estructuras son 221 y 368, respectivamente. (Estos son representativos de sus respectivos promedios conjuntos: ElLD MLD is del fago Qß ssRNA es de 240, y el M MLD of de 4.000 ssRNAs aleatorios de base es de 361.) Las superposiciones amarillas ilustran las rutas asociadas con los MLD (véase el texto y el ejemplo de 50 nt representado en C). Los valores deLD MLD were se calcularon con RNAsubopt; las figuras se dibujaron con mfold.

Esta diferencia en la extensión de las estructuras secundarias se traduce en una diferencia en el tamaño 3D. Para evaluar la extensión como característica candidata, se requiere una medida cuantitativa de esta propiedad. Bundschuh y Hwa introdujeron la distancia de escalera como una medida de la distancia entre bases arbitrarias en estructuras secundarias ssRNA (27). La distancia de la escalera, LDij, es el número de pares de bases («peldaños» en una «escalera») que se cruzan a lo largo del camino más directo en la estructura secundaria que conecta las bases i y j. Debido a que las secciones ds son esencialmente varillas rígidas, mientras que las secciones ss son flexibles, solo las secciones ds se cuentan en esta medida de distancia. Para caracterizar el tamaño total de las estructuras secundarias de ARN utilizando una sola cantidad, introducimos la distancia máxima de escalera (MLD), que es el valor más grande de LDij para todas las combinaciones de i y j. En otras palabras, es la distancia de escalera asociada con el camino directo más largo a través de la estructura secundaria. Esto se ilustra en la Fig. 1C, con una estructura secundaria de MFE de una secuencia arbitraria de 50 nt de largo, cuyo MLD resulta ser 11. Las trayectorias MLD de esta estructura secundaria y de las de la Fig. 1 A y B están ilustradas con superposiciones amarillas.

Para evaluar su utilidad como medida predictiva del tamaño, determinamos valores de DLM promedio de conjunto (LD DLM.) en seis taxones virales (enumerados en la Tabla 1), todos cuyos viriones consisten simplemente en un genoma de ARNSRS encerrado dentro de una cáscara de proteína. Los virus de cinco de los taxones tienen una cáscara esférica de radio fijo (T = 3 icosaédrica) compuesta de 180 copias de un único producto genético, la proteína de la cápside. Sus ssRNAs varían en tamaño de 3,000 a 7,000 nt, pero los diámetros exteriores de sus cápsidos son todos de 26-28 nm (28, 29). Por el contrario, los virus del taxón restante, los Tobamovirus, se ensamblan en capas cilíndricas de radio fijo (18 nm) pero de longitud variable (con un promedio de ≈300 nm). Por lo tanto, a diferencia de los genomas de los virus icosaédricos, no se requiere que los de los Tobamovirus quepan en una carcasa de tamaño fijo; las longitudes de ARNSS más largas simplemente conducen a cilindros más largos (de diámetro fijo) (30). A partir de nuestra conjetura inicial, uno podría predecir que los Tobamovirus no están bajo presión selectiva para tener ARN particularmente compactos. Además, debido a que los cinco taxones de los virus icosaédricos tienen cápsidas de aproximadamente el mismo tamaño, se esperaría que la divergencia entre el tamaño de los SSRNAS virales y aleatorios aumentara con la longitud de la secuencia.

la Vista de esta tabla:

  • Ver en línea
  • Ver popup
la Tabla 1.

Diferencias en 〈MLD s s y AL ALD s s entre secuencias virales y aleatorias

La composición promedio de los ARNSS virales individuales analizados aquí (sin incluir los Tymovirus, cuyas composiciones son atípicas para los virus examinados en este estudio) es de 24,0% G, 22,1% C, 26,9% A y 27,0% U. Sin embargo, debemos tener en cuenta no solo la composición promedio, sino también la discrepancia promedio en la composición entre bases potencialmente capaz de emparejarse, es decir, G y C, A y U, y G y U. Esta discrepancia de composición (de nuevo, sin incluir los Tymovirus) es 2.9 puntos porcentuales para % G- % C, 2,9 para % A – % U y 4,0 para %G − % U (por ejemplo, si un ARNSRS viral individual contenía 22% G y 26% C, o 26% G y 22% C, su diferencia de %G − % C sería de 4 puntos porcentuales). Para permitir un equilibrio entre estos dos promedios—porcentajes de nucleótidos y sus diferencias para las bases de emparejamiento—elegimos la composición «similar al virus» 24% G, 22% C, 26% A y 28% U para las secuencias permutadas aleatoriamente. Con esta composición, generamos y analizamos 500 secuencias aleatorias de longitud 2,500 nt, 500 de longitud 3,000 nt y 300 en cada una de las longitudes 4,000, 5,000, 6,000 y 7,000 nt. ElLD MLD of de cada secuencia viral y aleatoria se determinó con RNAsubopt.

Los valores deLD MLD of de los ARN virales icosaédricos son sistemáticamente menores que los de los ARN aleatorios, como se puede ver en la gráfica log–log de length MLD vs vs.longitud de secuencia mostrada en la Fig. 2. Cada ARNSS viral individual está designado con un símbolo que indica su taxón. Los genomas de los Bromovirus y los Cucomovirus son multipartitos; se dividen entre cuatro diferentes ssRNAs. Los resultados se muestran para el más largo y el segundo más largo de estos, identificados por convención como ARN 1 y 2, que se empaquetan en cápsidos separados (pero aparentemente idénticos). También trazan son el promedio de la 〈MLD〉 (〈MLD〉) los valores de las diferentes longitudes de las secuencias aleatorias, y sus desviaciones estándar; el resultado es aproximadamente lineal (R2 = 0.993), con una pendiente que indica 〈MLD〉 ∼ N0.67±0.01 durante este intervalo.

Fig. 2.

Gráfico log–log deLD MLD vs vs. longitud de secuencia para ssRNAs virales y permutados aleatoriamente. Los SSRNAS virales se identifican por los símbolos enumerados en la clave (recuadro). Los Bromoviridae analizados aquí son de los géneros Bromovirus y Cucomovirus. La línea recta es un ajuste de mínimos cuadrados a los valores computed MLD computed calculados para secuencias aleatorias de longitudes 2,500, 3,000, 4,000, 5,000, 6,000, y 7.000 nt; las líneas verticales muestran las desviaciones estándar. Los valores deLD MLD were se calcularon con RNAsubopt.

Estas relaciones de escala para los ssRNAs aleatorios se acercan al N0.69 variación obtenida numéricamente por Bundschuh y Hwa para una medida de distancia similar, utilizando un modelo de energía en el que solo se permiten emparejamientos Watson–Crick, la energía de interacción es la misma para todos los pares, y la entropía es ignorada (27). Su medida de distancia es la distancia de escalera entre la primera y (N/2 + 1)base, promediada sobre todas las estructuras en el conjunto para una secuencia aleatoria de composición uniforme y luego sobre muchas secuencias.

Para cada viral ssRNA, se calculó el puntaje Z de la 〈MLD〉, es decir,, el número de desviaciones estándar que separan suLD MLD from de los valores predichos M MLD of de secuencias aleatorias de longitud idéntica. Este último se determina a partir de la ecuación de regresión trazada en la Fig. 2 (véase el texto del SI). La puntuación Z media de cada taxón se muestra en la Tabla 1. Los de los virus icosaédricos varían de -1,4 a -3,0, lo que indica que sus ARN tienen valores deLD MLD that que son diferentes y más pequeños que los valores de M MLD predicted predichos para ARN aleatorios de igual longitud. Además, un análisis de regresión lineal de la puntuación Z vs la longitud de secuencia para los ARN virales icosaédricos muestra una pendiente negativa significativa con un intervalo de confianza > 95%, lo que implica que la compacidad relativa de estos ARN, todos los cuales se requieren para encajar en cápsidos de aproximadamente el mismo tamaño, aumenta con la longitud de secuencia.

El puntaje Z promedio de los valoresLD MLD is de los ARNSRS de Tobamovirus es +0,6. Es sorprendente que estos SSRNAS, que se empaquetan en cápsidos cilíndricos de longitud variable, tengan estructuras secundarias más extendidas y valores 〈MLD larger más grandes que los de los virus icosaédricos. Tanto para los virus icosaédricos como para los Tobamovirus, parece haber una correspondencia entre las estructuras secundarias predichas de sus genomas (ver Fig. S3) y el tamaño y la forma de los capsidos en los que deben caber los genomas. Nuestra hipótesis es que, para facilitar el ensamblaje viral, ssRNA secuencias de auto-montaje de virus icosaédricos han evolucionado relativamente pequeño 〈MLD〉 valores y que estos pequeños 〈MLD〉 valores dan lugar a pequeños valores de Rg.

Estos resultados sugieren que las diferencias encontradas entre los ARN virales y aleatorios no ocurren simplemente porque los ARN virales son de origen biológico (cada uno es un ARN mensajero de sentido positivo, traducido directamente); de lo contrario, no se vería una diferencia entre los resultados para los virus icosaédricos y cilíndricos. Para examinar esto más a fondo, analizamos 500 ssRNAs que son las transcripciones de secciones consecutivas de 3,000 bases en los cromosomas XI y XII de levadura (S. cerevisiae). Estas secuencias derivadas de levaduras se incluyeron para representar ARN biológicos que, aunque evolucionaron, no han sido sometidos a presiones selectivas para tener un tamaño y forma generales particulares. Nuestros hallazgos, compilados en la Tabla 2, muestran que los valores deLD DLM〉 de los ARN derivados de levaduras son aproximadamente los mismos que los de los ARN aleatorios, lo que indica que las diferencias entre los ARN aleatorios y los virales no se deben meramente al origen biológico de estos últimos.

la Vista de esta tabla:

  • Ver en línea
  • Ver popup
la Tabla 2.

Composición-dependencia de 〈MLD

Como se mencionó anteriormente, la composición de los ARN aleatorios se eligió para que coincidieran, en promedio, con la de los ARN virales lo más cerca posible. Sin embargo, muchos ARN virales individuales difieren significativamente en composición de los ARN aleatorios, lo que plantea la cuestión de si las mismas diferencias enLD DLM be se verían si los ARN virales se compararan con ARN aleatorios de composición idéntica. Para probar la sensibilidad a la composición de los valores deLD MLD〉 de los ARN aleatorios, analizamos 3.000 ARN de base permutados aleatoriamente de composición uniforme (25% G, 25% C, 25% A, 25% U). Los resultados, enumerados en la Tabla 2, muestran que elLD MLD〉 es insensible a pequeños cambios de composición. Además, la composición promedio de los ARN de levadura difiere significativamente de la de ambos conjuntos de ARN aleatorios, sin embargo, sus valores deLD MLD are son aproximadamente los mismos.

¿Qué probabilidad hay de que las diferencias predichas enLD DLM?entre ARN virales y no virales estén presentes en ARN reales? RNAsubopt y todos los programas similares que predicen la estructura del ARN tienen la capacidad, en principio, de encontrar todas las estructuras posibles no pseudonudadas. Por lo tanto, la precisión de RNAsubopt (su capacidad para muestrear adecuadamente del conjunto) no depende de qué estructuras es capaz de predecir (puede predecir todas, excepto las que tienen pseudonotas), sino más bien de las energías que les asigna, que están determinadas por su modelo de energía. Como se mencionó anteriormente, solo requerimos que RNAsubopt sea lo suficientemente preciso para predecir las características generales de grano grueso de la estructura secundaria de ARN, como 〈MLD〉. Para evaluar si nuestros hallazgos son específicos de RNAsubopt (y, por lo tanto, posiblemente un artefacto del modelo de energía particular en el que se basa RNAsubopt), comparamos los SSRNAS virales y aleatorios utilizando mfold, que es similar a RNAsubopt, pero difiere un poco tanto en su modelo de energía como en las estructuras que muestrea del conjunto. Mientras que los valores deLD MLD generated generados por RNAsubopt son diferentes de los valores de AMLD generados por mfold, ambos mostraron la misma diferencia sistemática en MLD entre los ARNSS virales y aleatorios, y aproximadamente las mismas relaciones de escala para secuencias aleatorias (AMLD N N0, 74±0.01 para mfold, ver Fig. S4).

Para probar aún más la solidez de estas predicciones, comparamos los ARNSS aleatorios y virales utilizando nuestro programa simplificado de plegado de ARN. Este programa no determina estructuras secundarias individuales y, en consecuencia, no permite el cálculo de 〈MLD〉. Sin embargo, determina las probabilidades de emparejamiento, lo que permite el cálculo de la distancia de escalera media máxima (MALD) de todo el conjunto de estructuras, que es el valor máximo de los promedios del conjunto de las distancias de escalera N2 asociadas con cada secuencia de N-base. Encontramos que este programa, como los mencionados anteriormente, que se basan en asignaciones de energía más realistas, también predice diferencias sistemáticas entre ARN aleatorios y virales, dando valores de MALD más pequeños para las secuencias virales que para las no virales (ver Fig. S5). Por lo tanto, incluso un modelo de energía altamente simplificado que simplemente tenga en cuenta las interacciones entre el vecino más cercano es suficiente para revelar una diferencia fundamental entre las estructuras secundarias de las secuencias virales y las secuencias de ARNSRS permutadas aleatoriamente. Con este modelo simplificado, para secuencias aleatorias de longitudes 2,000-4,000, MALD N N0.66±0.02.

Los programas de plegado que empleamos no pueden producir estructuras que contengan pseudonotas. Aunque se sabe que los pseudonotes ocurren en ARN virales, como los que forman estructuras similares a ARNt de 3’terminales (8), son típicamente locales (que involucran bases separadas por <102 nt a lo largo de la secuencia); en consecuencia, ignorarlos no debería afectar significativamente nuestra predicción del tamaño general. Se ha encontrado evidencia de pseudonotes de largo alcance, como horquillas de besos que conectan bases separadas por hasta 400 nt (31), pero incluso estos son cercanos en relación con la longitud total de los genomas virales. En cualquier caso, nuestro objetivo es desarrollar un modelo teórico de orden cero que capture los determinantes del tamaño general, con seudonotes, horquillas para besar y otros detalles incluidos más adelante según sea necesario.

Para traducir 〈MLD into a Rg, es útil mapear las estructuras secundarias de ARN en modelos de polímeros cuyas estadísticas de configuración se entienden bien, como los polímeros lineales ideales y «estelares». Utilizando la idealización más simple, como en el modelo de cadena de libre articulación discutido anteriormente, podemos reemplazar estructuras como las dos que se muestran en la Fig. 1 A y B por cadenas lineales cuyas longitudes de contorno efectivas (Leff) están dadas por sus valores M MLD.. Para completar este mapeo, modelamos las secciones dúplex como los eslabones rígidos de la cadena, y las protuberancias ss, burbujas y bucles multibrancos como las articulaciones flexibles que los conectan. La longitud efectiva de Kuhn (beff) es, por lo tanto, la longitud dúplex promedio en la estructura secundaria del ARNSRS, una propiedad que es aproximadamente la misma (5 pb) para todas las secuencias examinadas. Esto corresponde a una longitud dúplex de ARN promedio de 1-2 nm. Debido a que la longitud de persistencia (una medida de la escala de longitud en la que se observa la flexión) del dsRNA es ≈60 nm (32), modelar las secciones dúplex como cuerpos rígidos es una excelente aproximación. Los bucles de ss, en promedio, contienen aproximadamente seis bases de ss, y por lo tanto estimamos que una burbuja típica tiene aproximadamente tres bases de ss en cada lado; la longitud de persistencia del ARNSRS es probablemente similar a la del ADNss, aproximadamente dos bases (33).

De este mapeo entre estructuras secundarias y polímeros lineales efectivos, se deduce que el Rg de una molécula de ARNSRS con una secuencia arbitraria debe determinarse medianteImagen incrustada Combinando la última ecuación con nuestro resultado anterior, 〈MLD N N0.67, se obtieneImagen incrustada Para una cadena lineal no auto-evitable, ν = 0.5, en cuyo caso, Rg ν N0.34; para una cadena lineal auto-evitable, ν ≈ 0.6, dando Rg N N0.40.

Este enfoque se puede ampliar mediante el mapeo de las estructuras secundarias de ssRNA en un sistema de modelo de polímero alternativo que tenga en cuenta todos los caminos posibles a través de la estructura, y por lo tanto incluye todas las ramas. Para cualquier polímero ideal, lineal o ramificado,Imagen incrustada donde Lij es la distancia a lo largo de la columna vertebral entre los monómeros i y j (34). Siguiendo el procedimiento anterior, obtenemosImagen incrustada donde Lij, eff ha sido reemplazado por LDij en el segundo paso. El ALD es la distancia media de la escalera, i. e., el promedio de las distancias de escalera en pares N2 en una estructura secundaria de ARN, y 〈ALD is es el promedio de su conjunto. Mediante el uso de valores para 〈ALD calculated calculados exactamente a partir de las probabilidades de emparejamiento generadas por RNAfold, hemos repetido el análisis que se muestra en la Fig. 2. Los resultados son equivalentes, con 〈ALD N N0.68±0.01 y Rg N N0.34, y demuestran que las diferencias entre los ARNSS aleatorios y virales se conservan cuando se incluyen explícitamente ramas (ver Fig. 3 y las puntuaciones Z de los valores AL ALD in en la última columna de la Tabla 1). Al igual que con MLD, ALD es robusto con respecto al modelo energético. Los resultados obtenidos con el programa de plegado simplificado (AL ALD N N0.68±0.01) se muestran en la Fig. S6.

Fig. 3.

Igual que la Fig. 2, pero con 〈ALD〉, calculado con RNAfold, reemplazando 〈MLD.. 〈ALD is es una medida de tamaño que incluye explícitamente todas las ramas.