Previsão do tamanho de grandes moléculas de ARN
resultados
os actuais programas de dobragem de ARN são conhecidos por terem precisão limitada para sequências longas (26). Para nossos propósitos, no entanto, não é necessário que todos, ou mesmo a maioria, dos pares individuais sejam corretamente previstos. Em vez disso, as estruturas previstas só precisam ser suficientemente precisas para capturar as características grosseiras que determinam o tamanho 3D. A nossa pergunta torna-se, portanto, a seguinte:: Os tamanhos relativos das ssRNAs grandes podem ser previstos a partir de estimativas computacionais de propriedades apropriadas de suas estruturas secundárias?
para fazer tais estimativas, temos de identificar uma característica grosseira da estrutura secundária que dita o tamanho 3D. A característica única de uma estrutura secundária que mais obviamente, e diretamente, satisfaz este critério é a sua “extensão”.” Figo. 1 A E B mostram, respectivamente, ssrnas virais “típicas” e aleatórias com aproximadamente o mesmo comprimento. It can be seen that the random ssRNA is strikingly more extended. A ssRNA em Fig. 1A é de um vírus da família Leviviridae. Estruturas representativas adicionais, dos gêneros Bromovirus, Tymovirus e Tobamovirus, são mostradas em figos. S2 e S3.
Esta diferença na extensão das estruturas secundárias traduz-se numa diferença no tamanho 3D. Para avaliar a extensão como uma característica candidata, é necessária uma medida quantitativa desta propriedade. Bundschuh e Hwa introduziram a distância de escada como uma medida da distância entre bases arbitrárias em estruturas secundárias ssRNA (27). A distância da escada, LDij, é o número de pares de bases (“degraus” em uma “escada”) que são cruzados ao longo do caminho mais direto na estrutura secundária que conecta bases i e J. porque as seções ds são essencialmente hastes rígidas, enquanto as seções ss são floppy, apenas seções ds são contadas nesta medida de distância. Para caracterizar o tamanho geral das estruturas secundárias RNA usando uma única quantidade, introduzimos a distância máxima de escada( MLD), que é o maior valor de LDij para todas as combinações de i e J. em outras palavras, é a distância de escada associada com o caminho direto mais longo através da estrutura secundária. Isto é ilustrado na Fig. 1C, com uma estrutura secundária MFE de uma sequência arbitrária de 50-nt-longa, cujo MLD acontece ser 11. Os caminhos MLD desta estrutura secundária e dos da Fig. 1 A E B são ilustradas com camadas amarelas.
para avaliar a sua utilidade como uma medida preditiva do tamanho, determinamos valores MLD (〈MLD〉) médios ensemble em seis taxa virais (listados na Tabela 1), Todos cujos viriões consistem simplesmente de um genoma ssRNA encapsulado dentro de uma casca proteica. Os vírus de cinco dos taxa têm cada um um uma concha Esférica de raio fixo (T = 3 icosaédricos) composta de 180 cópias de um único gene, a proteína capsida. Suas ssRNAs variam em tamanho de 3.000 a 7.000 nt, mas os diâmetros exteriores de suas capsides são todos 26-28 nm (28, 29). Em contraste, os vírus do táxon restante, os Tobamovírus, se reúnem em conchas cilíndricas de raio fixo (18 nm), mas comprimento variável (média ≈300 nm). Assim, ao contrário dos genomas dos vírus icosaédricos, os dos Tobamovírus não são obrigados a se encaixar em uma concha de tamanho fixo; comprimentos mais longos ssRNA simplesmente levam a cilindros mais longos (diâmetro fixo) (30). Desde a nossa conjectura inicial, seria de prever que os Tobamovírus não estão sob pressão selectiva para ter RNAs que são particularmente compactos. Além disso, como todos os cinco taxa de vírus icosaédricos têm capsídeos de aproximadamente o mesmo tamanho, seria de esperar que a divergência entre o tamanho do vírus e ssRNAs aleatórias aumentasse com o comprimento da sequência.
- Ver inline
- Ver popup
Diferenças na 〈MLD〉s e 〈ALD〉s entre viral e sequências aleatórias
A composição média do indivíduo viral ssRNAs aqui analisados (não incluindo o Tymoviruses, cujas composições são atípico para o vírus examinados neste estudo) é de 24,0% G, 22,1% De C, De 26,9% e 27,0%, em U. no Entanto, temos conta não apenas para a composição média, mas também a média de discrepância entre a composição de bases potencialmente capaz de par, isto é, G e C, A e U e a G e U. Esta composição de discrepância (de novo, não incluindo o Tymoviruses) é 2.9 pontos percentuais para %G – %C, 2,9 para % a – %U, e 4,0 para %G − %U (por exemplo, se um ssRNA viral individual continha 22% G e 26% C, ou 26% G e 22% C, a sua diferença de G − %C seria de 4 pontos percentuais). Para permitir um equilíbrio entre essas duas médias-porcentagens de nucleótidos e suas diferenças para as bases de emparelhamento—escolhemos a composição “semelhante ao vírus” 24% G, 22% C, 26% A, e 28% U para as sequências permutadas aleatoriamente. Com esta composição, nós geramos e analisamos 500 sequências aleatórias de comprimento 2.500 nt, 500 de comprimento 3.000 nt, e 300 em cada um dos comprimentos 4.000, 5.000, 6.000, e 7.000 nt. Old MLDLD de cada sequência viral e Aleatória foi determinado com RNAsubopt.
os valores deld MLD〉 dos RNAs virais icosaedrais são sistematicamente menores do que os dos RNAs aleatórios, como pode ser visto no gráfico log–log de 〈MLD vs. vs. comprimento da sequência apresentado na Fig. 2. Cada RSS viral é designado com um símbolo que indica o seu táxon. Os genomas dos Bromovirus e Cucomovirus são multipartidos; eles são divididos entre quatro ssRNAs diferentes. Os resultados são mostrados para o mais longo e o segundo maior destes, identificados pela Convenção como RNAs 1 e 2, que empacotam em capsides separados (mas aparentemente idênticos). Também plotados são a média 〈MLD〉 (〈MLD〉) os valores dos vários comprimentos de sequências aleatórias, e respectivos desvios-padrão; o resultado é aproximadamente linear (R2 = 0.993), com uma inclinação indicando 〈MLD〉 ∼ N0.67±0.01 sobre este intervalo.Fig. 2.
log–log plot de 〈MLD vs. vs. sequence length para ssRNAs virais e permutadas aleatoriamente. As ssRNAs virais são identificadas pelos símbolos listados na chave (Inset). Os Bromoviridae analisados aqui são dos gêneros Bromovirus e Cucomovirus. A linha recta é um dos mínimos quadrados adequados aos valores deld MLDLD calculados para sequências aleatórias de comprimentos 2,500, 3,000, 4,000, 5,000, 6,000, e 7.000 nt; as linhas verticais mostram os desvios padrão. Os valores de MLDLD foram calculados com RNAsubopt.
Estas relações de escala para ssRNAs aleatórias estão próximas do N0.69 variação obtida numericamente por Caminhadas e Hwa para uma mesma medida de distância, usando um modelo de energia em que apenas Watson–Crick combinações são permitidas, a energia de interação é a mesma para todos os pares, e a entropia é ignorado (27). Sua medida de distância é a distância da escada entre a primeira e (n / 2 + 1)th base, média sobre todas as estruturas do conjunto para uma sequência aleatória de composição uniforme e, em seguida, sobre muitas sequências.
para cada ssRNA viral, calculamos a pontuação Z dold MLD〉, i.e., o número de desvios-padrão que separa o seu 〈MLDLD dos valores previstos de 〈MLDLD de sequências aleatórias de comprimento idêntico. Este último é determinado a partir da equação de regressão plotada na figura. 2 (ver SI Text). A pontuação Z média de cada táxon está listada no quadro 1. Os vírus icosaédricos variam entre-1, 4 e-3, 0, indicando que os seus RNAs têm valores DELD MLDLD diferentes e inferiores aos valores de 〈MLD〉 previstos para RNAs aleatórios de igual comprimento. Além disso, uma análise de regressão linear da pontuação Z vs. seqüência de comprimento para o icosahedral viral Rna apresenta uma grande inclinação negativa, com um intervalo de confiança de >95%, o que implica que a compacidade relativa destes RNAs, os quais são necessários para caber em capsids de aproximadamente o mesmo tamanho, aumenta com a seqüência de comprimento.
A pontuação Z média dos valores de TOB MLD〉 do Tobamovirus ssRNAs é de +0, 6. É surpreendente que estas ssRNAs, que se agrupam em capsídeos cilíndricos de comprimento variável, tenham estruturas secundárias mais alargadas e valores maiores de 〈MLDLD do que os dos vírus icosaédricos. Tanto para os vírus icosaédricos como para os Tobamovírus, parece existir uma correspondência entre as estruturas secundárias previstas dos seus genomas (ver Fig. S3) e o tamanho e a forma dos capsídeos em que os genomas devem caber. Nós hipotetizamos que, para facilitar a montagem viral, sequências ssRNA de vírus icosaedrais auto-montagem evoluíram para ter valores relativamente pequenos 〈MLDLD e que estes valores menoresld MLD〉 dão origem a valores Rg menores.
estes resultados sugerem que as diferenças encontradas entre os RNAs virais e aleatórios não ocorrem simplesmente porque os RNAs virais são de origem biológica (cada um é um sentido positivo, RNA mensageiro traduzido diretamente); caso contrário, não se veria uma diferença entre os resultados para os vírus icosaédricos e cilíndricos. Para examinar isso mais adiante, analisamos 500 ssRNAs que são as transcrições de seções consecutivas de 3.000 bases em cromossomos XI e XII. Estas sequências derivadas de leveduras foram incluídas para representar RNAs biológicas que, embora evoluídas, não foram sujeitas a pressões selectivas para terem um tamanho e forma globais particulares. Os nossos resultados, compilados na Tabela 2, mostram que os valores deld MLDLD dos RNAs derivados de levedura são aproximadamente os mesmos que os dos RNAs aleatórios, indicando que as diferenças entre as ssRNAs aleatórias e virais não resultam apenas da origem biológica deste último.
- Ver inline
- Ver popup
composição-dependência de 〈MLDLD
como mencionado anteriormente, a composição dos RNAs aleatórios foi escolhida para corresponder, em média, a dos RNAs virais o mais próximo possível. No entanto, muitas RNAs virais individuais diferem significativamente na composição dos RNAs aleatórios, levantando a questão de se as mesmas diferenças emld MLD〉 seriam vistas se os RNAs virais fossem comparados com RNAs aleatórios de composição idêntica. Para testar a sensibilidade à composição dos valores DELD MLDLD dos RNAs aleatórios, analisamos 3.000 bases de RNAs permutadas aleatoriamente de composição uniforme (25% G, 25% C, 25% a, 25% U). Os resultados, listados na Tabela 2, mostram que old MLDLD é insensível a pequenas alterações na composição. Além disso, a composição média das RNAs de levedura difere significativamente da de ambos os conjuntos de RNAs aleatórias, ainda que os seus valores DELD MLDLD sejam aproximadamente os mesmos.
quão provável é que as diferenças previstas emld MLDLD entre RNAs virais e não virais estejam presentes em RNAs reais? RNAsubopt e todos os programas similares que predizem a estrutura de RNA têm a capacidade, em princípio, de encontrar todas as estruturas possíveis não-pseudoknotted. Assim, a precisão do RNAsubopt (sua capacidade de amostra adequada do conjunto) não depende de quais estruturas ele é capaz de prever (ele pode prever todos eles, exceto aqueles com pseudoknots), mas sim das energias que ele atribui a eles, que são determinadas por seu modelo de energia. Como mencionado anteriormente, nós apenas exigimos que RNAsubopt seja suficientemente preciso para prever características gerais de granulado grosso da estrutura secundária RNA, tais como 〈MLDLD. Para avaliar se os nossos resultados são específicos para RNAsubopt (e, portanto, possivelmente, um artefato do modelo energético em que RNAsubopt é baseado), comparamos viral e aleatório ssRNAs usando mfold, que é semelhante ao RNAsubopt mas difere um pouco em tanto seu modelo energético e as estruturas que as amostras do conjunto. Considerando que o 〈MLD〉 valores gerados pelo RNAsubopt são diferentes dos DALD valores gerados pelo mfold, ambos apresentaram a mesma diferença sistemática na MLD entre viral e aleatório ssRNAs, e aproximadamente o mesmo dimensionamento de relações de sequências aleatórias (DALD ∼ N0.74±0,01 para mfold, ver Fig. S4).
para testar ainda mais a robustez destas previsões, comparamos ssRNAs aleatórias e virais usando nosso programa simplificado de dobragem de RNA. Este programa não determina estruturas secundárias individuais, e consequentemente não permite o cálculo deld MLDLD. No entanto, ele determina probabilidades de emparelhamento, que permite o cálculo da distância média máxima da escada (MALD) de todo o conjunto de estruturas, que é o valor máximo das médias do conjunto das distâncias da escada N2 associadas a cada sequência n-base. Descobrimos que este programa—como aqueles discutidos acima, que são baseados em atribuições de energia mais realistas-também prevê diferenças sistemáticas entre RNAs aleatórias e virais, dando valores MALD menores para sequências virais do que para não virais (ver Fig. S5). Assim, mesmo um modelo de energia altamente simplificado que apenas leva em conta as interações vizinhos mais próximos é suficiente para revelar uma diferença fundamental entre as estruturas secundárias de sequências ssRNA virais e permutadas aleatoriamente. With this simplified model, for random sequences of lengths 2,000-4,000, MALD ∼ n. 0.66±0,02.
os programas de dobragem que empregamos não podem produzir estruturas que contenham pseudoknots. Embora pseudoknots ocorrem no Rna viral, tais como aqueles que formam 3′-terminal tRNA-estruturas (8), eles são tipicamente local (envolvendo bases separadas por <102 nt ao longo da sequência); da mesma forma, ignorando-os e não deve afetar significativamente a nossa previsão de dimensão global. Evidências foram encontradas para pseudoknots de longo alcance, tais como o beijo de ganchos de cabelo conectando bases separadas por até 400 nt (31), mas mesmo estas são próximas ao comprimento total dos genomas virais. Em qualquer caso, nosso objetivo é desenvolver um modelo teórico de ordem zeroth que captura os determinantes do tamanho global, com pseudoknots, beijando ganchos de cabelo, e outros detalhes incluídos mais tarde, conforme necessário.
para traduzir 〈MLDLD em Rg, é útil mapear as estruturas secundárias de RNA em modelos de polímeros cujas estatísticas de configuração são bem compreendidas, tais como polímeros ideais lineares e estelares. Usando a idealização mais simples, como no modelo em cadeia livre discutido acima, podemos substituir estruturas como as duas mostradas na Fig. 1 A E B por cadeias lineares cujo comprimento de contorno efectivo (Leff) é dado pelos seus valores DELD MLDLD. Para completar este mapeamento, nós modelamos as seções duplex como os elos rígidos da cadeia, e as protuberâncias ss, bolhas, e loops multibranch como as juntas flexíveis que os conectam. O comprimento efetivo de Kuhn (beff) é, portanto, o comprimento médio duplex na estrutura secundária ssRNA, uma propriedade que é aproximadamente a mesma (5 bp) para todas as sequências examinadas. Isto corresponde a um comprimento médio de ARN duplex de 1-2 nm. Como o comprimento da persistência (uma medida da escala de comprimento na qual a flexão é observada) do dsRNA é ≈60 nm (32), modelando as seções duplex como corpos rígidos é uma excelente aproximação. Os laços ss, em média, contêm aproximadamente seis bases ss, e assim estimamos que uma bolha típica tem aproximadamente três bases ss em cada lado; o comprimento de persistência da ssRNA é provavelmente semelhante ao da ssDNA, aproximadamente duas bases (33).
a Partir deste mapeamento entre estruturas secundárias e eficaz linear polímeros, segue-se que o Rg de uma ssRNA molécula com uma seqüência arbitrária deve ser determinada por Combinando a última equação com o nosso resultado anterior, 〈MLD〉 ∼ N0.67, rende Para um não-auto-evitando cadeia linear, ν = 0.5, caso em que, Rg ∼ N0.34; para uma auto-evitando cadeia linear, ν ≈ 0.6, dando Rg ∼ N0.40.esta abordagem pode ser ampliada através do mapeamento das estruturas secundárias ssRNA em um sistema de modelo de polímero alternativo que representa todos os caminhos possíveis através da estrutura, e, portanto, inclui todos os ramos. Para qualquer polímero ideal, linear ou ramificado, em que Lij é a distância ao longo da coluna vertebral entre os monómeros i e j (34). Procedendo como acima, obtemos onde Lij,eff foi substituído por LDij na segunda etapa. O ALD é a distância média da escada., a média das distâncias da escada N2 emparelhadas em uma estrutura secundária de RNA, e ALDLD é a sua média ensemble. Usando valores parald ALDLD calculados exatamente a partir das probabilidades de emparelhamento geradas pela RNAfold, repetimos a análise mostrada na Fig. 2. Os resultados são equivalentes, comld ALDLD N0.68±0.01 e Rg ∼ N0.34, e demonstram que as diferenças entre ssrnas aleatórias e virais são preservadas quando ramos são explicitamente incluídos (ver fig. 3 e as pontuações Z dos valores DELD ALD〉 na última coluna do Quadro 1). Tal como com a MLD, a ALD é robusta em relação ao modelo energético. Os resultados obtidos com o programa de dobragem simplificado (〈ALDLD N0.68±0, 01) são apresentados na Fig. S6.Fig. 3. o mesmo que a Fig. 2, mas comld ALDLD, calculado com RNAfold, substituindo 〈MLDLD. LD ALDLD é uma medida de tamanho que inclui explicitamente todos os ramos.