Prédiction de la taille de molécules d’ARN de grande taille
Résultats
Les programmes de repliement d’ARN actuels sont connus pour avoir une précision limitée pour de longues séquences (26). Pour nos besoins, cependant, il n’est pas nécessaire que tous, ou même la plupart, des appariements individuels soient correctement prédits. Au contraire, les structures prédites doivent seulement être suffisamment précises pour capturer les caractéristiques à gros grains qui déterminent la taille 3D. Notre question devient donc la suivante: Peut-on prédire les tailles relatives des grands ARNSS à partir d’estimations de calcul des propriétés appropriées de leurs structures secondaires?
Pour faire de telles estimations, il faut identifier une caractéristique grossière de la structure secondaire qui dicte la taille 3D. La caractéristique unique d’une structure secondaire qui répond le plus évidemment, et directement, à ce critère est son « extension. » Figue. 1 A et B montrent, respectivement, des ARNS viraux et aléatoires d’apparence « typique » d’environ la même longueur. On peut voir que le ssRNA aléatoire est étonnamment plus étendu. Le ssRNA de la Fig. 1A provient d’un virus de la famille des Leviviridae. Des structures représentatives supplémentaires, issues des genres Bromovirus, Tymovirus et Tobamovirus, sont représentées aux Fig. S2 et S3.
Structures secondaires prédites des ARNSS. (A) Le phage des entérobactéries Qß (de la famille des Leviviridae) ssRNA. (B) arNSR permuté aléatoirement. Chacun mesure ≈4 000 nt de longueur et est représenté à la même échelle. Les MLDs de ces structures sont respectivement de 221 et 368. (Celles-ci sont représentatives de leurs moyennes d’ensemble respectives: LeMMLD of du phage Qß ssRNA est 240, et leMMLD of des SSRNA aléatoires à 4 000 bases est 361.) Les superpositions jaunes illustrent les chemins associés aux MLDs (voir le texte et l’exemple 50-nt représenté en C). Les valeurs 〈MLD were ont été calculées avec RNAsubopt; les chiffres ont été dessinés avec mfold.
Cette différence d’extension des structures secondaires se traduit par une différence de taille 3D. Pour évaluer l’extension en tant que caractéristique candidate, une mesure quantitative de cette propriété est requise. Bundschuh et Hwa ont introduit la distance d’échelle comme mesure de la distance entre les bases arbitraires dans les structures secondaires de l’ARNSS (27). La distance d’échelle, LDij, est le nombre de paires de bases (« échelons » sur une « échelle ») qui sont croisés le long du chemin le plus direct dans la structure secondaire qui relie les bases i et j. Comme les sections ds sont essentiellement des tiges rigides, alors que les sections ss sont des disquettes, seules les sections ds sont comptées dans cette mesure de distance. Pour caractériser la taille globale des structures secondaires d’ARN en utilisant une seule quantité, nous introduisons la distance d’échelle maximale (MLD), qui est la plus grande valeur de LDij pour toutes les combinaisons de i et j. En d’autres termes, c’est la distance d’échelle associée au plus long chemin direct à travers la structure secondaire. Ceci est illustré à la Fig. 1C, avec une structure secondaire MFE d’une séquence arbitraire de 50 nt de long, dont le MLD se trouve être 11. Les chemins MLD de cette structure secondaire et de ceux de la Fig. 1 A et B sont illustrés de superpositions jaunes.
Pour évaluer son utilité en tant que mesure prédictive de la taille, nous avons déterminé des valeurs MLD moyennes d’ensemble (〈MLD〉) dans six taxons viraux (listés dans le tableau 1), dont tous les virions sont simplement constitués d’un génome d’ARNSS enfermé dans une enveloppe protéique. Les virus de cinq des taxons ont chacun une coquille sphérique à rayon fixe (T = 3 icosaédriques) composée de 180 copies d’un seul produit génique, la protéine de capside. Leur taille varie de 3 000 à 7 000 nt, mais les diamètres extérieurs de leurs capsides sont tous de 26 à 28 nm (28, 29). En revanche, les virus du taxon restant, les Tobamovirus, s’assemblent en coquilles cylindriques de rayon fixe (18 nm) mais de longueur variable (en moyenne ≈300 nm). Ainsi, contrairement aux génomes des virus icosaédriques, ceux des Tobamovirus ne sont pas tenus de s’insérer dans une coquille de taille fixe ; des longueurs d’ARNSS plus longues conduisent simplement à des cylindres plus longs (diamètre fixe) (30). D’après notre conjecture de départ, on pourrait prédire que les Tobamovirus ne sont pas soumis à une pression sélective pour avoir des ARN particulièrement compacts. De plus, étant donné que les cinq taxons de virus icosaédriques ont des capsides d’environ la même taille, on pourrait s’attendre à ce que la divergence entre la taille des SSRNA viraux et aléatoires augmente avec la longueur de la séquence.
- Afficher en ligne
- Afficher la fenêtre contextuelle
Différences enMMLD〉s et 〈ALD〉s entre les séquences virales et aléatoires
La composition moyenne des ARNSN viraux individuels analysés ici (sans compter les Tymovirus, dont les compositions sont atypiques pour les virus examinés dans cette étude) est de 24,0% G, 22,1% C, 26,9% A et 27,0% U. Cependant, il faut tenir compte non seulement de la composition moyenne, mais aussi de l’écart moyen de composition entre les bases potentiellement capable de coupler, c’est-à-dire G et C, A et U, et G et U. Cet écart de composition (encore une fois, sans compter les Tymovirus) est de 2.9 points de pourcentage pour %G-% C, 2,9 pour% A-% U et 4,0 pour%G-% U (par exemple, si un ARNSV viral individuel contenait 22% G et 26% C, ou 26% G et 22% C, sa différence %G−% C serait de 4 points de pourcentage). Pour permettre un équilibre entre ces deux moyennes — les pourcentages de nucléotides et leurs différences pour les bases d’appariement — nous avons choisi la composition « semblable à un virus » 24% G, 22% C, 26% A et 28% U pour les séquences permutées aléatoirement. Avec cette composition, nous avons généré et analysé 500 séquences aléatoires de longueur 2 500 nt, 500 de longueur 3 000 nt et 300 dans chacune des longueurs 4 000, 5 000, 6 000 et 7 000 nt. LeLDMLD of de chaque séquence virale et aléatoire a été déterminé avec RNAsubopt.
Les valeurs 〈MLD〉 des ARN viraux icosaédriques sont systématiquement plus petites que celles des ARN aléatoires, comme on peut le voir dans le graphique log–log de 〈MLD v vs. longueur de séquence affiché à la Fig. 2. Chaque ARNSV viral individuel est désigné par un symbole indiquant son taxon. Les génomes des Bromovirus et des Cucomovirus sont multipartites; ils sont divisés en quatre ARNSS différents. Les résultats sont présentés pour les plus longs et les deuxièmes plus longs d’entre eux, identifiés par convention comme des ARN 1 et 2, qui se regroupent en capsides séparées (mais apparemment identiques). Également tracées sont la moyenne 〈MLD〉 (〈MLD〉) les valeurs des différentes longueurs de séquences aléatoires, et leur écart-type; le résultat est à peu près linéaire (R2 = 0.993), avec une pente indiquant 〈MLD〉 ∼ N0.67±0.01 plus de cette gamme.
Log – tracé du journal de lengthMLD v par rapport à la longueur de la séquence pour les ARNSS viraux et permutés aléatoirement. Les ARNSN viraux sont identifiés par les symboles énumérés dans la clé (Encart). Les Bromoviridae analysés ici proviennent des genres Bromovirus et Cucomovirus. La droite est un des moindres carrés correspondant aux valeurs compMLD comp calculées pour des séquences aléatoires de longueurs 2,500, 3,000, 4,000, 5,000, 6,000, et 7 000 nt; les lignes verticales montrent les écarts types. Les valeurs 〈MLD were ont été calculées avec RNAsubopt.
Ces relations de mise à l’échelle pour les SSRNA aléatoires sont proches de N0.69 variation obtenue numériquement par Bundschuh et Hwa pour une mesure de distance similaire, en utilisant un modèle d’énergie dans lequel seuls les appariements Watson–Crick sont autorisés, l’énergie d’interaction est la même pour toutes les paires, et l’entropie est ignorée (27). Leur mesure de distance est la distance en échelle entre la première et (N / 2 + 1)th base, moyennée sur toutes les structures de l’ensemble pour une séquence aléatoire de composition uniforme, puis sur de nombreuses séquences.
Pour chaque arNSS viral, nous avons calculé le score Z duLDMLD〉, c’est-à-dire, le nombre d’écarts types séparant ses 〈MLD from des valeurs prédites 〈MLD of de séquences aléatoires de longueur identique. Ce dernier est déterminé à partir de l’équation de régression tracée à la Fig. 2 (voir Texte SI). Le score Z moyen de chaque taxon est indiqué dans le tableau 1. Ceux des virus icosaédriques vont de -1,4 à -3,0, ce qui indique que leurs ARN ont des valeurs 〈MLD that différentes et plus petites que les valeurs predictedMLD predicted prédites pour des ARN aléatoires de longueur égale. En outre, une analyse de régression linéaire du score Z vs. la longueur de séquence des ARN viraux icosaédriques présente une pente négative significative avec un intervalle de confiance > de 95%, ce qui implique que la compacité relative de ces ARN, qui sont tous nécessaires pour s’insérer dans des capsides de taille approximativement identique, augmente avec la longueur de la séquence.
Le score Z moyen des valeurs 〈MLD of du Tobamovirus SSRNA est de +0,6. Il est frappant de constater que ces ARNSS, qui se regroupent en capsides cylindriques de longueur variable, ont des structures secondaires plus étendues et des valeurs -MLD – plus importantes que celles des virus icosaédriques. Tant pour les virus icosaédriques que pour les Tobamovirus, il semble y avoir une correspondance entre les structures secondaires prédites de leurs génomes (voir Fig. S3) et la taille et la forme des capsides dans lesquelles les génomes doivent s’adapter. Nous émettons l’hypothèse que, pour faciliter l’assemblage viral, les séquences d’arNSS de virus icosaédriques auto-assemblants ont évolué pour avoir des valeurs 〈MLD relatively relativement petites et que ces valeurs smallerMLD give plus petites donnent lieu à des valeurs Rg plus petites.
Ces résultats suggèrent que les différences trouvées entre les ARN viraux et aléatoires ne se produisent pas simplement parce que les ARN viraux sont d’origine biologique (chacun est un ARN messager au sens positif, traduit directement); sinon, on ne verrait pas de différence entre les résultats pour les virus icosaédriques et cylindriques. Pour examiner cela plus en détail, nous avons analysé 500 ARNSS qui sont les transcriptions de coupes consécutives de 3 000 bases sur les chromosomes XI et XII de la levure (S. cerevisiae). Ces séquences dérivées de levures ont été incluses pour représenter des ARN biologiques qui, bien qu’évolués, n’ont pas été soumis à des pressions sélectives pour avoir une taille et une forme globales particulières. Nos résultats, compilés dans le tableau 2, montrent que les valeurs 〈MLD of des ARN dérivés de la levure sont approximativement les mêmes que celles des ARN aléatoires, ce qui indique que les différences entre les ARNS aléatoires et viraux ne résultent pas uniquement de l’origine biologique de ces derniers.
- Afficher en ligne
- Afficher la fenêtre contextuelle
Composition-dépendance de 〈MLD〉
Comme mentionné précédemment, la composition des ARN aléatoires a été choisie pour correspondre, en moyenne, au plus près à celle des ARN viraux. Cependant, de nombreux ARN viraux individuels diffèrent significativement de la composition des ARN aléatoires, ce qui soulève la question de savoir si les mêmes différences deLDMLD would seraient observées si les ARN viraux étaient comparés chacun à des ARN aléatoires de composition identique. Pour tester la sensibilité à la composition des valeurs -MLD- des ARN aléatoires, nous avons analysé des ARN permutés aléatoirement à 3000 bases de composition uniforme (25% G, 25%C, 25% A, 25%U). Les résultats, listés dans le tableau 2, montrent que leLDMLD is est insensible aux petits changements de composition. De plus, la composition moyenne des ARN de levure diffère significativement de celle des deux ensembles d’ARN aléatoires, mais leurs valeurs -MLD- sont approximativement les mêmes.
Quelle est la probabilité que les différences prédites deLDMLD between entre les ARN viraux et les ARN non viraux soient présentes dans les ARN réels? RNAsubopt et tous les programmes similaires qui prédisent la structure de l’ARN ont la capacité, en principe, de trouver toutes les structures possibles non pseudoknotées. Ainsi, la précision de RNAsubopt (sa capacité à échantillonner correctement à partir de l’ensemble) ne dépend pas des structures qu’il est capable de prédire (il peut toutes les prédire, sauf celles avec des pseudoknots), mais plutôt des énergies qu’il leur attribue, qui sont déterminées par son modèle énergétique. Comme mentionné précédemment, nous exigeons seulement que RNAsubopt soit suffisamment précis pour prédire les caractéristiques générales à gros grains de la structure secondaire de l’ARN, telles que 〈MLD〉. Pour évaluer si nos résultats sont spécifiques à RNAsubopt (et donc peut-être un artefact du modèle d’énergie particulier sur lequel RNAsubopt est basé), nous avons comparé les ARNSS viraux et aléatoires en utilisant mfold, qui est similaire à RNAsubopt mais diffère quelque peu dans son modèle d’énergie et les structures qu’il échantillonne de l’ensemble. Alors que les valeurs 〈MLD generated générées par RNAsubopt sont différentes des valeurs AMLD générées par mfold, les deux ont montré la même différence systématique de MLD entre SSRNA viraux et aléatoires, et approximativement les mêmes relations d’échelle pour les séquences aléatoires (AMLD ∼ N0.74±0.01 pour mfold, voir Fig. S4).
Pour tester davantage la robustesse de ces prédictions, nous avons comparé les ARNSR aléatoires et viraux à l’aide de notre programme simplifié de repliement de l’ARN. Ce programme ne détermine pas les structures secondaires individuelles et, par conséquent, ne permet pas le calcul deMMLD〉. Cependant, il détermine les probabilités d’appariement, ce qui permet de calculer la distance moyenne maximale d’échelle (MALD) de l’ensemble des structures, qui est la valeur maximale des moyennes d’ensemble des N2 distances d’échelle associées à chaque séquence à N bases. Nous constatons que ce programme — comme ceux discutés ci-dessus, qui sont basés sur des affectations d’énergie plus réalistes – prédit également des différences systématiques entre les ARN aléatoires et les ARN viraux, donnant des valeurs MALD plus petites pour les séquences virales que pour les séquences non virales (voir Fig. S5). Ainsi, même un modèle énergétique très simplifié qui ne prend en compte que les interactions plus proches du voisin suffit à révéler une différence fondamentale entre les structures secondaires des séquences d’arNSR virales et des séquences d’arNSR permutées aléatoirement. Avec ce modèle simplifié, pour des séquences aléatoires de longueurs 2 000 à 4 000, MALD ∼ N0.66±0,02.
Les programmes de pliage que nous utilisons ne peuvent pas produire de structures contenant des pseudoknots. Bien que les pseudoknots soient connus pour se produire dans les ARN viraux, tels que ceux qui forment des structures de type ARNt 3′ terminaux (8), ils sont généralement locaux (impliquant des bases séparées par < 102 nt le long de la séquence); en conséquence, les ignorer ne devrait pas affecter de manière significative notre prédiction de la taille globale. Des preuves ont été trouvées pour des pseudoknots à plus longue portée, tels que des épingles à cheveux embrassant reliant des bases séparées par jusqu’à 400 nt (31), mais même celles-ci sont proches de la longueur totale des génomes viraux. Dans tous les cas, notre objectif est de développer un modèle théorique d’ordre zéro qui capture les déterminants de la taille globale, avec des pseudoknots, des épingles à cheveux embrassantes et d’autres détails inclus plus tard si nécessaire.
Pour traduire 〈MLD into en Rg, il est utile de mapper les structures secondaires de l’ARN sur des modèles de polymères dont les statistiques de configuration sont bien comprises, tels que les polymères linéaires idéaux et « étoiles ». En utilisant l’idéalisation la plus simple, comme dans le modèle de chaîne librement articulée discuté ci-dessus, nous pouvons remplacer des structures comme les deux montrées à la Fig. 1 A et B par des chaînes linéaires dont les longueurs de contour effectives (Leff) sont données par leurs valeurs 〈MLD values. Pour compléter cette cartographie, nous modélisons les sections duplex comme les maillons rigides de la chaîne, et les renflements ss, les bulles et les boucles multibranches comme les joints flexibles qui les relient. La longueur effective de Kuhn (beff) est donc la longueur duplex moyenne dans la structure secondaire de l’ARNSS, propriété qui est approximativement la même (5 pb) pour toutes les séquences examinées. Cela correspond à une longueur moyenne de duplex d’ARN de 1 à 2 nm. Étant donné que la longueur de persistance (une mesure de l’échelle de longueur à laquelle la flexion est observée) de l’arNDD est ≈60 nm (32), la modélisation des sections duplex en tant que corps rigides est une excellente approximation. Les boucles ss contiennent en moyenne environ six bases ss, et nous estimons donc qu’une bulle typique a environ trois bases ss de chaque côté; la longueur de persistance de l’ARNSS est probablement similaire à celle de l’adNSS, environ deux bases (33).
À partir de cette cartographie entre les structures secondaires et les polymères linéaires efficaces, il s’ensuit que le Rg d’une molécule d’arNSS avec une séquence arbitraire doit être déterminé par En combinant la dernière équation avec notre résultat antérieur, 〈MLD〉 ∼N0.67, donne Pour une chaîne linéaire non auto-évitante, ν= 0,5, auquel cas, Rg ∼ N0.34 ; pour une chaîne linéaire auto-évitante, ν ≈ 0,6, ce qui donne Rg ∼ N0.40.
Cette approche peut être élargie en mappant les structures secondaires de l’arNSS sur un système de modèle de polymère alternatif qui tient compte de tous les chemins possibles à travers la structure, et inclut donc toutes les branches. Pour tout polymère idéal, linéaire ou ramifié, où Lij est la distance le long du squelette entre les monomères i et j (34). En procédant comme ci-dessus, nous obtenons où Lij, eff a été remplacé par LDij dans la deuxième étape. L’ALD est la distance moyenne de l’échelle, c’est-à-dire, la moyenne des distances d’échelle N2 par paires dans une structure secondaire d’ARN, etALALD is est sa moyenne d’ensemble. En utilisant des valeurs pourALALD calculated calculées exactement à partir des probabilités d’appariement générées par RNAfold, nous avons répété l’analyse illustrée à la Fig. 2. Les résultats sont équivalents, avec 〈ALD〉 ∼N0.68±0.01 et Rg ∼N0.34, et démontrent que les différences entre SSRNA aléatoires et viraux sont préservées lorsque les branches sont explicitement incluses (voir Fig. 3 et les scores Z des valeursALALD in dans la dernière colonne du tableau 1). Comme pour le MLD, l’ALD est robuste par rapport au modèle énergétique. Les résultats obtenus avec le programme de pliage simplifié (〈ALD〉 ∼N0.68±0.01) sont représentés à la Fig. S6.
Identique à la Fig. 2, mais avec 〈ALD,, calculé avec RNAfold, remplaçant 〈MLD〉. ALALD is est une mesure de taille qui inclut explicitement toutes les branches.