Diagramme de volcan (statistiques)
En statistiques, un diagramme de volcan est un type de diagramme de dispersion qui est utilisé pour identifier rapidement les changements dans de grands ensembles de données composés de données répliquées. Il trace la signification par rapport au changement de pli sur les axes y et x, respectivement. Ces tracés sont de plus en plus courants dans les expériences omiques telles que la génomique, la protéomique et la métabolomique où l’on a souvent une liste de plusieurs milliers de points de données reproduits entre deux conditions et où l’on souhaite identifier rapidement les changements les plus significatifs. Un diagramme de volcan combine une mesure de la signification statistique d’un test statistique (par exemple, une valeur p d’un modèle ANOVA) avec l’ampleur du changement, permettant une identification visuelle rapide de ces points de données (gènes, etc.) qui affichent des changements de grande ampleur qui sont également statistiquement significatifs.
Un diagramme de volcan est construit en traçant le log négatif de la valeur p sur l’axe des ordonnées (généralement en base 10). Il en résulte des points de données avec de faibles valeurs de p (très significatives) apparaissant vers le haut du graphique. L’axe X est le journal du changement de pli entre les deux conditions. Le journal du changement de pli est utilisé pour que les changements dans les deux sens apparaissent à égale distance du centre. Tracer des points de cette manière entraîne deux régions d’intérêt dans l’intrigue: les points qui se trouvent vers le haut de l’intrigue et qui sont éloignés des côtés gauche ou droit. Ceux-ci représentent des valeurs qui affichent de grands changements de pli de magnitude (étant donc à gauche ou à droite du centre) ainsi qu’une signification statistique élevée (étant donc vers le haut).
Des informations supplémentaires peuvent être ajoutées en coloriant les points selon une troisième dimension de données (telle que l’intensité du signal), mais cela n’est pas utilisé uniformément. Les parcelles volcaniques sont également utilisées pour afficher graphiquement un critère de sélection des gènes de l’analyse de la signification des microarrays (SAM), un exemple de régularisation.
Le concept de diagramme de volcan peut être généralisé à d’autres applications, où l’axe des x est lié à une mesure de la force d’un signal statistique, et l’axe des y est lié à une mesure de la signification statistique du signal.Par exemple, dans une étude cas-témoins d’association génétique, telle qu’une étude d’association à l’échelle du génome, un point dans une parcelle de volcan représente un polymorphisme mononucléotidique.Sa valeur x peut être le rapport de cotes et sa valeur y peut être – log10 de la valeur p d’un test du Chi carré ou d’une statistique de test du Chi carré.
Les diagrammes volcaniques montrent une forme caractéristique de deux bras vers le haut, car l’axe des x, c’est-à-dire les changements de plis log sous-jacents, sont généralement de distribution normale, tandis que l’axe des y, les valeurs log-p, tendent vers une plus grande signification pour les changements de plis qui s’écartent plus fortement de zéro.La densité de la distribution normale prend la forme
y= e-x 2 {\displaystyle y= e^{-x^{2}}} .
Donc, le log de l o g {\displaystyle log} de celui−ci est
l o g(y)=-x 2 {\displaystyle log(y)=-x^{2}}
et le l o g négatif {\displaystyle log} est
-l o g(y) = x 2 {\displaystyle-log(y)= x^{2}}
qui est une parabole dont les bras atteignent vers le haut sur les côtés gauche et droit.La borne supérieure des données est une parabole et la borne inférieure est une autre parabole.