Articles

Gráfico de volcanes (estadísticas)

En estadística, un gráfico de volcanes es un tipo de gráfico de dispersión que se utiliza para identificar rápidamente cambios en grandes conjuntos de datos compuestos de datos replicados. Traza el significado versus el cambio de pliegue en los ejes y y x, respectivamente. Estas gráficas son cada vez más comunes en experimentosicicos como genómica, proteómica y metabolómica, donde a menudo se tiene una lista de muchos miles de puntos de datos replicados entre dos condiciones y se desea identificar rápidamente los cambios más significativos. Una gráfica de volcán combina una medida de significación estadística de una prueba estadística (por ejemplo, un valor p de un modelo ANOVA) con la magnitud del cambio, lo que permite una rápida identificación visual de esos puntos de datos (genes, etc.).) que muestran cambios de gran magnitud que también son estadísticamente significativos.

Volcán parcela mostrando metabolómico de datos. Las flechas rojas indican puntos de interés que muestran cambios de pliegue de gran magnitud (eje x) y alta significación estadística (- log10 de valor p, eje y). La línea roja discontinua muestra donde p = 0,05 puntos por encima de la línea de p < 0,05 puntos por debajo de la línea de p > 0.05. Este gráfico está coloreado de tal manera que los puntos que tienen un cambio de pliegue inferior a 2 (log2 = 1) se muestran en gris.

Una gráfica de volcán se construye trazando el logaritmo negativo del valor de p en el eje y (generalmente base 10). Esto da como resultado puntos de datos con valores de p bajos (muy significativos) que aparecen hacia la parte superior de la gráfica. El eje x es el registro del cambio de pliegue entre las dos condiciones. El registro del cambio de pliegue se utiliza para que los cambios en ambas direcciones parezcan equidistantes desde el centro. Trazar puntos de esta manera da como resultado dos regiones de interés en la trama: aquellos puntos que se encuentran hacia la parte superior de la trama que están lejos de los lados izquierdo o derecho. Estos representan valores que muestran cambios de pliegue de gran magnitud (por lo tanto, a la izquierda o a la derecha del centro), así como una alta significación estadística (por lo tanto, hacia la parte superior).

Se puede agregar información adicional coloreando los puntos de acuerdo con una tercera dimensión de datos (como la intensidad de la señal), pero esto no se emplea de manera uniforme. Las gráficas volcánicas también se utilizan para mostrar gráficamente un análisis de significación del criterio de selección de genes de microarrays (SAM), un ejemplo de regularización.

El concepto de diagrama volcánico se puede generalizar a otras aplicaciones, donde el eje x se relaciona con una medida de la fuerza de una señal estadística, y el eje y se relaciona con una medida de la significación estadística de la señal.Por ejemplo, en un estudio de casos y controles de asociación genética,como el estudio de asociación de todo el genoma, un punto en un diagrama volcánico representa un polimorfismo de un solo nucleótido.Su valor x puede ser la razón de probabilidades y su valor y puede ser-log10 del valor p de un testador Chi-cuadrado una estadística de prueba Chi-cuadrado.

Las gráficas volcánicas muestran una forma característica de dos brazos hacia arriba porque el eje x, es decir, los cambios de plegado de troncos subyacentes, generalmente son de distribución normal, mientras que el eje y, los valores de log-p, tienden a una mayor importancia para los cambios de plegado que se desvían más fuertemente de cero.La densidad de la distribución normal tiene la forma

y = e − x 2 {\displaystyle y=e^{-x^{2}}} {\displaystyle y=e^{-x^{2}}}.

Para el l o g {\displaystyle log} iniciar sesiónde que es

l o g ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

y el negativo l o g {\displaystyle log} iniciar sesiónes

− l o g ( y ) = x 2 {\displaystyle -log(y)=x^{2}} {\displaystyle -log(y)=x^{2}}

que es una parábola cuyo alcance de los brazos upwardson los lados izquierdo y derecho.El límite superior de los datos es una parábola y el límite inferior es otra parábola.