Articles

Volcano plot (statistics)

Nelle statistiche, un volcano plot è un tipo di scatter-plot che viene utilizzato per identificare rapidamente le modifiche in grandi insiemi di dati composti da dati replicati. Traccia il significato rispetto al cambiamento di piega sugli assi y e x, rispettivamente. Questi grafici sono sempre più comuni negli esperimenti omici come la genomica, la proteomica e la metabolomica in cui spesso si ha una lista di molte migliaia di punti di dati replicati tra due condizioni e si desidera identificare rapidamente i cambiamenti più significativi. Un diagramma di vulcano combina una misura di significatività statistica da un test statistico (ad esempio, un valore p da un modello ANOVA) con l’entità del cambiamento, consentendo una rapida identificazione visiva di quei punti dati (geni, ecc.) che mostrano grandi cambiamenti di grandezza che sono anche statisticamente significativi.

Grafico vulcano che mostra i dati metabolomici. Le frecce rosse indicano i punti di interesse che mostrano sia cambiamenti di piega di grande magnitudine (asse x) che di alta significatività statistica (-log10 del valore p, asse y). La linea rossa tratteggiata mostra dove p = 0.05 con punti sopra la linea con p <0.05 e punti sotto la linea con p> 0.05. Questa trama è colorata in modo tale che i punti con un cambiamento di piega inferiore a 2 (log2 = 1) siano mostrati in grigio.

Un grafico vulcano è costruito tracciando il registro negativo del valore p sull’asse y (di solito base 10). Ciò si traduce in punti dati con valori p bassi (altamente significativi) che appaiono verso l’alto della trama. L’asse x è il registro del cambiamento di piega tra le due condizioni. Il registro del cambiamento di piega viene utilizzato in modo che i cambiamenti in entrambe le direzioni appaiano equidistanti dal centro. Tracciando i punti in questo modo si ottengono due regioni di interesse nella trama: quei punti che si trovano verso la parte superiore della trama che sono lontani dai lati sinistro o destro. Questi rappresentano valori che mostrano cambiamenti di piega di grande grandezza (quindi a sinistra oa destra del centro) e un’elevata significatività statistica (quindi verso l’alto).

È possibile aggiungere ulteriori informazioni colorando i punti in base a una terza dimensione di dati (come l’intensità del segnale), ma questo non viene impiegato in modo uniforme. I diagrammi del vulcano inoltre sono usati per visualizzare graficamente un’analisi di significato del criterio di selezione del gene di microarrays (SAM), un esempio di regolarizzazione.

Il concetto di volcano plot può essere generalizzato ad altre applicazioni, in cui l’asse x è correlato a una misura della forza di un segnale statistico e l’asse y è correlato a una misura della significatività statistica del segnale.Ad esempio, in uno studio di case-control di associazione genetica,come lo studio di associazione a livello del genoma, un punto in un diagramma di vulcano rappresenta un polimorfismo a singolo nucleotide.Il suo valore x può essere il rapporto di probabilità e il suo valore y può essere-log10 del valore p da un test Chi-quadrato una statistica di test Chi-quadrato.

I grafici Volcano mostrano una caratteristica forma del braccio upwardstwo perchél’asse x, cioè i cambiamenti log-fold sottostanti, sono generalmente una distribuzione normale mentre l’asse y, i valori log-p, tendono a un significato maggiore per i cambiamenti di piega che si discostano più fortemente da zero.La densità della distribuzione normale assume la forma

y − e-x 2 {\displaystyle y=e^{- x ^ {2}}} {\displaystyle y=e^{-x^{2}}}.

i l o g o {\displaystyle log} accediè

l o g ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

e il negativo l o g {\displaystyle log} accediè

− l o g ( y ) = x 2 {\displaystyle -log(y)=x^{2}} {\displaystyle -log(y)=x^{2}}

che è una parabola in cui braccia raggiungere upwardson i lati sinistro e destro.Il limite superiore dei dati è una parabolae il limite inferiore è un’altra parabola.