Articles

Volcano plot (statistik)

i statistik, en vulkan plot er en type scatter-plot, der bruges til hurtigt at identificere ændringer i store datasæt sammensat af replikere data. Det plotter betydning versus fold-ændring på henholdsvis Y og H akser. Disse plot er mere og mere almindelige i omiske eksperimenter som genomik, proteomik og metabolomik, hvor man ofte har en liste over mange tusinder af replikerede datapunkter mellem to betingelser, og man ønsker hurtigt at identificere de mest meningsfulde ændringer. Et vulkanplot kombinerer et mål for statistisk signifikans fra en statistisk test (f.eks. en p-værdi fra en ANOVA-model) med størrelsen af ændringen, hvilket muliggør hurtig visuel identifikation af disse datapunkter (gener osv.), der viser store størrelsesændringer, der også er statistisk signifikante.

Vulkanplot, der viser metabolomiske data. De røde pile angiver interessepunkter, der viser både store størrelsesændringer (aksen) og høj statistisk signifikans (-log10 af p-værdi, Y-akse). Den stiplede røde linje viser hvor p = 0,05 med punkter over linjen med p < 0,05 og punkter under linjen med p > 0,05. Dette plot er farvet således, at de punkter, der har en fold-ændring mindre end 2 (log2 = 1) er vist i gråt.

et vulkanplot konstrueres ved at plotte den negative log af p-værdien på y-aksen (normalt base 10). Dette resulterer i datapunkter med lave P-værdier (meget signifikante), der vises mod toppen af plottet. Aksen er loggen for foldeskiftet mellem de to betingelser. Loggen for foldeskiftet bruges således, at ændringer i begge retninger vises lige langt fra midten. Plotte punkter på denne måde resulterer i to regioner af interesse i plottet: de punkter, der findes mod toppen af plottet, der er langt til enten venstre – eller højre side. Disse repræsenterer værdier, der viser store størrelsesændringer (dermed venstre eller højre for midten) såvel som høj statistisk signifikans (dermed mod toppen).

yderligere oplysninger kan tilføjes ved at farve punkterne i henhold til en tredje dimension af data (såsom signalintensitet), men dette anvendes ikke ensartet. Vulkanplotter bruges også til grafisk at vise en signifikansanalyse af mikroarrays (SAM) genvalgskriterium, et eksempel på regulering.det er en af de mest almindelige årsager til, at en vulkan er et tegn på, at en vulkan er et tegn på, at der er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på, at en vulkan er et tegn på en vulkan.For eksempel i en genetisk forening case-control undersøgelse, såsom genom-dækkende association undersøgelse,et punkt i en vulkan plot repræsenterer en enkelt-nukleotid polymorfisme.Dens værdi kan være oddsforholdet, og dens y-værdi kan være-log10 af p-værdien fra en Chi-firkantet testeller en Chi-firkantet teststatistik.

Vulkanplotter viser en karakteristisk opad to armform, fordi h-aksen, dvs.de underliggende logfold-ændringer, generelt er normalfordeling, mens y-aksen, log-p-værdierne, har tendens til større betydning for fold-ændringer, der afviger stærkere fra nul.Densiteten af den normale fordeling tager form

y = e-H2 {\displaystyle y=e^{- H^{2}}} {\displaystyle y=E^{- H^{2}}}.

så l o g {\displaystyle log} logaf det er

l o g ( y ) = − s 2 {\displaystyle log(y)=-s^{2}} {\displaystyle log(y)=-s^{2}}

og den negative l o g {\displaystyle log} logis

− l o g ( y ) = s2 {\displaystyle-log(y)=s^{2}} {\displaystyle-log(y)=s^{2}}

som er en parabel, hvis arme når opadpå venstre og højre side.Den øvre grænse af dataene er en parabolaog den nedre grænse er en anden parabola.