Articles

Volcano plot (statistikk)

i statistikk er en vulkan plot en type scatter-plot som brukes til raskt å identifisere endringer i store datasett sammensatt av replikatdata. Det plotter betydning versus fold-endring på y og x aksene, henholdsvis. Disse plottene blir stadig vanligere i omiske eksperimenter som genomikk, proteomikk og metabolomikk hvor man ofte har en liste over mange tusen replikatdatapunkter mellom to forhold og man ønsker å raskt identifisere de mest meningsfulle endringene. Et vulkanplott kombinerer et mål på statistisk signifikans fra en statistisk test (f.eks. en p-verdi fra EN ANOVA-modell) med størrelsen på endringen, noe som muliggjør rask visuell identifisering av disse datapunktene (gener, etc.) som viser store størrelsesendringer som også er statistisk signifikante.

Vulkanplott som viser metabolomiske data. De røde pilene indikerer interessepunkter som viser både store størrelsesendringer (x-akse) og høy statistisk signifikans (- log10 av p-verdi, y-akse). Den stiplede røde linjen viser hvor p = 0,05 med punkter over linjen som har p < 0,05 og punkter under linjen som har p > 0,05. Denne plottet er farget slik at de punktene som har en fold-endring mindre enn 2 (log2 = 1) vises i grått.

en vulkanplot er konstruert ved å plotte den negative loggen av p-verdien på y-aksen (vanligvis base 10). Dette resulterer i datapunkter med lave p-verdier (svært signifikante) som vises mot toppen av plottet. X-aksen er loggen for foldeskiftet mellom de to forholdene. Loggen til foldeendringen brukes slik at endringer i begge retninger vises like langt fra midten. Plotting poeng på denne måten resulterer i to regioner av interesse i tomten: de punktene som er funnet mot toppen av tomten som er langt til enten venstre eller høyre side. Disse representerer verdier som viser store størrelsesendringer (dermed venstre eller høyre for midten), samt høy statistisk signifikans (dermed mot toppen).Ytterligere informasjon kan legges til ved å fargelegge punktene i henhold til en tredje dimensjon av data( for eksempel signalintensitet), men dette er ikke ensartet ansatt. Vulkanplott brukes også til grafisk å vise en signifikansanalyse av mikroarrays (SAM) genvalgskriterium, et eksempel på regularisering.begrepet vulkanplot kan generaliseres til andre applikasjoner, hvor x-aksen er relatert til et mål påstyrken til et statistisk signal, og y-aksen er relatert til et mål på signalets statistiske signifikans.For eksempel, i en genetisk assosiasjon case-control studie, slik Som Genom-wide association studie,et punkt i en vulkan plot representerer en enkelt-nukleotid polymorfisme.X-verdien kan være oddsforholdet og y-verdien kan være-log10 av p-verdien fra En Chi-kvadratisk testor en Chi-kvadratisk teststatistikk.

Volcano plott viser en karakteristisk oppoverto arm form fordix-aksen, dvs. de underliggende log-fold endringer, er generelt normal fordeling mens y-aksen, log – p verdier, tendens mot større betydning for fold-endringer som avviker sterkere fra null.Tettheten til normalfordelingen tar formen

y = e-x 2 {\displaystyle y=e^{- x^{2}}}{\displaystyle y=e^{-x^{2}}}.

Så l o g {\displaystyle log} loggav dette er

l o g ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

og den negative l o g {\displaystyle Log} logger

− l o g ( y ) = x 2 {\displaystyle-log(y)=x^{2}} {\displaystyle-log(y)=x^{2}}

som er en parabel hvis armer når oppoverpå venstre og høyre side.Den øvre grensen til dataene er en parabolaog den nedre grensen er en annen parabola.