Articles

Volcano plot (statistics)

tilastoissa tulivuori plot on scatter-plot-tyyppi, jonka avulla voidaan nopeasti tunnistaa monistetuista tiedoista koostuvien suurten tietokokonaisuuksien muutokset. Se piirtää merkitys vs. fold-muutos on y ja x akselit, vastaavasti. Nämä tontit ovat yhä yleisempiä omic kokeissa, kuten genomiikka, proteomics, ja metabolomics jossa yksi usein on luettelo useita tuhansia toisinnettuja datapisteitä kahden ehdon välillä ja yksi haluaa nopeasti tunnistaa mielekkäimmät muutokset. Tulivuoren kuvaaja yhdistää tilastollisen merkitsevyyden mittarin tilastollisesta testistä (esim.anovan mallin p-arvo) muutoksen suuruuteen, mikä mahdollistaa näiden datapisteiden nopean visuaalisen tunnistamisen (geenit jne.), jotka näyttävät suuria muutoksia, jotka ovat myös tilastollisesti merkittäviä.

Volcano plot showing metabolomic data. Punaiset nuolet osoittavat kiinnostavia kohtia, jotka näyttävät sekä suuren suuruusluokan kertamuutokset (X-akseli) että suuren tilastollisen merkitsevyyden (-log10 p-arvo, y-akseli). Katkonainen punainen viiva näyttää missä p = 0,05, kun suoran yläpuolella olevat pisteet ovat p < 0,05 ja viivan alapuolella olevat pisteet, joilla on p > 0,05. Tämä juoni on värillinen siten, että ne kohdat, joilla on taittuva muutos alle 2 (log2 = 1) on esitetty harmaa.

tulivuoren juoni rakennetaan piirtämällä p-arvon negatiivinen loki y-akselille (yleensä pohja 10). Tämä johtaa datapisteisiin, joiden P-arvot ovat alhaiset (erittäin merkittävät), jotka ilmestyvät kuvaajan yläosaan. X-akseli on log taitteen muutos kahden ehdon välillä. Taitoksen muutoksen logia käytetään siten, että molempiin suuntiin tapahtuvat muutokset näkyvät yhtä kaukana keskustasta. Pisteiden piirtäminen tällä tavalla johtaa siihen, että juonessa on kaksi kiinnostavaa aluetta: ne pisteet, jotka löytyvät juonen yläosasta ja jotka ovat kaukana joko vasemmalla tai oikealla puolella. Nämä edustavat arvoja, jotka osoittavat suuria suuruusluokkaa kertainen muutoksia (siis vasemmalla tai oikealla keskellä) sekä suuri tilastollinen merkitys (siis kohti alkuun).

lisätietoa voidaan lisätä värittämällä pisteitä tiedon kolmannen ulottuvuuden (kuten signaalin voimakkuuden) mukaan, mutta tätä ei käytetä tasaisesti. Volcano tontteja käytetään myös graafisesti näyttää merkitys analyysi mikroarrays (SAM) geenin valintakriteeri, esimerkki Regularisointi.

tulivuoren kuvaajan käsite voidaan yleistää muihin sovelluksiin, joissa x-akseli liittyy tilastollisen signaalin voimakkuuden mittaamiseen ja y-akseli puolestaan signaalin tilastollisen merkitsevyyden mittaamiseen.Esimerkiksi geneettisen assosiaation tapauskontrollitutkimuksessa,kuten genomin laajuisessa assosiaatiotutkimuksessa, tulivuorijuonen piste edustaa yksinukleotidipolymorfismia.Sen X-arvo voi olla kertoimen suhde ja sen y-arvo voi olla-log10 P-arvosta Chi-neliön testaajalta a Chi-neliön testin tilastollinen.

tulivuoren kuvioilla on tyypillinen kahden varren muoto ylöspäin, koska x-akseli eli taustalla olevat log-fold-muutokset ovat yleensä normaalijakaumaa, kun taas y-akselilla eli log-p-arvoilla on yleensä suurempi merkitys nollasta voimakkaammin poikkeaville taitemuutoksille.Normaalijakauman tiheys on muotoa

y = e − x 2 {\displaystyle y=E^{-x^{2}}} {\displaystyle y=e^{-x^{2}}}.

joten l o g {\displaystyle log} logsiitä on

l o G ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

ja negatiivinen l o g {\displaystyle log} logis

− L O G ( Y ) = x 2 {\displaystyle-log(y)=x^{2}} {\displaystyle-log(y)=x^{2}}

, joka on paraabeli, jonka käsivarret ulottuvat ylöspäin vasemmalle ja oikealle puolelle.Datan ylärajana on yksi paraabeli ja alarajana toinen paraabeli.