Articles

Volcano plot (statistik)

i statistik är en vulkanplott en typ av scatter-plot som används för att snabbt identifiera förändringar i stora datamängder som består av replikerade data. Det plottar betydelse kontra vikbyte på Y-respektive X-axlarna. Dessa tomter är allt vanligare i omic experiment såsom genomik, proteomik, och metabolomics där man ofta har en lista över tusentals replikera datapunkter mellan två villkor och man vill snabbt identifiera de mest meningsfulla förändringar. En vulkanplot kombinerar ett mått på statistisk signifikans från ett statistiskt test (t.ex. ett p-värde från en ANOVA-modell) med förändringens storlek, vilket möjliggör snabb visuell identifiering av dessa datapunkter (gener etc.) som visar stora storleksförändringar som också är statistiskt signifikanta.

Vulkanplot som visar metabolomiska data. De röda pilarna indikerar intressanta punkter som visar både stora storleksförändringar (x-axel) och hög statistisk signifikans (-log10 av p-värde, y-axel). Den streckade röda linjen visar var p = 0,05 med punkter ovanför linjen med p < 0,05 och punkter under linjen med p > 0,05. Denna plot är färgad så att de punkter som har en vikbyte mindre än 2 (log2 = 1) visas i grått.

en vulkanplot konstrueras genom att plotta den negativa loggen för p-värdet på y-axeln (vanligtvis bas 10). Detta resulterar i datapunkter med låga p-värden (mycket signifikanta) som visas mot toppen av diagrammet. X-axeln är loggen för vikförändringen mellan de två förhållandena. Loggen för vikändringen används så att förändringar i båda riktningarna visas lika långt från mitten. Plottning punkter på detta sätt resulterar i två regioner av intresse för tomten: de punkter som finns mot toppen av tomten som är långt till antingen vänster – eller höger sida. Dessa representerar värden som visar stora storleksförändringar (därmed vänster eller höger om mitten) samt hög statistisk signifikans (därmed mot toppen).

ytterligare information kan läggas till genom att färga punkterna enligt en tredje dimension av data (såsom signalintensitet), men detta används inte enhetligt. Vulkanplottor används också för att grafiskt visa en signifikansanalys av mikroarrays (SAM) genvalskriterium, ett exempel på regularisering.

begreppet vulkanplot kan generaliseras till andra tillämpningar, där x-axeln är relaterad till ett mått påStyrkan hos en statistisk signal och y-axeln är relaterad till ett mått på signalens statistiska betydelse.Till exempel, i en genetisk associeringsfallskontrollstudie,såsom Genomövergripande associeringsstudie, representerar en punkt i en vulkanplot en polymorfism med en nukleotid.Dess x-värde kan vara oddsförhållandet och dess y-värde kan vara-log10 av p-värdet från en Chi-square testor en Chi-square teststatistik.

Volcano tomter visar en karakteristisk upwardstwo arm form eftersomx-axeln, dvs de underliggande log-fold förändringar, är i allmänhet normalfördelning medan y-axeln, log-p-värden, tenderar mot större betydelse för fold-förändringar som avviker starkare från noll.Tätheten för normalfördelningen har formen

y = e-x 2 {\displaystyle y=e^{-x^{2}}} {\displaystyle y=e^{-x^{2}}}.

Så l o g {\displaystyle log} logav det är

L O g ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

och den negativa l o g {\displaystyle log} logär

− L O g ( y ) = x 2 {\displaystyle-log(y)=x^{2}} {\displaystyle-log(y)=x^{2}}

som är en parabel vars armar når uppåt på vänster och höger sida.Den övre gränsen för data är en parabolaoch den nedre gränsen är en annan parabola.