Articles

Volcano plot (statistika)

ve statistice je Volcano plot typem scatter-plot, který se používá k rychlé identifikaci změn ve velkých datových sadách složených z replikovaných dat. Vykresluje význam oproti změně ohybu na osách y a x. Tyto pozemky jsou stále běžnější v hospodářské experimenty, jako je genomika, proteomika a metabolomika, kde jeden často má seznam mnoha tisíci replikaci dat bodů mezi dvěma podmínkami, a jeden si přeje, aby rychle identifikovat nejvýznamnější změny. Sopka děj kombinuje měření statistické významnosti ze statistického testu (např. hodnota p z ANOVA modelu), s je velikost změny, což umožňuje rychlé vizuální identifikaci těchto údajů-body (geny, atd.), které vykazují velké změny velikosti, které jsou také statisticky významné.

Volcano plot zobrazující metabolomická data. Červené šipky označují body zájmu, které zobrazují jak velké změny velikosti (osa x), tak vysokou statistickou významnost (- log10 hodnoty p, osa y). Přerušovaná červená čára ukazuje, kde p = 0,05 s body nad čarou s p < 0,05 a body pod čarou s p > 0.05. Tento graf je zbarven tak, že ty body, které mají změnu záhybu menší než 2 (log2 = 1), jsou zobrazeny šedě.

sopečný graf je konstruován vynesením záporného logaru hodnoty p na osu y (obvykle základ 10). Výsledkem jsou datové body s nízkými hodnotami p (vysoce významné), které se objevují směrem k horní části grafu. Osa x je protokol změny záhybu mezi dvěma podmínkami. Protokol změny záhybu se používá tak, aby se změny v obou směrech objevily ve stejné vzdálenosti od středu. Vynesením bodů tímto způsobem výsledky ve dvou oblastech zájmu v grafu: ty body, které se nacházejí směrem k horní části pozemku, které jsou daleko buď na levé nebo pravé straně. Ty představují hodnoty, které zobrazují velké změny velikosti (tedy vlevo nebo vpravo od středu), stejně jako vysokou statistickou významnost (tedy směrem nahoru).

Další informace mohou být přidány podle barvy bodů podle třetí dimenze dat (např. intenzitu signálu), ale to není rovnoměrně zaměstnán. Sopka pozemky jsou také používány, aby graficky zobrazit význam analysis of microarrays (SAM) gen kritériem výběru, příklad regularizace.

koncept sopky může být zobecněn na jiné aplikace, kde osa x souvisí s mírou síly statistického signálu a osa y souvisí s mírou statistické významnosti signálu.Například v genetické asociace case-control studie, jako je Genom-wide association studie,bod v sopce děj představuje jednotného nukleotidů polymorfismus.Jeho hodnota x může být poměr šancí a jeho hodnota y může být-log10 hodnoty p z chí-kvadrát testor a chí-kvadrát testovací statistika.

Sopka grafy ukazují charakteristické upwardstwo rameno tvar, protože osy x, tj. základní log-násobné změny, jsou obvykle normální rozdělení, vzhledem k tomu, že osy y, log-p hodnoty, mají tendenci k větší význam pro fold-změny, které se odchylují o více silně od nuly.Hustota normálního rozdělení má podobu

y = e − x 2 {\displaystyle y=e^{-x^{2}}} {\displaystyle y=e^{-x^{2}}}.

Takže l o g {\displaystyle log} log, která je

l o g ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

a negativní l o g {\displaystyle log} log

− l o g ( y ) = x 2 {\displaystyle -log(y)=x^{2}} {\displaystyle -log(y)=x^{2}}

což je parabola, jejíž dosah ruky upwardson levé a pravé strany.Horní hranice dat je jedna parabolaa dolní hranice je další parabola.