Articles

Wykres wulkanu (statystyki)

w statystykach Wykres wulkanu jest rodzajem wykresu rozproszonego, który służy do szybkiego identyfikowania zmian w dużych zbiorach danych złożonych z danych replikowanych. Rysuje znaczenie względem zmiany fałdowania na osiach y i x, odpowiednio. Wykresy te są coraz bardziej powszechne w eksperymentach omicznych, takich jak genomika, proteomika i metabolomika, gdzie często ma listę wielu tysięcy replikowanych punktów danych między dwoma warunkami i chce szybko zidentyfikować najbardziej znaczące zmiany. Wykres wulkanu łączy miarę istotności statystycznej z testu statystycznego (np. wartość p z modelu ANOVA) z wielkością zmiany, umożliwiając szybką identyfikację wizualną tych danych-punktów (genów itp.), które wykazują duże zmiany wielkości, które są również istotne statystycznie.

Wykres wulkanu pokazujący dane metabolomiczne. Czerwone strzałki wskazują interesujące punkty, które wyświetlają zarówno duże zmiany wielkości (oś x), jak i duże znaczenie statystyczne (- log10 wartości p, oś y). Przerywana czerwona linia pokazuje, gdzie p=0.05 z punktami nad linią o p < 0.05 i punktami poniżej linii o p > 0.05. Wykres jest zabarwiony w taki sposób, że punkty o zmianie fałdy mniejszej niż 2 (log2 = 1) są pokazane na szaro.

Wykres volcano jest skonstruowany przez wykreślenie ujemnego logarytmu wartości p na osi y (Zwykle o podstawie 10). Powoduje to, że punkty danych o niskich wartościach p (bardzo znaczących) pojawiają się w górnej części wykresu. Oś x jest logiem zmiany fałdu między tymi dwoma warunkami. Dziennik zmiany fałd jest używany tak, że zmiany w obu kierunkach pojawiają się w równej odległości od centrum. Punkty wykreślania w ten sposób prowadzą do dwóch obszarów zainteresowania na wykresie: tych punktów, które znajdują się w górnej części wykresu, które są daleko do lewej lub prawej strony. Reprezentują one wartości, które wyświetlają duże zmiany wielkości krotnie (stąd jest w lewo lub w prawo od centrum), jak również wysoką istotność statystyczną (stąd jest ku górze).

dodatkowe informacje można dodać, kolorując punkty zgodnie z trzecim wymiarem danych (np. natężenie sygnału), ale nie jest to jednolicie stosowane. Wykresy wulkanu są również wykorzystywane do graficznego wyświetlania analizy istotności kryterium selekcji genów mikromacierzy (SAM), przykład regularyzacji.

pojęcie wykresu wulkanu można uogólnić do innych zastosowań, gdzie oś x jest związana z miarą siły sygnału statystycznego, a oś y jest związana z miarą istotności statystycznej sygnału.Na przykład, w genetycznym powiązaniu case-control study, takim jak Genome-wide association study, punkt na wykresie wulkanu reprezentuje polimorfizm jednonukleotydowy.Jego wartość x może być ilorazem szans, a wartość Y może wynosić-log10 wartości p z testora Chi-kwadrat a statystyka testu Chi-kwadrat.

wykresy wulkanu wykazują charakterystyczny kształt ramienia w górę, ponieważ oś x, tj. podstawowe zmiany log-krotnie, są na ogół rozkładem normalnym, podczas gdy oś y, wartości log-p, mają tendencję do większego znaczenia dla zmian fałdowych, które odbiegają silniej od zera.Gęstość rozkładu normalnego ma postać

y = E − x 2 {\displaystyle y=E^{-x^{2}}} {\displaystyle y=E^{-x^{2}}}.

więc L o G {\displaystyle log} logtego jest

L o G ( y ) = − x 2 {\displaystyle log(y)=-X^{2}} {\displaystyle log(y)=-X^{2}}

i ujemne L o G {\displaystyle log} logto

− L O G ( Y ) = X 2 {\displaystyle-log(Y)=X^{2}} {\displaystyle-log(y)=x^{2}}

która jest parabolą, której ramiona sięgają do góry po lewą i prawą stronę.Górna granica danych jest jedną parabolą, a dolna jest drugą parabolą.