Vulkandiagramm (Statistik)
In der Statistik ist ein Vulkandiagramm eine Art Streudiagramm, mit dem Änderungen in großen Datensätzen, die aus replizierten Daten bestehen, schnell identifiziert werden können. Es zeichnet die Signifikanz gegenüber der Faltänderung auf der y- bzw. der x-Achse auf. Diese Diagramme werden zunehmend in Omic-Experimenten wie Genomik, Proteomik und Metabolomik verwendet, bei denen man häufig eine Liste von vielen tausend replizierten Datenpunkten zwischen zwei Bedingungen hat und schnell die aussagekräftigsten Änderungen identifizieren möchte. Ein Vulkanplot kombiniert ein Maß statistischer Signifikanz aus einem statistischen Test (z. B. einen p-Wert aus einem ANOVA-Modell) mit der Größe der Änderung, wodurch eine schnelle visuelle Identifizierung dieser Datenpunkte (Gene usw.) ermöglicht wird.), die große Größenänderungen anzeigen, die auch statistisch signifikant sind.
Ein Vulkanplot wird erstellt, indem der negative Logarithmus des p-Wertes auf der y-Achse (normalerweise Basis 10) aufgetragen wird. Dies führt dazu, dass Datenpunkte mit niedrigen p-Werten (hochsignifikant) am oberen Rand des Diagramms angezeigt werden. Die x-Achse ist das Protokoll des Faltenwechsels zwischen den beiden Bedingungen. Das Protokoll des Faltenwechsels wird verwendet, so dass Änderungen in beiden Richtungen äquidistant von der Mitte erscheinen. Das Plotten von Punkten auf diese Weise führt zu zwei interessanten Bereichen im Plot: Die Punkte, die sich oben im Plot befinden und entweder weit links oder rechts liegen. Diese stellen Werte dar, die große Größenänderungen (also links oder rechts von der Mitte) sowie eine hohe statistische Signifikanz (also nach oben) aufweisen.Zusätzliche Informationen können hinzugefügt werden, indem die Punkte gemäß einer dritten Datendimension (z. B. Signalintensität) eingefärbt werden, dies wird jedoch nicht einheitlich verwendet. Diese Diagramme werden auch verwendet, um eine Signifikanzanalyse des Genauswahlkriteriums von Microarrays (SAM) grafisch darzustellen, ein Beispiel für die Regularisierung.
Das Konzept eines Plots kann auf andere Anwendungen verallgemeinert werden, wobei die x-Achse mit einem Maß für die Stärke eines statistischen Signals und die y-Achse mit einem Maß für die statistische Signifikanz des Signals zusammenhängt.Zum Beispiel stellt in einer Fall-Kontroll-Studie zur genetischen Assoziation, wie einer genomweiten Assoziationsstudie, ein Punkt in einem Genomdiagramm einen Einzelnukleotidpolymorphismus dar.Sein x-Wert kann das Odds Ratio sein und sein y-Wert kann -log10 des p-Wertes aus einem Chi-Quadrat-Test oder einer Chi-Quadrat-Teststatistik sein.
Die Diagramme zeigen eine charakteristische Form von zwei Armen nach oben, da die x-Achse, d. h. die zugrunde liegenden Log-Fold-Änderungen, im Allgemeinen normalverteilt sind, während die y-Achse, die log-p-Werte, für Falzänderungen, die stärker von Null abweichen, tendenziell eine größere Bedeutung haben.Die Dichte der Normalverteilung hat die Form
y = e – x 2 {\displaystyle y=e^{-x^{2}}} .
Also ist das log {\displaystyle log} davon
log (y ) = − x 2 {\displaystyle log(y)=-x^{2}}
und das negative log {\displaystyle log} ist
− l o g ( y ) = x 2 {\displaystyle -log(y)=x^{2}}
das ist eine Parabel, deren Arme nach oben reichenauf der linken und rechten Seite.Die obere Grenze der Daten ist eine Parabel und die untere Grenze ist eine andere Parabel.