Articles

Volcano plot (statistics)

in statistieken is een volcano plot een type verstrooiingsplot dat wordt gebruikt om snel veranderingen te identificeren in grote datasets die bestaan uit replicaatgegevens. Het plot betekenis versus vouw-verandering op de Y en x assen, respectievelijk. Deze plots zijn steeds gemeenschappelijker in omic experimenten zoals genomics, proteomics, en metabolomics waar men vaak een lijst van vele duizenden herhaalde gegevenspunten tussen twee voorwaarden heeft en men wenst snel de betekenisvolste veranderingen te identificeren. Een vulkaan plot combineert een meting van statistische significantie uit een statistische test (bijvoorbeeld een p-waarde uit een ANOVA-model) met de grootte van de verandering, waardoor een snelle visuele identificatie van die data-punten (genen, enz.) die grote magnitude veranderingen vertonen die ook statistisch significant zijn.

Volcano plot toont metabolomische gegevens. De rode pijlen geven punten-van-belang die zowel grote magnitude fold-changes (X-as) en hoge statistische significantie (- log10 van p-waarde, Y-as). De gestreepte rode lijn toont waar p = 0,05 met punten boven de lijn met p < 0,05 en punten onder de lijn met p > 0,05. Deze plot is zo gekleurd dat de punten met een vouwverandering van minder dan 2 (log2 = 1) in grijs worden weergegeven.

een vulkaan plot wordt geconstrueerd door het plotten van de negatieve log van de p-waarde op de y-as (meestal basis 10). Dit resulteert in datapunten met lage p-waarden (zeer significant) verschijnen naar de top van het perceel. De x-as is de log van de vouwverandering tussen de twee voorwaarden. De log van de vouwverandering wordt gebruikt zodat veranderingen in beide richtingen op gelijke afstand van het centrum verschijnen. Het plotten van punten op deze manier resulteert in twee gebieden van belang in de plot: die punten die worden gevonden in de richting van de top van de plot die ver naar de linker – of rechterzijde. Deze vertegenwoordigen waarden die grote magnitude vouw veranderingen weer te geven (vandaar wordt links of rechts van het centrum) evenals een hoge statistische significantie (vandaar wordt naar de top).

aanvullende informatie kan worden toegevoegd door de punten in te kleuren volgens een derde dimensie van gegevens (zoals signaalintensiteit), maar dit wordt niet uniform gebruikt. Vulkaan plots worden ook gebruikt om grafisch een significantie analyse van microarrays (SAM) gen selectie criterium, een voorbeeld van regularisatie.

het begrip vulkaan plot kan worden veralgemeend naar andere toepassingen, waarbij de x-as gerelateerd is aan een maat van de sterkte van een statistisch signaal, en de y-as gerelateerd is aan een maat van de statistische significantie van het signaal.Bijvoorbeeld, in een genetische vereniging case-control studie, zoals genoom-brede vereniging studie,een punt in een vulkaan plot vertegenwoordigt een single-nucleotide polymorfisme.De x-waarde kan de odds ratio zijn en de y-waarde kan-log10 zijn van de p-waarde van een Chi-kwadraattestor een Chi-kwadraatteststatistiek.

Vulkaanpercelen vertonen een karakteristieke opwaartse tweearmvorm omdat de x-as, d.w.z. de onderliggende log-vouwveranderingen, over het algemeen een normale verdeling is, terwijl de y-as, de log-p-waarden, een grotere betekenis hebben voor vouwveranderingen die sterker afwijken van nul.De dichtheid van de normale verdeling neemt de vorm aan

y = e – x 2 {\displaystyle y = e^{- x^{2}}} {\displaystyle y = e^{- x^{2}}}.

Dus de l o g {\displaystyle log} logdat

l o g ( y ) = − x 2 {\displaystyle log(y)=-x^{2}} {\displaystyle log(y)=-x^{2}}

en de negatieve l o g {\displaystyle log} log

− l o g ( y ) = x 2 {\displaystyle -log(y)=x^{2}} {\displaystyle -log(y)=x^{2}}

dat is een parabool waarvan de armen bereiken upwardson de linker-en rechterkant.De bovengrens van de gegevens is één parabola en de ondergrens is een andere parabool.