Articles

Sådan læses PCA biplots og scree plots

Principal component analysis (PCA) har fået popularitet som et værktøj til at frembringe stærke mønstre fra komplekse biologiske datasæt. Vi har besvaret spørgsmålet ” Hvad er en PCA?”i dette jargon-gratis blogindlæg — tjek det ud for en simpel forklaring på, hvordan PCA fungerer. I en nøddeskal indfanger PCA essensen af dataene i nogle få hovedkomponenter, som formidler mest variation i datasættet.

figur 1. PCA plot. For hvordan man læser det, se dette blogindlæg

PCA kasserer ikke nogen prøver eller egenskaber (variabler). I stedet reducerer det det overvældende antal dimensioner ved at konstruere hovedkomponenter (pc ‘ er). Pc ‘ er beskriver variation og redegør for de forskellige påvirkninger af de oprindelige egenskaber. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Loading plot

se hvordan disse vektorer er fastgjort ved oprindelsen af pc ‘ er (PC1 = 0 og PC2 = 0)? Deres projektværdier på hver PC viser, hvor meget vægt de har på den PC. I dette eksempel påvirker NPC2 og CHIT1 stærkt PC1, mens GBA og LCAT har mere indflydelse på PC2.

en anden god ting ved indlæsning af plots: vinklerne mellem vektorerne fortæller os, hvordan egenskaber korrelerer med hinanden. Lad os se på figur 2.

  • når to vektorer er tætte og danner en lille vinkel, er de to variabler, de repræsenterer, positivt korreleret. Eksempel: APOD og PSAP
  • hvis de møder hinanden ved 90 liter, er de sandsynligvis ikke korrelerede. Eksempel: NPC2 og GBA.
  • når de afviger og danner en stor vinkel (tæt på 180 liter), er de negative korrelerede. Eksempel: NPC2 og MAG.

nu hvor du ved alt det, er det at læse en PCA-biplot et stykke kage.

PCA biplot = PCA score plot + loading plot

figur 3. PCA biplot

du bemærker sandsynligvis, at en PCA biplot simpelthen fusionerer et sædvanligt PCA-plot med et plot af belastninger. Arrangementet er sådan:

  • Bundakse: PC1 score.
  • venstre akse: PC2 score.
  • øverste akse: belastninger på PC1.
  • højre akse: belastninger på PC2.

med andre ord er venstre og nederste akser af PCA — plottet-brug dem til at læse PCA-scoringer af prøverne (prikker). De øverste og højre akser hører til belastningsplottet — brug dem til at læse, hvor stærkt hver karakteristik (vektor) påvirker hovedkomponenterne.

et scree-plot viser, hvor meget variation hver hovedkomponent fanger fra dataene

et scree-plot er derimod et diagnostisk værktøj til at kontrollere, om PCA fungerer godt på dine data eller ej. Hovedkomponenter oprettes i rækkefølge efter mængden af variation, de dækker: PC1 fanger mest variation, PC2 — den næstmest osv. Hver af dem bidrager med nogle oplysninger om dataene, og i en PCA er der så mange hovedkomponenter, som der er egenskaber. Udelader pc ‘ er, og vi mister information.

figur 4. PCA scree plot

den gode nyhed er, hvis de første to eller tre pc ‘ er har fanget det meste af informationen, så kan vi ignorere resten uden at miste noget vigtigt. En scree plot viser, hvor meget variation hver PC fanger fra dataene. Y-aksen er egenværdier, som i det væsentlige står for mængden af variation. Brug en scree plot til at vælge de vigtigste komponenter til at holde. En ideel kurve skal være stejl og bøjes derefter ved en “albue” — dette er dit afskæringspunkt-og derefter flader det ud. I figur 4 er kun PC 1,2 og 3 nok til at beskrive dataene.

for at håndtere en ikke-så-ideel scree-plotkurve er der et par måder:

  1. Kaiser-regel: Vælg pc ‘ er med egenværdier på mindst 1.
  2. andel af varians plot: de valgte pc ‘ er skal kunne beskrive mindst 80% af variansen.

Hvis du ender med for mange hovedkomponenter (mere end 3), er PCA muligvis ikke den bedste måde at visualisere dine data på. I stedet overveje andre dimension reduktion teknikker, såsom t-SNE og MDS.

sammenfattende: en PCA-biplot viser både PC-scoringer af prøver (prikker) og belastninger af variabler (vektorer). Jo længere væk disse vektorer er fra en PC-oprindelse, jo mere indflydelse har de på den PC. Indlæsning af plots antyder også, hvordan variabler korrelerer med hinanden: en lille vinkel indebærer positiv korrelation, en stor antyder negativ korrelation, og en 90 liter vinkel indikerer ingen sammenhæng mellem to egenskaber. En scree plot viser, hvor meget variation hver hovedkomponent fanger fra dataene. Hvis de første to eller tre pc ‘ er er tilstrækkelige til at beskrive essensen af dataene, er scree-plottet en stejl kurve, der bøjer hurtigt og flader ud.

Leder du efter en måde at oprette PCA biplots og scree plots nemt? Prøv BioVinci, et træk og slip-program, der kan køre PCA og plotte alt som ingen forretning med blot et par klik.