Sådan læses PCA biplots og scree plots
Principal component analysis (PCA) har fået popularitet som et værktøj til at frembringe stærke mønstre fra komplekse biologiske datasæt. Vi har besvaret spørgsmålet ” Hvad er en PCA?”i dette jargon-gratis blogindlæg — tjek det ud for en simpel forklaring på, hvordan PCA fungerer. I en nøddeskal indfanger PCA essensen af dataene i nogle få hovedkomponenter, som formidler mest variation i datasættet.
figur 3. PCA biplot
du bemærker sandsynligvis, at en PCA biplot simpelthen fusionerer et sædvanligt PCA-plot med et plot af belastninger. Arrangementet er sådan:
- Bundakse: PC1 score.
- venstre akse: PC2 score.
- øverste akse: belastninger på PC1.
- højre akse: belastninger på PC2.
med andre ord er venstre og nederste akser af PCA — plottet-brug dem til at læse PCA-scoringer af prøverne (prikker). De øverste og højre akser hører til belastningsplottet — brug dem til at læse, hvor stærkt hver karakteristik (vektor) påvirker hovedkomponenterne.
et scree-plot viser, hvor meget variation hver hovedkomponent fanger fra dataene
et scree-plot er derimod et diagnostisk værktøj til at kontrollere, om PCA fungerer godt på dine data eller ej. Hovedkomponenter oprettes i rækkefølge efter mængden af variation, de dækker: PC1 fanger mest variation, PC2 — den næstmest osv. Hver af dem bidrager med nogle oplysninger om dataene, og i en PCA er der så mange hovedkomponenter, som der er egenskaber. Udelader pc ‘ er, og vi mister information.
figur 4. PCA scree plot
den gode nyhed er, hvis de første to eller tre pc ‘ er har fanget det meste af informationen, så kan vi ignorere resten uden at miste noget vigtigt. En scree plot viser, hvor meget variation hver PC fanger fra dataene. Y-aksen er egenværdier, som i det væsentlige står for mængden af variation. Brug en scree plot til at vælge de vigtigste komponenter til at holde. En ideel kurve skal være stejl og bøjes derefter ved en “albue” — dette er dit afskæringspunkt-og derefter flader det ud. I figur 4 er kun PC 1,2 og 3 nok til at beskrive dataene.
for at håndtere en ikke-så-ideel scree-plotkurve er der et par måder:
- Kaiser-regel: Vælg pc ‘ er med egenværdier på mindst 1.
- andel af varians plot: de valgte pc ‘ er skal kunne beskrive mindst 80% af variansen.
Hvis du ender med for mange hovedkomponenter (mere end 3), er PCA muligvis ikke den bedste måde at visualisere dine data på. I stedet overveje andre dimension reduktion teknikker, såsom t-SNE og MDS.
sammenfattende: en PCA-biplot viser både PC-scoringer af prøver (prikker) og belastninger af variabler (vektorer). Jo længere væk disse vektorer er fra en PC-oprindelse, jo mere indflydelse har de på den PC. Indlæsning af plots antyder også, hvordan variabler korrelerer med hinanden: en lille vinkel indebærer positiv korrelation, en stor antyder negativ korrelation, og en 90 liter vinkel indikerer ingen sammenhæng mellem to egenskaber. En scree plot viser, hvor meget variation hver hovedkomponent fanger fra dataene. Hvis de første to eller tre pc ‘ er er tilstrækkelige til at beskrive essensen af dataene, er scree-plottet en stejl kurve, der bøjer hurtigt og flader ud.
Leder du efter en måde at oprette PCA biplots og scree plots nemt? Prøv BioVinci, et træk og slip-program, der kan køre PCA og plotte alt som ingen forretning med blot et par klik.