Hvordan lese PCA biplots og scree plots
Principal component analysis (PCA) har blitt stadig mer populært som et verktøy for å hente ut sterke mønstre fra komplekse biologiske datasett. Vi har besvart spørsmålet » Hva ER EN PCA ?»i dette sjargongfrie blogginnlegget-sjekk det ut for en enkel forklaring på HVORDAN PCA fungerer. I et nøtteskall fanger PCA essensen av dataene i noen få hovedkomponenter, som formidler mest variasjon i datasettet.
figur 1. PCA tomten. FOR hvordan du leser det, se dette blogginnlegget
PCA forkaster ikke noen prøver eller egenskaper (variabler). I stedet reduserer det overveldende antall dimensjoner ved å bygge hovedkomponenter (PCs). Pcer beskriver variasjon og redegjør for de varierte påvirkningene av de opprinnelige egenskapene. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.
A loading plot shows how strongly each characteristic influences a principal component.
Figure 2. Laster plot
Se hvordan disse vektorene er festet på Opprinnelsen Til Pcer (PC1 = 0 OG PC2 = 0)? Deres prosjektverdier på HVER PC viser hvor mye vekt de har på DEN PCEN. I dette eksemplet påvirker NPC2 og CHIT1 STERKT PC1, MENS GBA og LCAT har mer å si I PC2.
En annen fin ting om lasting av tomter: vinklene mellom vektorene forteller oss hvordan egenskaper korrelerer med hverandre. La Oss se På Figur 2.
- når to vektorer er nær, danner en liten vinkel, de to variablene de representerer er positivt korrelert. Eksempel: APOD og PSAP
- hvis de møter hverandre på 90°, er de sannsynligvis ikke korrelert. EKSEMPEL: NPC2 og GBA.
- når de divergerer og danner en stor vinkel (nær 180°), er de negative korrelert. EKSEMPEL: NPC2 og MAG.
Nå som du vet alt det, er det å lese EN PCA-biplot et stykke kake.
pca biplot = pca score plot + laster plot
figur 3. PCA biplot
Du merker sannsynligvis at EN PCA biplot bare fusjonerer et vanlig PCA-plott med et plott av belastninger. Arrangementet er slik:
- Bunnakse: PC1 score.
- Venstre akse: PC2 score.
- toppakse: belastninger PÅ PC1.
- Høyre akse: belastninger PÅ PC2.
med andre ord er venstre og nedre akser AV PCA-plottet-bruk dem til å lese pca-poeng av prøvene (prikker). Øvre og høyre akser tilhører lasteplottet-bruk dem til å lese hvor sterkt hver karakteristikk (vektor) påvirker hovedkomponentene.
et scree-plott viser hvor mye variasjon hver hovedkomponent fanger fra dataene
et scree-plott er derimot et diagnostisk verktøy for å sjekke OM PCA fungerer bra på dataene dine eller ikke. Hovedkomponenter er opprettet i rekkefølge av mengden variasjon de dekker: PC1 fanger mest variasjon, PC2-den nest mest, og så videre. Hver av dem bidrar med litt informasjon om dataene, og I EN PCA er det så mange hovedkomponenter som det er egenskaper. Utelater Pc-Er og vi mister informasjon.
figur 4. PCA scree plot
den gode nyheten er at hvis de to første Eller tre Pcene har fanget mesteparten av informasjonen, kan vi ignorere resten uten å miste noe viktig. Et scree-plott viser hvor mye variasjon HVER PC fanger fra dataene. Y-aksen er egenverdier, som i hovedsak står for mengden variasjon. Bruk et scree-plott for å velge hovedkomponentene som skal beholdes. En ideell kurve bør være bratt, så bøyer på en «albue» – dette er ditt avskjæringspunkt-og etter det flater ut. I Figur 4 ER BARE PC 1,2 og 3 nok til å beskrive dataene.
For å håndtere en ikke-så-ideell scree-plottkurve, er det et par måter:
- Kaiser rule: velg Pcer med egenverdier på minst 1.
- andel av varians plot: de valgte Pcene skal kunne beskrive minst 80% av variansen.
hvis du ender med for mange hovedkomponenter (mer enn 3), ER KANSKJE IKKE PCA den beste måten å visualisere dataene dine på. I stedet bør du vurdere andre dimensjonsreduksjonsteknikker, for eksempel t-SNE og MDS.
oppsummert: EN PCA biplot viser BÅDE pc score av prøver (prikker) og belastninger av variabler (vektorer). Jo lenger unna disse vektorene er FRA EN PC-opprinnelse, jo mer innflytelse har DE på DEN PCEN. Lasteplottene antyder også hvordan variabler korrelerer med hverandre: en liten vinkel innebærer positiv korrelasjon, en stor antyder negativ korrelasjon, og en 90° vinkel indikerer ingen korrelasjon mellom to egenskaper. Et scree-plott viser hvor mye variasjon hver hovedkomponent fanger fra dataene. Hvis de første to Eller tre Pcene er tilstrekkelig til å beskrive essensen av dataene, er scree-plottet en bratt kurve som bøyer seg raskt og flater ut.
Leter du etter en måte å lage PCA biplots og scree plots enkelt? Prøv BioVinci, en dra og slipp programvare som kan kjøre PCA og plotte alt som ingen virksomhet i bare noen få klikk.