Articles

hur man läser PCA biplots och scree tomter

Principal component analysis (PCA) har vunnit popularitet som ett verktyg för att få fram starka mönster från komplexa biologiska datamängder. Vi har svarat på frågan ” Vad är en PCA?”i detta jargongfria blogginlägg-kolla in det för en enkel förklaring av hur PCA fungerar. I ett nötskal, PCA fånga essensen av data i några huvudkomponenter, som förmedlar mest variation i dataset.

figur 1. PCA tomt. För hur man läser det, se detta blogginlägg

PCA kasserar inte några prover eller egenskaper (variabler). Istället minskar det överväldigande antalet dimensioner genom att konstruera huvudkomponenter (PCs). PCs beskriver variation och redogör för de olika influenser av de ursprungliga egenskaperna. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Laddar plot

se hur dessa vektorer är fastsatta vid PC: s Ursprung (PC1 = 0 och PC2 = 0)? Deras projektvärden på varje dator visar hur mycket vikt de har på den datorn. I det här exemplet påverkar NPC2 och CHIT1 starkt PC1, medan GBA och LCAT har mer att säga i PC2.

en annan trevlig sak om att ladda tomter: vinklarna mellan vektorerna berättar hur egenskaper korrelerar med varandra. Låt oss titta på Figur 2.

  • när två vektorer är nära och bildar en liten vinkel, är de två variablerna de representerar positivt korrelerade. Exempel: APOD och PSAP
  • om de möter varandra vid 90 kg, kommer de sannolikt inte att korreleras. Exempel: NPC2 och GBA.
  • när de divergerar och bildar en stor vinkel (nära 180 kcal) är de negativa korrelerade. Exempel: NPC2 och MAG.

Nu när du vet allt det är det en bit kaka att läsa en PCA-biplot.

PCA biplot = PCA-poängplott + inläsningsplott

figur 3. PCA biplot

du märker förmodligen att en PCA-biplot helt enkelt sammanfogar en vanlig PCA-plot med en plot av belastningar. Arrangemanget är så här:

  • Bottenaxel: PC1-poäng.
  • vänster axel: PC2 poäng.
  • Toppaxel: belastningar på PC1.
  • höger axel: belastningar på PC2.

med andra ord är de vänstra och nedre axlarna av PCA — plottet-använd dem för att läsa PCA-poäng av proverna (prickar). De övre och högra axlarna hör till lastplanen — använd dem för att läsa hur starkt varje egenskap (vektor) påverkar huvudkomponenterna.

A scree plot visar hur mycket variation varje huvudkomponent fångar från data

a scree plot, å andra sidan, är ett diagnostiskt verktyg för att kontrollera om PCA fungerar bra på dina data eller inte. Huvudkomponenter skapas i ordning efter mängden variation de täcker: PC1 fångar mest variation, PC2-den näst mest, och så vidare. Var och en av dem bidrar med viss information om data, och i en PCA finns det lika många huvudkomponenter som det finns egenskaper. Lämnar ut datorer och vi förlorar information.

figur 4. PCA scree plot

den goda nyheten är att om de första två eller tre datorerna har fångat det mesta av informationen, kan vi ignorera resten utan att förlora något viktigt. En scree plot visar hur mycket variation varje dator fångar från data. Y-axeln är egenvärden, som i huvudsak står för mängden variation. Använd en scree tomt för att välja de viktigaste komponenterna för att hålla. En idealisk kurva ska vara brant och böjs sedan vid en ”armbåge” — det här är din avskärningspunkt-och efter det plattar ut. I Figur 4 räcker bara PC 1,2 och 3 för att beskriva data.

för att hantera en inte så idealisk scree-plotkurva finns det ett par sätt:

  1. Kaiser regel: välj datorer med egenvärden på minst 1.
  2. andel av variansdiagram: de valda datorerna ska kunna beskriva minst 80% av variansen.

om du slutar med för många huvudkomponenter (mer än 3) kanske PCA inte är det bästa sättet att visualisera dina data. I stället överväga andra dimensionsreduceringstekniker, såsom t-SNE och MDS.

i sammanfattning: en PCA-biplot visar både PC-poäng av prover (prickar) och belastningar av variabler (vektorer). Ju längre bort dessa vektorer är från ett PC-ursprung, desto mer inflytande har de på den datorn. Loading tomter antyder också hur variabler korrelerar med varandra: en liten vinkel innebär positiv korrelation, en stor antyder negativ korrelation, och en 90 kg vinkel indikerar ingen korrelation mellan två egenskaper. En scree plot visar hur mycket variation varje huvudkomponent fångar från data. Om de första två eller tre datorerna är tillräckliga för att beskriva kärnan i data, är scree-tomten en brant kurva som böjer sig snabbt och plattar ut.

letar du efter ett sätt att enkelt skapa PCA-biplotter och scree-tomter? Prova BioVinci, en dra och släpp programvara som kan köra PCA och rita allt som ingen verksamhet på bara några klick.