Principal component analysis (PCA) har vunnit popularitet som ett verktyg för att få fram starka mönster från komplexa biologiska datamängder. Vi har svarat på frågan ” Vad är en PCA?”i detta jargongfria blogginlägg-kolla in det för en enkel förklaring av hur PCA fungerar. I ett nötskal, PCA fånga essensen av data i några huvudkomponenter, som förmedlar mest variation i dataset.
figur 1. PCA tomt. För hur man läser det, se detta blogginlägg
PCA kasserar inte några prover eller egenskaper (variabler). Istället minskar det överväldigande antalet dimensioner genom att konstruera huvudkomponenter (PCs). PCs beskriver variation och redogör för de olika influenser av de ursprungliga egenskaperna. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.
A loading plot shows how strongly each characteristic influences a principal component.
Figure 2. Laddar plot
se hur dessa vektorer är fastsatta vid PC: s Ursprung (PC1 = 0 och PC2 = 0)? Deras projektvärden på varje dator visar hur mycket vikt de har på den datorn. I det här exemplet påverkar NPC2 och CHIT1 starkt PC1, medan GBA och LCAT har mer att säga i PC2.
en annan trevlig sak om att ladda tomter: vinklarna mellan vektorerna berättar hur egenskaper korrelerar med varandra. Låt oss titta på Figur 2.
när två vektorer är nära och bildar en liten vinkel, är de två variablerna de representerar positivt korrelerade. Exempel: APOD och PSAP
om de möter varandra vid 90 kg, kommer de sannolikt inte att korreleras. Exempel: NPC2 och GBA.
när de divergerar och bildar en stor vinkel (nära 180 kcal) är de negativa korrelerade. Exempel: NPC2 och MAG.
Nu när du vet allt det är det en bit kaka att läsa en PCA-biplot.