Articles

hoe PCA biplots en scree plots te lezen

Principal component analysis (PCA) wint aan populariteit als een hulpmiddel om sterke patronen uit complexe biologische datasets naar voren te brengen. We hebben de vraag ” Wat is een PSO?”in deze jargon-vrije blog post — check it out voor een eenvoudige uitleg van hoe PCA werkt. In een notendop legt PCA de essentie van de gegevens vast in een paar belangrijke componenten, die de meeste variatie in de dataset overbrengen.

figuur 1. PCA perceel. Voor het lezen, zie deze blogpost

PCA verwijdert geen monsters of kenmerken (variabelen). In plaats daarvan vermindert het het overweldigende aantal dimensies door de bouw van hoofdcomponenten (pc ‘ s). Pc ‘ s beschrijven variatie en houden rekening met de gevarieerde invloeden van de oorspronkelijke kenmerken. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Loading plot

zie je hoe deze vectoren worden vastgemaakt aan de oorsprong van PCs (PC1 = 0 en PC2 = 0)? Hun projectwaarden op elke PC laten zien hoeveel gewicht ze op die PC hebben. In dit voorbeeld hebben NPC2 en CHIT1 een sterke invloed op PC1, terwijl GBA en LCAT meer te zeggen hebben in PC2.

een ander leuk ding over het laden van plots: de hoeken tussen de vectoren vertellen ons hoe kenmerken met elkaar correleren. Laten we naar figuur 2 Kijken.

  • wanneer twee vectoren dichtbij zijn en een kleine hoek vormen, zijn de twee variabelen die zij vertegenwoordigen positief gecorreleerd. Bijvoorbeeld: APOD en PSAP
  • als ze elkaar bij 90° ontmoeten, zijn ze waarschijnlijk niet gecorreleerd. Voorbeeld: NPC2 en GBA.
  • wanneer ze uiteenlopen en een grote hoek vormen (bijna 180°), zijn ze negatief gecorreleerd. Voorbeeld: NPC2 en MAG.

nu je dat allemaal Weet, is het lezen van een PCA biplot een fluitje van een cent.

PCA biplot = PCA score plot + laden plot

Figuur 3. PCA biplot

u merkt waarschijnlijk dat een PCA biplot gewoon een gebruikelijke PCA-plot samenvoegt met een plot van loadings. De rangschikking is als volgt:

  • onderste as: PC1-score.
  • linkeras: PC2-score.
  • bovenste as: belasting op PC1.
  • Rechteras: belasting op PC2.

met andere woorden, de linker — en onderste as zijn van de PCA-plot-gebruik ze om PCA-scores van de monsters (dots) te lezen. De bovenste en rechteras behoren tot het laadperceel — gebruik ze om te lezen hoe sterk elke karakteristiek (vector) de belangrijkste componenten beà nvloedt.

een scree plot geeft aan hoeveel variatie elke hoofdcomponent opvangt van de gegevens

een scree plot, aan de andere kant, is een diagnostisch hulpmiddel om te controleren of PCA goed werkt op uw gegevens of niet. Belangrijkste componenten worden gemaakt in volgorde van de hoeveelheid variatie die ze bestrijken: PC1 vangt de meeste variatie, PC2 — de tweede meest, enzovoort. Elk van hen levert wat informatie van de gegevens, en in een PCA, zijn er zo veel belangrijkste componenten als er kenmerken zijn. Zonder pc ‘ s verliezen we informatie.

Figuur 4. PCA scree plot

het goede nieuws is dat als de eerste twee of drie pc ‘ s de meeste informatie hebben vastgelegd, we de rest kunnen negeren zonder iets belangrijks te verliezen. Een scree plot laat zien hoeveel variatie elke PC vangt van de gegevens. De Y-as is eigenwaarden, die in wezen staan voor de hoeveelheid variatie. Gebruik een scree plot om de belangrijkste componenten te selecteren om te behouden. Een ideale bocht moet steil zijn, dan buigt op een” elleboog ” — dit is uw snijpunt-en daarna vlakt uit. In Figuur 4 zijn alleen PC 1,2 en 3 voldoende om de gegevens te beschrijven.

om te gaan met een niet-zo-ideale scree plot curve, zijn er een paar manieren:

  1. Kaiser regel: pcs kiezen met eigenwaarden van ten minste 1.
  2. percentage variantieperceel: de geselecteerde pc ‘ s moeten ten minste 80% van de variantie kunnen beschrijven.

als u te veel hoofdcomponenten hebt (meer dan 3), is PCA misschien niet de beste manier om uw gegevens te visualiseren. In plaats daarvan, overwegen andere dimensie vermindering technieken, zoals t-SNE en MDS.

samengevat: een biplot PCA toont zowel PC-scores van monsters (dots) als loadings van variabelen (vectoren). Hoe verder weg deze vectoren zijn van een PC oorsprong, hoe meer invloed ze hebben op die PC. Laadpercelen geven ook aan hoe variabelen met elkaar correleren: een kleine hoek impliceert een positieve correlatie, een grote wijst op een negatieve correlatie, en een hoek van 90° wijst op geen correlatie tussen twee kenmerken. Een scree plot toont hoeveel variatie elke hoofdcomponent vangt van de gegevens. Als de eerste twee of drie pc ‘ s voldoende zijn om de essentie van de gegevens te beschrijven, is de scree plot een steile curve die snel buigt en afvlakt.

Op zoek naar een manier om PCA tweeplots en scree plots gemakkelijk te maken? Probeer BioVinci, een drag and drop software die PCA kan draaien en plot alles als niemands bedrijf in slechts een paar klikken.