4.ábra. PCA scree plot
a jó hír az, hogy ha az első két vagy három számítógép rögzíti az információk nagy részét, akkor a többit figyelmen kívül hagyhatjuk anélkül, hogy bármi fontosat elveszítenénk. A kavics grafikon megmutatja, hogy az egyes PC-k mennyi variációt rögzítenek az adatokból. Az y tengely sajátértékek, amelyek lényegében a variáció mértékét jelentik. Használja a kavics telek válassza ki a fő összetevők tartani. Az ideális görbének meredeknek kell lennie, majd egy “könyöknél” hajlik — ez a vágási pont -, majd ellaposodik. A 4. ábrán csak a PC 1,2 és a 3 elegendő az adatok leírásához.
ahhoz, hogy kezelni egy nem túl ideális kavics telek görbe, van egy pár módon:
- Kaiser szabály: pick PC sajátértékek legalább 1.
- variancia-diagram aránya: a kiválasztott PC-knek képesnek kell lenniük a variancia legalább 80% – ának leírására.
Ha a végén túl sok főkomponens (több mint 3), PCA lehet, hogy nem a legjobb módja annak, hogy láthatóvá az adatokat. Ehelyett fontolja meg más dimenziócsökkentési technikákat, például a t-SNE-t és az MDS-t.
összefoglalva: a PCA biplot mind a minták (pontok), mind a változók (Vektorok) terhelését mutatja. Minél távolabb vannak ezek a vektorok a PC eredetétől, annál nagyobb hatással vannak az adott PC-re. A terhelési diagramok arra is utalnak, hogy a változók hogyan korrelálnak egymással: egy kis szög pozitív korrelációt jelent, egy nagy negatív korrelációt sugall, és egy 90 MHz-es szög azt jelzi, hogy nincs korreláció két jellemző között. A kavics-diagram megmutatja, hogy az egyes főkomponensek mennyi variációt rögzítenek az adatokból. Ha az első két vagy három PCs elegendő az adatok lényegének leírására, akkor a kavicsdiagram egy meredek görbe, amely gyorsan meghajlik és ellaposodik.
keresi a módját, hogy hozzon létre PCA biplots és kavics telkek könnyen? Próbálja ki a BioVinci-t, egy drag and drop szoftvert, amely néhány kattintással Képes futtatni a PCA-t, és mindent úgy ábrázolni, mint senki vállalkozása.