Articles

Hogyan olvassuk el a PCA biplotokat és a kőtáblákat

a főkomponens-elemzés (PCA) egyre népszerűbb eszköz, amely erős mintákat hoz ki a komplex biológiai adatkészletekből. Megválaszoltuk a kérdést: “Mi az a PCA?”ebben a zsargon nélküli blogbejegyzésben-nézze meg a PCA működésének egyszerű magyarázatát. Dióhéjban, a PCA néhány fő összetevőben rögzíti az adatok lényegét, amelyek a legtöbb variációt közvetítik az adatkészletben.

1.ábra. PCA telek. Hogyan kell olvasni, lásd ezt a blogbejegyzést

a PCA nem dob el semmilyen mintát vagy jellemzőt (változót). Ehelyett a főkomponensek (PCs) felépítésével csökkenti a méretek túlnyomó számát. A PC-k leírják a variációkat, és figyelembe veszik az eredeti jellemzők Változatos hatásait. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Loading plot

nézze meg, hogy ezek a vektorok hogyan vannak rögzítve a PCs eredeténél (PC1 = 0 és PC2 = 0)? Az egyes PC-k projektértékei azt mutatják, hogy mekkora súlyuk van az adott számítógépen. Ebben a példában az NPC2 és a CHIT1 erősen befolyásolja a PC1-et, míg a GBA és az LCAT többet mond a PC2-ben.

egy másik szép dolog a telkek betöltésében: a vektorok közötti szögek megmondják, hogy a jellemzők hogyan korrelálnak egymással. Nézzük a 2. ábrát.

  • amikor két vektor közel van, kis szöget képezve, az általuk képviselt két változó pozitívan korrelál. Példa: Az APOD és a PSAP
  • Ha 90-nél találkoznak, akkor nem valószínű, hogy korrelálnak egymással. Példa: NPC2 és GBA.
  • amikor eltérnek egymástól és nagy szöget zárnak be (közel 180 db-hoz), negatív korrelációt mutatnak. Példa: NPC2 és MAG.

most, hogy mindezt tudod, a PCA biplot olvasása egy szelet torta.

PCA biplot = PCA score plot + loading plot

3.ábra. PCA biplot

valószínűleg észreveszi, hogy a PCA biplot egyszerűen egyesíti a szokásos PCA telket egy terhelési telekkel. Az elrendezés a következő:

  • alsó tengely: PC1 pontszám.
  • bal tengely: PC2 pontszám.
  • felső tengely: terhelések a PC1-en.
  • jobb tengely: terhelések a PC2-N.

más szavakkal, a bal és az alsó tengely a PCA-diagramhoz tartozik — használja őket a minták PCA-pontszámainak (pontok) olvasásához. A felső és a jobb tengelyek a terhelési diagramhoz tartoznak — ezek segítségével leolvasható, hogy az egyes jellemzők (Vektorok) milyen erősen befolyásolják a főkomponenseket.

A kavics telek mutatja, hogy mennyi variáció minden főkomponens rögzíti az adatokat

a kavics telek, másrészt, egy diagnosztikai eszköz, hogy ellenőrizze, hogy a PCA jól működik az adatokat, vagy sem. A főkomponensek az általuk lefedett variáció mennyiségének sorrendjében jönnek létre: a PC1 rögzíti a legtöbb variációt, a PC2 — a második legtöbbet stb. Mindegyikük hozzájárul az adatok bizonyos információihoz, és a PCA-ban annyi fő összetevő van, mint a jellemzők. Ha kihagyjuk a PC-ket, elveszítjük az információkat.

4.ábra. PCA scree plot

a jó hír az, hogy ha az első két vagy három számítógép rögzíti az információk nagy részét, akkor a többit figyelmen kívül hagyhatjuk anélkül, hogy bármi fontosat elveszítenénk. A kavics grafikon megmutatja, hogy az egyes PC-k mennyi variációt rögzítenek az adatokból. Az y tengely sajátértékek, amelyek lényegében a variáció mértékét jelentik. Használja a kavics telek válassza ki a fő összetevők tartani. Az ideális görbének meredeknek kell lennie, majd egy “könyöknél” hajlik — ez a vágási pont -, majd ellaposodik. A 4. ábrán csak a PC 1,2 és a 3 elegendő az adatok leírásához.

ahhoz, hogy kezelni egy nem túl ideális kavics telek görbe, van egy pár módon:

  1. Kaiser szabály: pick PC sajátértékek legalább 1.
  2. variancia-diagram aránya: a kiválasztott PC-knek képesnek kell lenniük a variancia legalább 80% – ának leírására.

Ha a végén túl sok főkomponens (több mint 3), PCA lehet, hogy nem a legjobb módja annak, hogy láthatóvá az adatokat. Ehelyett fontolja meg más dimenziócsökkentési technikákat, például a t-SNE-t és az MDS-t.

összefoglalva: a PCA biplot mind a minták (pontok), mind a változók (Vektorok) terhelését mutatja. Minél távolabb vannak ezek a vektorok a PC eredetétől, annál nagyobb hatással vannak az adott PC-re. A terhelési diagramok arra is utalnak, hogy a változók hogyan korrelálnak egymással: egy kis szög pozitív korrelációt jelent, egy nagy negatív korrelációt sugall, és egy 90 MHz-es szög azt jelzi, hogy nincs korreláció két jellemző között. A kavics-diagram megmutatja, hogy az egyes főkomponensek mennyi variációt rögzítenek az adatokból. Ha az első két vagy három PCs elegendő az adatok lényegének leírására, akkor a kavicsdiagram egy meredek görbe, amely gyorsan meghajlik és ellaposodik.

keresi a módját, hogy hozzon létre PCA biplots és kavics telkek könnyen? Próbálja ki a BioVinci-t, egy drag and drop szoftvert, amely néhány kattintással Képes futtatni a PCA-t, és mindent úgy ábrázolni, mint senki vállalkozása.