cum se citesc biploturile PCA și parcelele grohotiș
analiza componentelor principale (PCA) a câștigat popularitate ca instrument pentru a scoate în evidență modele puternice din seturi de date biologice complexe. Am răspuns la întrebarea ” Ce este un PCA?”în acest post de blog fără jargon-verificați — l pentru o explicație simplă a modului în care funcționează PCA. Pe scurt, PCA captează esența datelor în câteva componente principale, care transmit cea mai mare variație a setului de date.
figura 1. Complot PCA. Pentru cum să-l citiți, consultați această postare pe blog
PCA nu renunță la eșantioane sau caracteristici (variabile). În schimb, reduce numărul copleșitor de dimensiuni prin construirea componentelor principale (PC-uri). PC-urile descriu variația și explică influențele variate ale caracteristicilor originale. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.
A loading plot shows how strongly each characteristic influences a principal component.
Figure 2. Vedeți cum acești vectori sunt fixați la originea PC-urilor (PC1 = 0 și PC2 = 0)? Valorile lor de proiect pe fiecare PC arată cât de mult greutate au pe acel PC. În acest exemplu, NPC2 și CHIT1 influențează puternic PC1, în timp ce GBA și LCAT au mai mult de spus în PC2.
un alt lucru frumos despre parcelele de încărcare: unghiurile dintre vectori ne spun cum se corelează caracteristicile între ele. Să ne uităm la Figura 2.
- când doi vectori sunt apropiați, formând un unghi mic, cele două variabile pe care le reprezintă sunt corelate pozitiv. Exemplu: APOD și PSAP
- în cazul în care se întâlnesc la 90 la sută, nu sunt susceptibile de a fi corelate. Exemplu: NPC2 și GBA.
- atunci când se diferențiază și formează un unghi mare (aproape de 180 de milimetri), ele sunt corelate negativ. Exemplu: NPC2 și MAG.
acum că știți toate acestea, citirea unui biplot PCA este o bucată de tort.
PCA biplot = PCA score plot + loading plot
figura 3. PCA biplot
probabil observați că un biplot PCA îmbină pur și simplu un complot PCA obișnuit cu un complot de încărcări. Aranjamentul este astfel:
- Axa inferioară: scorul PC1.
- axa stânga: scor PC2.
- Axa superioară: încărcări pe PC1.
- axa dreaptă: încărcări pe PC2.
cu alte cuvinte, axele din stânga și de jos sunt ale complotului PCA — folosiți-le pentru a citi scorurile PCA ale probelor (puncte). Axele de sus și din dreapta aparțin parcelei de încărcare — folosiți-le pentru a citi cât de puternic influențează fiecare caracteristică (vector) componentele principale.
un grafic grohotiș afișează cât de mult variație fiecare componentă principală surprinde din datele
un grafic grohotiș, pe de altă parte, este un instrument de diagnosticare pentru a verifica dacă PCA funcționează bine pe datele sau nu. Componentele principale sunt create în ordinea cantității de variație pe care o acoperă: PC1 captează cea mai mare variație, PC2 — a doua cea mai mare și așa mai departe. Fiecare dintre ele contribuie cu unele informații ale datelor, iar într-un PCA există la fel de multe componente principale pe cât există caracteristici. Lăsând PC-urile și pierdem informații.
figura 4. PCA grohotiș complot
vestea bună este, în cazul în care primele două sau trei PC-uri au captura cele mai multe informații, atunci putem ignora restul, fără a pierde nimic important. Un complot grohotiș arată cât de mult variație fiecare PC surprinde din datele. Axa y este valori proprii, care reprezintă în esență cantitatea de variație. Utilizați un grafic grohotiș pentru a selecta componentele principale pentru a păstra. O curbă ideală ar trebui să fie abruptă, apoi se îndoaie la un „cot” — acesta este punctul dvs. de tăiere-și după aceea se aplatizează. În Figura 4, doar PC 1,2 și 3 sunt suficiente pentru a descrie datele.
pentru a face față unei curbe de complot nu atât de ideale, există câteva moduri:
- regula Kaiser: alegeți PC-uri cu valori proprii de cel puțin 1.
- proporția varianței plot: PC-urile selectate ar trebui să poată descrie cel puțin 80% din varianță.
Dacă ajungeți cu prea multe componente principale (mai mult de 3), PCA ar putea să nu fie cel mai bun mod de a vizualiza datele. În schimb, luați în considerare alte tehnici de reducere a dimensiunilor, cum ar fi t-end și MDS.
în rezumat: un biplot PCA arată atât scorurile PC ale probelor (puncte), cât și încărcările variabilelor (vectori). Cu cât acești vectori sunt mai departe de originea unui PC, cu atât au mai multă influență asupra acelui PC. Comploturile de încărcare indică, de asemenea, modul în care variabilele se corelează între ele: un unghi mic implică o corelație pozitivă, unul mare sugerează o corelație negativă, iar un unghi de 90 de centimi nu indică nicio corelație între două caracteristici. Un grafic grohotiș afișează cât de mult variație fiecare componentă principală surprinde din datele. Dacă primele două sau trei PC-uri sunt suficiente pentru a descrie esența datelor, complotul grohotiș este o curbă abruptă care se îndoaie rapid și se aplatizează.căutați o modalitate de a crea cu ușurință biploturi PCA și parcele grohotiș? Încercați BioVinci, un software drag and drop care poate rula PCA și complot totul ca afacerea nimănui în doar câteva clicuri.