Articles

How to read PCA biplots and scree Tonts

Principal component analysis (PCA) on kasvattanut suosiotaan työkaluna tuoda esiin vahvoja kuvioita monimutkaisista biologisista aineistoista. Olemme vastanneet kysymykseen ” Mikä on PCA?”tässä jargon-vapaa blogikirjoitus — tutustu yksinkertainen selitys siitä, miten PCA toimii. Pähkinänkuoressa, PCA kaapata ydin tietojen muutamia pääkomponentteja, jotka välittävät eniten vaihtelua aineisto.

kuva 1. PCA juoni. Lue se tästä blogikirjoituksesta

PCA ei hylkää näytteitä tai ominaisuuksia (muuttujia). Sen sijaan se vähentää ylivoimainen määrä mitat rakentamalla pääkomponentit (PC). PCs kuvaavat vaihtelua ja huomioon erilaisia vaikutteita alkuperäiset ominaisuudet. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Latausalusta

Näetkö, miten nämä vektorit kiinnittyvät tietokoneiden (PC1 = 0 ja PC2 = 0) alkuperään? Heidän projektiarvot kullakin PC näyttää, kuinka paljon painoa heillä on, että PC. Tässä esimerkissä NPC2 ja CHIT1 vaikuttavat voimakkaasti PC1: een, kun taas GBA: lla ja LCAT: lla on enemmän sananvaltaa PC2: ssa.

toinen kiva asia latauskaavioissa: vektorien väliset kulmat kertovat, miten ominaisuudet korreloivat keskenään. Katsotaanpa kuva 2.

  • kun kaksi vektoria ovat lähellä muodostaen pienen kulman, niiden edustamat kaksi muuttujaa korreloivat positiivisesti. Esimerkiksi: APOD ja PSAP
  • jos ne kohtaavat toisensa 90°: ssa, ne eivät todennäköisesti korreloi keskenään. Esimerkki: NPC2 ja GBA.
  • kun ne eroavat toisistaan ja muodostavat suuren kulman (lähellä 180°), ne korreloituvat negatiivisesti. Esimerkki: NPC2 ja MAG.

nyt kun sen kaiken tietää, PCA-kaksikon lukeminen on helppoa.

PCA biplot = PCA score plot + loading plot

div>

kuva 3. PCA biplot

huomaat todennäköisesti, että PCA biplot yksinkertaisesti yhdistää tavanomaisen PCA-tontin kuormittavuuden tontin kanssa. Asetelma on tällainen:

  • pohja-akseli: PC1-pisteet.
  • vasen akseli: PC2 score.
  • Yläakseli: kuormitukset PC1: llä.
  • Right axis: loadings on PC2.

toisin sanoen vasen ja alempi akseli ovat PCA: n juonta — käytä niitä näytteiden PCA-pisteiden (pisteiden) lukemiseen. Ylä-ja oikeanpuoleiset akselit kuuluvat latauskaavioon-niiden avulla voit lukea, kuinka voimakkaasti kukin ominaisuus (vektori) vaikuttaa pääkomponentteihin.

Skree-kuvaaja näyttää, kuinka paljon vaihtelua kukin pääkomponentti kaappaa datasta

Skree-kuvaaja on toisaalta diagnostinen työkalu sen tarkistamiseksi, toimiiko PCA hyvin tiedoissasi vai ei. Pääkomponentit luodaan sen mukaan, kuinka paljon vaihtelua ne kattavat: PC1 kaappaa eniten vaihtelua, PC2 toiseksi eniten ja niin edelleen. Kukin niistä antaa joitakin tietoja tiedoista, ja kumppanuus-ja yhteistyösopimuksessa on yhtä monta pääkomponenttia kuin on ominaisuuksia. Jos jätämme PC: t pois, menetämme tietoja.

kuva 4. PCA scree juoni

hyvä uutinen on, jos kaksi tai kolme ensimmäistä PC on kaapata suurimman osan tiedoista, niin voimme sivuuttaa loput menettämättä mitään tärkeää. Screee juoni näyttää, kuinka paljon vaihtelua kukin PC kaappaa tiedoista. Y-akseli on eigenvalues, joka tarkoittaa oleellisesti vaihtelun määrää. Käytä screee juoni valita tärkeimmät osat pitää. Ihanteellinen käyrä olisi jyrkkä, sitten taipuu ” kyynärpää — -tämä on Katkaisupiste — ja sen jälkeen tasaantuu. Kuvassa 4, vain PC 1,2, ja 3 riittää kuvaamaan tietoja.

ei-niin-ideaalin Skree-juonikäyrän käsittelemiseksi on olemassa pari tapaa:

  1. Kaiserin sääntö: valitse PC: t, joiden eigenvalu on vähintään 1.
  2. Varianssikaavion osuus: valittujen tietokoneiden on kyettävä kuvaamaan vähintään 80% varianssista.

Jos päädyt liian moneen pääkomponenttiin (yli 3), PCA ei välttämättä ole paras tapa visualisoida tietojasi. Sen sijaan, harkita muita ulottuvuus vähentäminen tekniikoita, kuten t-SNE ja MDS.

yhteenvetona: PCA-biplot näyttää sekä näytteiden (pisteiden) PC-pisteet että muuttujien (vektorien) kuormitukset. Mitä kauempana nämä vektorit ovat PC: stä, sitä enemmän niillä on vaikutusvaltaa PC: hen. Latauskuviot viittaavat myös siihen, miten muuttujat korreloivat keskenään: pieni kulma merkitsee positiivista korrelaatiota, suuri viittaa negatiiviseen korrelaatioon ja 90° kulma ei osoita korrelaatiota kahden ominaisuuden välillä. Scree-juoni näyttää, kuinka paljon vaihtelua kukin pääkomponentti kaappaa datasta. Jos kaksi tai kolme ensimmäistä kpl riittää kuvaamaan tiedon olemusta, Skree-juoni on jyrkkä käyrä, joka taipuu nopeasti ja tasaantuu.

Etsitkö tapaa luoda PCA biplots ja screee tontteja helposti? Kokeile BioVinci, vedä ja pudota ohjelmisto, joka voi ajaa PCA ja juoni kaiken kuin kenenkään liiketoimintaa vain muutamalla klikkauksella.