Come leggere biplots PCA e diagrammi di ghiaioni
Principal Component analysis (PCA) sta guadagnando popolarità come strumento per far emergere modelli forti da complessi set di dati biologici. Abbiamo risposto alla domanda ” Che cos’è un PCA?”in questo post sul blog senza gergo-dai un’occhiata per una semplice spiegazione di come funziona PCA. In poche parole, PCA cattura l’essenza dei dati in alcuni componenti principali, che trasmettono la maggior parte delle variazioni nel set di dati.
Figura 1. Trama PCA. Per come leggerlo, vedi questo post del blog
PCA non scarta campioni o caratteristiche (variabili). Invece, riduce il numero schiacciante di dimensioni costruendo componenti principali (PC). I PC descrivono le variazioni e tengono conto delle varie influenze delle caratteristiche originali. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.
A loading plot shows how strongly each characteristic influences a principal component.
Figure 2. Caricamento del grafico
Guarda come questi vettori sono bloccati all’origine dei PC (PC1 = 0 e PC2 = 0)? I loro valori di progetto su ogni PC mostrano quanto peso hanno su quel PC. In questo esempio, NPC2 e CHIT1 influenzano fortemente PC1, mentre GBA e LCAT hanno più voce in capitolo in PC2.
Un’altra cosa bella del caricamento dei grafici: gli angoli tra i vettori ci dicono come le caratteristiche si correlano tra loro. Diamo un’occhiata alla Figura 2.
- Quando due vettori sono vicini, formando un piccolo angolo, le due variabili che rappresentano sono correlate positivamente. Esempio: APOD e PSAP
- Se si incontrano a 90°, non sono suscettibili di essere correlati. Esempio: NPC2 e GBA.
- Quando divergono e formano un grande angolo (vicino a 180°), sono correlati negativi. Esempio: NPC2 e MAG.
Ora che sai tutto questo, leggere un biplot PCA è un gioco da ragazzi.
PCA biplot = punteggio PCA trama + carico trama
Figura 3. PCA biplot
Probabilmente noterai che un biplot PCA semplicemente unisce un normale plot PCA con un plot di loadings. La disposizione è così:
- Asse inferiore: punteggio PC1.
- Asse sinistro: punteggio PC2.
- Asse superiore: caricamenti su PC1.
- Asse destro: caricamenti su PC2.
In altre parole, gli assi sinistro e inferiore sono del grafico PCA — usali per leggere i punteggi PCA dei campioni (punti). Gli assi superiore e destro appartengono al grafico di caricamento-usali per leggere quanto fortemente ogni caratteristica (vettore) influenza i componenti principali.
Un grafico a ghiaioni mostra quanta variazione ogni componente principale acquisisce dai dati
Un grafico a ghiaioni, d’altra parte, è uno strumento diagnostico per verificare se PCA funziona bene sui tuoi dati o meno. I componenti principali vengono creati in ordine alla quantità di variazione che coprono: PC1 cattura il maggior numero di variazioni, PC2 — il secondo più, e così via. Ognuno di loro contribuisce alcune informazioni dei dati, e in un PCA, ci sono tanti componenti principali come ci sono caratteristiche. Lasciando fuori i PC e perdiamo informazioni.
Figura 4. PCA scree plot
La buona notizia è, se i primi due o tre PC hanno catturare la maggior parte delle informazioni, allora possiamo ignorare il resto senza perdere nulla di importante. Un grafico ghiaione mostra quanta variazione ogni PC cattura dai dati. L’asse y è autovalori, che rappresentano essenzialmente la quantità di variazione. Utilizzare un grafico a ghiaioni per selezionare i componenti principali da mantenere. Una curva ideale dovrebbe essere ripida, quindi si piega a un “gomito” — questo è il punto di taglio-e dopo si appiattisce. Nella Figura 4, solo PC 1,2 e 3 sono sufficienti per descrivere i dati.
Per gestire una curva di trama di ghiaioni non così ideale, ci sono un paio di modi:
- Regola di Kaiser: scegli PC con autovalori di almeno 1.
- Proporzione del grafico della varianza: i PC selezionati dovrebbero essere in grado di descrivere almeno l ‘ 80% della varianza.
Se si finisce con troppi componenti principali (più di 3), PCA potrebbe non essere il modo migliore per visualizzare i dati. Considerare invece altre tecniche di riduzione delle dimensioni, come t-SNE e MDS.
In sintesi: Un biplot PCA mostra sia punteggi PC di campioni (punti) che caricamenti di variabili (vettori). Più questi vettori sono lontani da un’origine PC, maggiore è l’influenza che hanno su quel PC. I grafici di caricamento suggeriscono anche come le variabili si correlano tra loro: un angolo piccolo implica una correlazione positiva, uno grande suggerisce una correlazione negativa e un angolo di 90° non indica alcuna correlazione tra due caratteristiche. Un grafico a ghiaioni mostra la quantità di variazione catturata dai dati da ciascun componente principale. Se i primi due o tre PC sono sufficienti per descrivere l’essenza dei dati, la trama del ghiaione è una curva ripida che si piega rapidamente e si appiattisce.
Stai cercando un modo per creare facilmente biplot PCA e diagrammi di ghiaioni? Prova BioVinci, un drag and drop software in grado di eseguire PCA e tracciare tutto come gli affari di nessuno in pochi clic.