Comment lire les biplots de PCA et les parcelles d’éboulis
L’analyse en composantes principales (PCA) gagne en popularité en tant qu’outil permettant de faire ressortir des motifs forts à partir d’ensembles de données biologiques complexes. Nous avons répondu à la question » Qu’est-ce qu’une APC ? »dans cet article de blog sans jargon, consultez-le pour une explication simple du fonctionnement du PCA. En un mot, PCA capture l’essence des données en quelques composants principaux, qui transmettent le plus de variations dans l’ensemble de données.
Figure 1. Terrain PCA. Pour savoir comment le lire, consultez cet article de blog
PCA ne rejette aucun échantillon ou caractéristique (variables). Au lieu de cela, il réduit le nombre écrasant de dimensions en construisant des composants principaux (PC). Les PC décrivent la variation et tiennent compte des influences variées des caractéristiques originales. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.
A loading plot shows how strongly each characteristic influences a principal component.
Figure 2. Loading plot
Voyez comment ces vecteurs sont épinglés à l’origine des PCS (PC1 = 0 et PC2 = 0)? Leurs valeurs de projet sur chaque PC montrent le poids qu’ils ont sur ce PC. Dans cet exemple, NPC2 et CHIT1 influencent fortement PC1, tandis que GBA et LCAT ont plus leur mot à dire dans PC2.
Une autre bonne chose à propos des tracés de chargement: les angles entre les vecteurs nous indiquent comment les caractéristiques sont en corrélation les unes avec les autres. Regardons la figure 2.
- Lorsque deux vecteurs sont proches, formant un petit angle, les deux variables qu’ils représentent sont positivement corrélées. Exemple: APOD et PSAP
- S’ils se rencontrent à 90°, ils ne sont pas susceptibles d’être corrélés. Exemple : NPC2 et ACS.
- Lorsqu’elles divergent et forment un grand angle (proche de 180°), elles sont corrélées négativement. Exemple : NPC2 et MAG.
Maintenant que vous savez tout cela, la lecture d’un biplot PCA est un jeu d’enfant.
PCA biplot = tracé de score PCA + tracé de chargement
Figure 3. PCA biplot
Vous remarquerez probablement qu’un biplot PCA fusionne simplement un tracé PCA habituel avec un tracé de chargements. L’arrangement est comme ceci:
- Axe inférieur: score PC1.
- Axe gauche : score PC2.
- Axe supérieur : chargements sur PC1.
- Axe droit : chargements sur PC2.
En d’autres termes, les axes gauche et inférieur sont du tracé PCA — utilisez-les pour lire les scores PCA des échantillons (points). Les axes supérieur et droit appartiennent au tracé de chargement — utilisez-les pour lire dans quelle mesure chaque caractéristique (vecteur) influence les composantes principales.
Un tracé d’éboulis affiche la variation que chaque composant principal capture des données
Un tracé d’éboulis, en revanche, est un outil de diagnostic pour vérifier si l’APC fonctionne bien sur vos données ou non. Les composants principaux sont créés dans l’ordre de la quantité de variation qu’ils couvrent: PC1 capture le plus de variation, PC2 — le deuxième plus, et ainsi de suite. Chacun d’eux apporte des informations sur les données, et dans une APC, il y a autant de composantes principales que de caractéristiques. En laissant de côté les PC et nous perdons des informations.
Figure 4. La bonne nouvelle est que si les deux ou trois premiers PC ont capturé la plupart des informations, nous pouvons ignorer le reste sans rien perdre d’important. Un tracé d’éboulis montre la variation que chaque PC capture des données. L’axe des ordonnées est des valeurs propres, qui représentent essentiellement la quantité de variation. Utilisez un tracé d’éboulis pour sélectionner les principaux composants à conserver. Une courbe idéale doit être raide, puis se plie à un « coude » — c’est votre point de coupure – et ensuite s’aplatit. Dans la figure 4, seuls les PC 1,2 et 3 suffisent pour décrire les données.
Pour traiter une courbe de tracé d’éboulis pas si idéale, il existe deux façons:
- Règle de Kaiser: choisissez des PC avec des valeurs propres d’au moins 1.
- Graphique de la proportion de variance: les PC sélectionnés doivent pouvoir décrire au moins 80% de la variance.
Si vous vous retrouvez avec trop de composants principaux (plus de 3), le PCA n’est peut-être pas le meilleur moyen de visualiser vos données. Au lieu de cela, envisagez d’autres techniques de réduction des dimensions, telles que t-SNE et MDS.
En résumé: Un biplot PCA montre à la fois les scores PC des échantillons (points) et les charges des variables (vecteurs). Plus ces vecteurs sont éloignés d’une origine PC, plus ils ont d’influence sur ce PC. Les graphiques de chargement indiquent également comment les variables sont corrélées les unes avec les autres: un petit angle implique une corrélation positive, un grand suggère une corrélation négative et un angle de 90 ° n’indique aucune corrélation entre deux caractéristiques. Un tracé d’éboulis affiche la variation que chaque composant principal capture des données. Si les deux ou trois premiers PC suffisent à décrire l’essence des données, le tracé des éboulis est une courbe abrupte qui se plie rapidement et s’aplatit.
Vous cherchez un moyen de créer facilement des biplots PCA et des parcelles d’éboulis? Essayez BioVinci, un logiciel de glisser-déposer qui peut exécuter PCA et tracer tout comme personne en quelques clics.