Cómo leer biplots y diagramas de pedregales de PCA
El análisis de componentes principales (PCA) ha ido ganando popularidad como herramienta para sacar patrones sólidos de conjuntos de datos biológicos complejos. Hemos respondido a la pregunta «¿Qué es un PCA?»en esta publicación de blog sin jerga, échale un vistazo para obtener una explicación simple de cómo funciona la PCA. En pocas palabras, PCA captura la esencia de los datos en unos pocos componentes principales, que transmiten la mayor variación en el conjunto de datos.
la Figura 1. Parcela de PCA. Para saber cómo leerlo, consulte esta entrada de blog
La PCA no descarta ninguna muestra o característica (variables). En su lugar, reduce el abrumador número de dimensiones mediante la construcción de componentes principales (PC). Los PC describen la variación y dan cuenta de las variadas influencias de las características originales. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.
A loading plot shows how strongly each characteristic influences a principal component.
Figure 2. Gráfico de carga
Vea cómo se fijan estos vectores en el origen de los PC (PC1 = 0 y PC2 = 0)? Sus valores de proyecto en cada PC muestran cuánto peso tienen en ese PC. En este ejemplo, NPC2 y CHIT1 influyen fuertemente en PC1, mientras que GBA y LCAT tienen más influencia en PC2.
Otra cosa buena de las gráficas de carga: los ángulos entre los vectores nos dicen cómo se correlacionan las características entre sí. Veamos la Figura 2.
- Cuando dos vectores están cerca, formando un ángulo pequeño, las dos variables que representan están correlacionadas positivamente. Ejemplo: APOD y PSAP
- Si se encuentran a 90°, no es probable que estén correlacionados. Ejemplo: NPC2 y GBA.
- Cuando divergen y forman un gran ángulo (cerca de 180°), se correlacionan negativamente. Ejemplo: NPC2 y MAG.
Ahora que ya sabes todo eso, leer un biplot de PCA es pan comido.
PCA diagrama de dispersión biespacial = PCA puntuación parcela + carga de la parcela
la Figura 3.
Probablemente note que un biplot de PCA simplemente combina una gráfica de PCA habitual con una gráfica de cargas. La disposición es así:
- Eje inferior: puntuación PC1.
- Eje izquierdo: puntuación PC2.
- Eje superior: cargas en PC1.
- Eje derecho: cargas en PC2.
En otras palabras, los ejes izquierdo e inferior son del gráfico de PCA, úselos para leer las puntuaciones de PCA de las muestras (puntos). Los ejes superior y derecho pertenecen a la gráfica de carga — utilícelos para leer la fuerza con la que cada característica (vector) influye en los componentes principales.
Un gráfico de pedregales muestra cuánta variación captura cada componente principal de los datos
Un gráfico de pedregales, por otro lado, es una herramienta de diagnóstico para verificar si el PCA funciona bien en sus datos o no. Los componentes principales se crean en orden de la cantidad de variación que cubren: PC1 captura la mayor variación, PC2 la segunda, y así sucesivamente. Cada uno de ellos aporta cierta información de los datos, y en un PCA, hay tantos componentes principales como características. Dejando fuera PCs y perdemos información.
la Figura 4.
La buena noticia es que, si los dos o tres primeros equipos han capturado la mayor parte de la información, podemos ignorar el resto sin perder nada importante. Una gráfica de pedregales muestra cuánta variación captura cada PC a partir de los datos. El eje y es valores propios, que representan esencialmente la cantidad de variación. Utilice una gráfica de pedregales para seleccionar los componentes principales que desea conservar. Una curva ideal debe ser empinada, luego se dobla en un «codo», este es el punto de corte, y después se aplana. En la Figura 4, solo PC 1, 2 y 3 son suficientes para describir los datos.
Para lidiar con una curva de trazado de pedregales no tan ideal, hay un par de maneras:
- Regla de Kaiser: elige PC con valores propios de al menos 1.Gráfico de proporción de varianza: los PC seleccionados deben ser capaces de describir al menos el 80% de la varianza.
Si termina con demasiados componentes principales (más de 3), es posible que el PCA no sea la mejor manera de visualizar sus datos. En su lugar, considere otras técnicas de reducción de dimensiones, como t-SNE y MDS.
En resumen: Un biplot de PCA muestra tanto puntuaciones de PC de muestras (puntos) como cargas de variables (vectores). Cuanto más lejos están estos vectores de un origen de PC, más influencia tienen en ese PC. Las gráficas de carga también indican cómo las variables se correlacionan entre sí: un ángulo pequeño implica correlación positiva, uno grande sugiere correlación negativa, y un ángulo de 90° indica que no hay correlación entre dos características. Una gráfica de pedregales muestra cuánta variación captura cada componente principal de los datos. Si las dos o tres primeras piezas son suficientes para describir la esencia de los datos, la gráfica de pedregales es una curva empinada que se dobla rápidamente y se aplana.
¿Está buscando una manera de crear biplots y diagramas de pedregales de PCA fácilmente? Pruebe BioVinci, un software de arrastrar y soltar que puede ejecutar PCA y trazar todo como nadie en tan solo unos clics.