Articles

How to read PCA biplots and scree plots

Principal component analysis (PCA) has been gaining popularity as a tool to bring out strong patterns from complex biological datasets. Respondemos à pergunta ” O que é um APC?”neste jargon-free blog post — check it out para uma explicação simples de como PCA funciona. Em poucas palavras, o PCA captura a essência dos dados em alguns componentes principais, que transmitem a maior variação no conjunto de dados.

a Figura 1. PCA plot. Para saber como lê-lo, consulte este post

PCA não descartou quaisquer amostras ou características (variáveis). Em vez disso, reduz o número esmagador de dimensões através da construção de componentes principais (PCs). Os computadores pessoais descrevem a variação e têm em conta as variadas influências das características originais. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Parcela de carregamento

ver como estes Vectores são fixados na origem dos PCs (PC1 = 0 e PC2 = 0)? Seus valores de projeto em cada PC mostram quanto peso eles têm nesse PC. Neste exemplo, o NPC2 e o CHIT1 influenciam fortemente o PC1, enquanto o GBA e o LCAT têm mais voz no PC2.

outra coisa boa sobre as parcelas de carregamento: os ângulos entre os vectores dizem-nos como as características se correlacionam entre si. Vamos ver a Figura 2.

  • Quando dois vetores estão próximos, formando um pequeno ângulo, as duas variáveis que representam estão positivamente correlacionadas. Exemplo: APOD e PSAP
  • Se se encontrarem a 90°, não é provável que estejam correlacionados. Exemplo: NPC2 e GBA.quando divergem e formam um grande ângulo (próximo de 180°), são negativos correlacionados. Exemplo: NPC2 e MAG.

Agora que você sabe tudo isso, ler um biplot PCA é canja.

PCA biplot = PCA pontuação enredo + carga enredo

a Figura 3. PCA biplot

Você provavelmente nota que um PCA biplot simplesmente mescla um plot PCA usual com um plot de carregamentos. A disposição é assim:

  • eixo inferior: pontuação PC1.eixo esquerdo: pontuação PC2.eixo superior: cargas no PC1.eixo Direito: cargas no PC2.

por outras palavras, os eixos esquerdo e inferior são da parcela PCA — use-os para ler os pontuações PCA das amostras (pontos). Os eixos superior e direito pertencem à parcela de carga — use-os para ler quão fortemente cada característica (vetor) influencia os componentes principais.por outro lado, uma parcela de árvore é uma ferramenta de diagnóstico para verificar se o PCA funciona bem nos seus dados ou não. Os principais componentes são criados por ordem da quantidade de variação que cobrem: o PC1 captura a maior variação, o PC2 — o segundo mais, e assim por diante. Cada um deles contribui com alguma informação dos dados, e em um APC, há tantos componentes principais quanto existem características. Deixando de fora os computadores e perdemos a informação.

Figura 4. PCA scree plot

A boa notícia é que, se os dois primeiros ou três PCs têm capturar a maior parte da informação, Então podemos ignorar o resto sem perder nada importante. Uma parcela scree mostra quanta variação cada PC captura a partir dos dados. O eixo y é os autovalores, que representam essencialmente a quantidade de variação. Use um gráfico em árvore para seleccionar os componentes principais a manter. Uma curva ideal deve ser íngreme, em seguida, inclina — se em um “cotovelo”-este é o seu ponto de corte — e depois disso se achata para fora. Na Figura 4, apenas PC 1,2 e 3 são suficientes para descrever os dados.

para lidar com uma curva de gráfico Tree não tão ideal, existem algumas maneiras:

  1. regra Kaiser: escolher PCs com valores eigenais de pelo menos 1.proporção da parcela de variância: os PC seleccionados devem poder descrever pelo menos 80% da variância.

Se você acabar com muitos componentes principais (mais de 3), PCA pode não ser a melhor maneira de visualizar seus dados. Em vez disso, considere outras técnicas de redução de dimensão, tais como T-PND e MDS.

em resumo: um biplot PCA mostra tanto as pontuações PC de amostras (pontos) e as cargas de variáveis (vetores). Quanto mais longe estes vetores são de uma origem PC, mais influência eles têm nesse PC. Os gráficos de carregamento também indicam como as variáveis se correlacionam entre si: um pequeno ângulo implica correlação positiva, um grande sugere correlação negativa, e um ângulo de 90° indica nenhuma correlação entre duas características. Um gráfico em árvore mostra quanta variação cada componente principal captura a partir dos dados. Se os dois primeiros ou três PCs são suficientes para descrever a essência dos dados, o gráfico de scree é uma curva íngreme que se dobra rapidamente e se achata para fora.

procurando uma maneira de criar biplots PCA e parcelas de scree facilmente? Tente BioVinci, um software drag and drop que pode executar PCA e plotar tudo como o negócio de ninguém em apenas alguns cliques.