Articles

PCA双プロットとスクリープロットの読み方

主成分分析(PCA)は、複雑な生物学的データセットから強いパターンを引き出すためのツールとして人気を集めて 私たちは、”PCAとは何ですか?”この専門用語のないブログ記事では、PCAがどのように機能するかの簡単な説明をチェックしてください。 一言で言えば、PCAは、データセットの中で最も変化を伝えるいくつかの主要なコンポーネントでデータの本質をキャプチャします。P>

図1。 PCAプロット。 それを読む方法については、このブログ記事を参照してください

PCAは、任意のサンプルや特性(変数)を破棄しません。 代わりに、主成分(PCs)を構築することによって、圧倒的な次元数を削減します。 Pcは変動を記述し、元の特性の様々な影響を説明します。 Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. これらのベクトルがPCsの原点(PC1=0およびPC2=0)にどのように固定されているかを参照してください。 各PC上のプロジェクト値は、そのPC上でどのくらいの重量を持っているかを示しています。 この例では、NPC2とCHIT1はPC1に強く影響しますが、GBAとLCATはPC2に多くの発言権を持っています。

プロットの読み込みについてのもう一つの良い点:ベクトル間の角度は、特性が互いにどのように相関するかを教えてくれます。 図2を見てみましょう。

  • 二つのベクトルが近くにあり、小さな角度を形成すると、それらが表す二つの変数は正の相関があります。 例: APODとPSAP
  • それらが90°で互いに会う場合、それらは相関していない可能性が高い。 例:NPC2およびGBA。
  • それらが発散して大きな角度(180°に近い)を形成すると、負の相関があります。 例:NPC2およびMAG。あなたがすべてを知っているので、PCA双プロットを読むことはケーキの一部です。P>

    PCA biplot=PCAスコアプロット+ロードプロット

    図3. PCA biplot

    PCA biplotは、通常のPCAプロットを負荷のプロットとマージするだけであることに気付くでしょう。 配置は次のようになります。

    • 下軸:PC1スコア。
    • 左軸:PC2スコア。
    • トップ軸:PC1上の負荷。
    • 右軸:PC2上の負荷。つまり、左軸と下軸はPCAプロットの軸であり、それらを使用してサンプル(ドット)のPCAスコアを読み取ります。 これらの軸を使用して、各特性(ベクトル)が主成分にどの程度強く影響するかを読み取ります。

      スクリープロットは、各主成分がデータからどのくらいの変動をキャプチャするかを表示します

      スクリープロットは、一方で、PCAがデータで正常に機能するかどうかを確認するための診断ツールです。 主成分は、それらがカバーする変動の量の順に作成されます:PC1は最も変動をキャプチャし、PC2は二番目に多く、というように。 それらのそれぞれはデータのいくつかの情報に寄与し、PCAでは、特性があるのと同じくらい多くの主成分があります。 Pcを残して、私たちは情報を失います。

      図4。 PCA scree plot

      良いニュースは、最初の二、三のPcが情報のほとんどをキャプチャしている場合、我々は重要な何かを失うことなく、残りを無視することができ、です。 スクリープロットは、各PCがデータからどのくらいの変動をキャプチャするかを示します。 Y軸は固有値であり、本質的には変動量を表します。 スクリープロットを使用して、維持する主成分を選択します。 理想的な曲線は急でなければならず、次に「肘」で曲がります—これはあなたの切断点です-そしてその後は平らになります。 図4では、データを記述するにはPC1,2、および3だけで十分です。

      それほど理想的ではないスクリープロット曲線を扱うには、いくつかの方法があります。

      1. Kaiser rule:少なくとも1の固有値を持つPCsを選択します。
      2. 分散プロットの割合:選択したPCsは、分散の少なくとも80%を記述できる必要があります。主成分が多すぎる(3を超える)場合、PCAはデータを視覚化する最良の方法ではない可能性があります。 代わりに、t-SNEやMDSなどの他の次元削減技術を検討してください。要約すると、PCA biplotは、サンプル(ドット)のPCスコアと変数(ベクトル)の負荷の両方を示します。

        要約すると、PCA biplotは、サンプル(ドット)のPCスコアと変数(ベク これらのベクトルがPCの原点から遠く離れているほど、そのPCに与える影響は大きくなります。 小さな角度は正の相関を示し、大きな角度は負の相関を示し、90°の角度は二つの特性の間に相関がないことを示します。 スクリープロットには、各主成分がデータからどのくらいの変動をキャプチャするかが表示されます。 最初の2つまたは3つのPcがデータの本質を記述するのに十分である場合、screeプロットは急峻な曲線であり、すぐに曲がり、平坦になります。PCA双プロットとスクリープロットを簡単に作成する方法を探していますか?

        BioVinci、PCAを実行し、数回のクリックで誰のビジネスのようなすべてをプロットすることができますドラッグアンドドロップソフトウェアを試して