Articles

Lesen von PCA-Biplots und Geröll-Plots

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) hat als Werkzeug zur Hervorhebung starker Muster aus komplexen biologischen Datensätzen an Popularität gewonnen. Wir haben die Frage „Was ist ein PCA?“ in diesem Jargon-freien Blog—Post – check it out für eine einfache Erklärung, wie PCA funktioniert. Kurz gesagt, PCA erfassen die Essenz der Daten in einigen Hauptkomponenten, die die größte Variation im Datensatz vermitteln.

Abbildung 1. PCA Grundstück. Weitere Informationen zum Lesen finden Sie in diesem Blogbeitrag

PCA verwirft keine Stichproben oder Merkmale (Variablen). Stattdessen reduziert es die überwältigende Anzahl von Dimensionen, indem es Hauptkomponenten (PCs) konstruiert. PCs beschreiben Variation und berücksichtigen die vielfältigen Einflüsse der ursprünglichen Eigenschaften. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Ladediagramm

Sehen Sie, wie diese Vektoren am Ursprung von PCs (PC1 = 0 und PC2 = 0) angeheftet sind? Ihre Projektwerte auf jedem PC zeigen, wie viel Gewicht sie auf diesem PC haben. In diesem Beispiel beeinflussen NPC2 und CHIT1 PC1 stark, während GBA und LCAT mehr Einfluss auf PC2 haben.

Eine weitere nette Sache beim Laden von Plots: Die Winkel zwischen den Vektoren sagen uns, wie Eigenschaften miteinander korrelieren. Schauen wir uns Abbildung 2 an.

  • Wenn zwei Vektoren nahe beieinander liegen und einen kleinen Winkel bilden, sind die beiden Variablen, die sie darstellen, positiv korreliert. Beispiel: APOD und PSAP
  • Wenn sie sich bei 90 °treffen, sind sie wahrscheinlich nicht korreliert. Beispiel: NPC2 und GBA.
  • Wenn sie divergieren und einen großen Winkel (nahe 180 °) bilden, sind sie negativ korreliert. Beispiel: NPC2 und MAG.

Nun, da Sie das alles wissen, ist das Lesen eines PCA-Biplots ein Kinderspiel.

PCA-Biplot = PCA-Score-Plot + Ladeplot

Abbildung 3. PCA-Biplot

Sie bemerken wahrscheinlich, dass ein PCA-Biplot einfach einen üblichen PCA-Plot mit einem Plot von Ladungen zusammenführt. Die Anordnung ist wie folgt:

  • Untere Achse: PC1 score.
  • Linke Achse: PC2-Score.
  • Obere Achse: Beladungen auf PC1.
  • Rechte Achse: Beladungen auf PC2.

Mit anderen Worten, die linke und die untere Achse sind vom PCA—Plot – verwenden Sie sie, um PCA-Scores der Samples (Punkte) zu lesen. Die obere und rechte Achse gehören zum Ladediagramm – verwenden Sie sie, um zu lesen, wie stark jedes Merkmal (Vektor) die Hauptkomponenten beeinflusst.

Ein Gerölldiagramm zeigt an, wie viel Variation jede Hauptkomponente aus den Daten erfasst

Ein Gerölldiagramm ist andererseits ein Diagnosewerkzeug, um zu überprüfen, ob PCA mit Ihren Daten gut funktioniert oder nicht. Hauptkomponenten werden in der Reihenfolge der Variation erstellt, die sie abdecken: PC1 erfasst die meiste Variation, PC2 — die zweithäufigste und so weiter. Jeder von ihnen trägt einige Informationen der Daten bei, und in einer PCA gibt es so viele Hauptkomponenten wie Merkmale. Wenn wir PCs weglassen, verlieren wir Informationen.

Abbildung 4. PCA scree plot

Die gute Nachricht ist, wenn die ersten zwei oder drei PCs die meisten Informationen erfasst haben, können wir den Rest ignorieren, ohne etwas Wichtiges zu verlieren. Ein Gerölldiagramm zeigt, wie viel Variation jeder PC aus den Daten erfasst. Die y-Achse sind Eigenwerte, die im Wesentlichen für den Variationsgrad stehen. Verwenden Sie ein Gerölldiagramm, um die Hauptkomponenten auszuwählen, die beibehalten werden sollen. Eine ideale Kurve sollte steil sein, sich dann an einem „Ellbogen“ biegen — dies ist Ihr Schnittpunkt – und danach abflachen. In Abbildung 4 reichen nur PC 1,2 und 3 aus, um die Daten zu beschreiben.

Um mit einer nicht so idealen Geröll-Plotkurve umzugehen, gibt es ein paar Möglichkeiten:

  1. Kaiser-Regel: Wählen Sie PCs mit Eigenwerten von mindestens 1.
  2. Anteil des Varianzdiagramms: Die ausgewählten PCs sollten in der Lage sein, mindestens 80% der Varianz zu beschreiben.

Wenn Sie am Ende zu viele Hauptkomponenten (mehr als 3) haben, ist PCA möglicherweise nicht der beste Weg, um Ihre Daten zu visualisieren. Erwägen Sie stattdessen andere Dimensionsreduktionstechniken wie t-SNE und MDS.

Zusammenfassend: Ein PCA-Biplot zeigt sowohl PC-Scores von Samples (Dots) als auch Loadings von Variablen (Vektoren). Je weiter diese Vektoren von einem PC-Ursprung entfernt sind, desto mehr Einfluss haben sie auf diesen PC. Ladendiagramme weisen auch darauf hin, wie Variablen miteinander korrelieren: Ein kleiner Winkel impliziert eine positive Korrelation, ein großer Winkel deutet auf eine negative Korrelation hin, und ein 90 ° -Winkel zeigt keine Korrelation zwischen zwei Merkmalen an. Ein Gerölldiagramm zeigt an, wie viel Variation jede Hauptkomponente aus den Daten erfasst. Wenn die ersten zwei oder drei PCs ausreichen, um das Wesentliche der Daten zu beschreiben, ist das Gerölldiagramm eine steile Kurve, die sich schnell biegt und abflacht.

Suchen Sie nach einer Möglichkeit, PCA-Biplots und Geröll-Plots einfach zu erstellen? Probieren Sie BioVinci aus, eine Drag-and-Drop-Software, mit der PCA ausgeführt und alles mit nur wenigen Klicks wie niemandes Geschäft dargestellt werden kann.