Articles

jak czytać biploty PCA i wykresy piargów

analiza głównych składników (PCA) zyskuje popularność jako narzędzie do wydobywania silnych wzorców ze złożonych biologicznych zbiorów danych. Odpowiedzieliśmy na pytanie ” co to jest PCA?”w tym darmowym żargonie poście na blogu-Sprawdź, aby uzyskać proste wyjaśnienie, jak działa PCA. W skrócie, PCA uchwycić istotę danych w kilku głównych składników, które przekazują najwięcej zmian w zbiorze danych.

rysunek 1. Działka PCA. Aby dowiedzieć się, jak to przeczytać, zobacz ten post na blogu

PCA nie odrzuca żadnych próbek ani cech (zmiennych). Zamiast tego zmniejsza przytłaczającą liczbę wymiarów, konstruując główne komponenty (PCs). PCs opisują zmienność i odpowiadają za zróżnicowane wpływy oryginalnych cech. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Wczytywanie wykresu

zobacz jak te wektory są przypięte na początku PCs (PC1 = 0 i PC2 = 0)? Ich wartości projektu na każdym komputerze pokazują, ile mają wagi na tym komputerze. W tym przykładzie NPC2 i CHIT1 silnie wpływają na PC1, podczas gdy GBA i LCAT mają więcej do powiedzenia w PC2.

kolejna fajna rzecz w ładowaniu Wykresów: kąty między wektorami mówią nam, jak cechy korelują ze sobą. Spójrzmy na Rysunek 2.

  • gdy dwa wektory są blisko siebie, tworząc mały kąt, dwie zmienne, które reprezentują, są dodatnio skorelowane. Przykład: APOD i PSAP
  • jeśli spotkają się pod kątem 90°, prawdopodobnie nie będą ze sobą skorelowane. Przykład: NPC2 i GBA.
  • gdy rozchodzą się i tworzą duży kąt (Bliski 180°), są ujemnie skorelowane. Przykład: NPC2 i MAG.

skoro już to wszystko wiesz, czytanie biplotu PCA to bułka z masłem.

PCA biplot = PCA score plot + loading plot

Rysunek 3. PCA biplot

prawdopodobnie zauważysz, że PCA biplot po prostu łączy zwykły Wykres PCA z wykresem obciążeń. Układ wygląda następująco:

  • Oś Dolna: wynik PC1.
  • oś Lewa: wynik PC2.
  • Górna oś: obciążenia na PC1.
  • Oś prawa: obciążenia na PC2.

innymi słowy, lewa i dolna osie są wykresu PCA — użyj ich do odczytu wyników PCA próbek (kropek). Górne i prawe osie należą do wykresu ładowania-użyj ich, aby odczytać, jak silnie każda cecha (wektor) wpływa na główne składniki.

Wykres piargi wyświetla, ile zmian każdy główny składnik przechwytuje z danych

Wykres piargi, z drugiej strony, jest narzędziem diagnostycznym, aby sprawdzić, czy PCA działa dobrze na danych, czy nie. Główne komponenty są tworzone w kolejności od ilości odmian, które obejmują: PC1 przechwytuje największą odmianę, PC2-drugą najbardziej i tak dalej. Każdy z nich zawiera pewne informacje o danych, a w PCA jest tyle głównych składników, ile cech. Pomijając Komputery i tracimy informacje.

rysunek 4. PCA scree plot

dobrą wiadomością jest to, że jeśli pierwsze dwa lub trzy komputery przechwyciły większość informacji, to możemy zignorować resztę, nie tracąc nic ważnego. Wykres piargi pokazuje, ile zmian każdy komputer przechwytuje z danych. Oś y to wartości własne, które zasadniczo oznaczają wielkość zmienności. Użyj wykresu piargów, aby wybrać główne składniki, które mają zostać zachowane. Idealna krzywa powinna być stroma, następnie wygina się w „łokciu” -to jest punkt odcięcia — a następnie spłaszcza się. Na rysunku 4 wystarczy PC 1,2 i 3, aby opisać dane.

aby poradzić sobie z niezbyt idealną krzywą wykresu, Istnieje kilka sposobów:

  1. zasada Kaisera: wybierz komputery z wartościami własnymi co najmniej 1.
  2. proporcja wykresu wariancji: wybrane PCs powinny być w stanie opisać co najmniej 80% wariancji.

Jeśli masz zbyt wiele głównych komponentów (więcej niż 3), PCA może nie być najlepszym sposobem na wizualizację danych. Zamiast tego należy rozważyć inne techniki redukcji wymiarów, takie jak T-SNE i MDS.

podsumowując: biplot PCA pokazuje zarówno wyniki PC próbek (kropki), jak i obciążenia zmiennych (wektory). Im dalej te wektory są pochodzenia PC, tym większy wpływ mają na ten komputer. Wykresy ładowania wskazują również, jak zmienne korelują ze sobą: mały kąt oznacza korelację dodatnią, duży sugeruje korelację ujemną, a kąt 90° oznacza brak korelacji między dwiema cechami. Wykres piargu wyświetla, ile zmian każdy główny komponent przechwytuje z danych. Jeśli pierwsze dwa lub trzy komputery są wystarczające do opisania istoty danych, Wykres piargi jest stromą krzywą, która szybko się wygina i spłaszcza.

szukasz sposobu na łatwe tworzenie biplotów PCA i piargów? Wypróbuj BioVinci, oprogramowanie typu „przeciągnij i upuść”, które za pomocą kilku kliknięć może uruchomić PCA i wykreślić wszystko, jak nikt inny.