jak czytać biploty PCA i wykresy piargów
analiza głównych składników (PCA) zyskuje popularność jako narzędzie do wydobywania silnych wzorców ze złożonych biologicznych zbiorów danych. Odpowiedzieliśmy na pytanie ” co to jest PCA?”w tym darmowym żargonie poście na blogu-Sprawdź, aby uzyskać proste wyjaśnienie, jak działa PCA. W skrócie, PCA uchwycić istotę danych w kilku głównych składników, które przekazują najwięcej zmian w zbiorze danych.
Rysunek 3. PCA biplot
prawdopodobnie zauważysz, że PCA biplot po prostu łączy zwykły Wykres PCA z wykresem obciążeń. Układ wygląda następująco:
- Oś Dolna: wynik PC1.
- oś Lewa: wynik PC2.
- Górna oś: obciążenia na PC1.
- Oś prawa: obciążenia na PC2.
innymi słowy, lewa i dolna osie są wykresu PCA — użyj ich do odczytu wyników PCA próbek (kropek). Górne i prawe osie należą do wykresu ładowania-użyj ich, aby odczytać, jak silnie każda cecha (wektor) wpływa na główne składniki.
Wykres piargi wyświetla, ile zmian każdy główny składnik przechwytuje z danych
Wykres piargi, z drugiej strony, jest narzędziem diagnostycznym, aby sprawdzić, czy PCA działa dobrze na danych, czy nie. Główne komponenty są tworzone w kolejności od ilości odmian, które obejmują: PC1 przechwytuje największą odmianę, PC2-drugą najbardziej i tak dalej. Każdy z nich zawiera pewne informacje o danych, a w PCA jest tyle głównych składników, ile cech. Pomijając Komputery i tracimy informacje.
rysunek 4. PCA scree plot
dobrą wiadomością jest to, że jeśli pierwsze dwa lub trzy komputery przechwyciły większość informacji, to możemy zignorować resztę, nie tracąc nic ważnego. Wykres piargi pokazuje, ile zmian każdy komputer przechwytuje z danych. Oś y to wartości własne, które zasadniczo oznaczają wielkość zmienności. Użyj wykresu piargów, aby wybrać główne składniki, które mają zostać zachowane. Idealna krzywa powinna być stroma, następnie wygina się w „łokciu” -to jest punkt odcięcia — a następnie spłaszcza się. Na rysunku 4 wystarczy PC 1,2 i 3, aby opisać dane.
aby poradzić sobie z niezbyt idealną krzywą wykresu, Istnieje kilka sposobów:
- zasada Kaisera: wybierz komputery z wartościami własnymi co najmniej 1.
- proporcja wykresu wariancji: wybrane PCs powinny być w stanie opisać co najmniej 80% wariancji.
Jeśli masz zbyt wiele głównych komponentów (więcej niż 3), PCA może nie być najlepszym sposobem na wizualizację danych. Zamiast tego należy rozważyć inne techniki redukcji wymiarów, takie jak T-SNE i MDS.
podsumowując: biplot PCA pokazuje zarówno wyniki PC próbek (kropki), jak i obciążenia zmiennych (wektory). Im dalej te wektory są pochodzenia PC, tym większy wpływ mają na ten komputer. Wykresy ładowania wskazują również, jak zmienne korelują ze sobą: mały kąt oznacza korelację dodatnią, duży sugeruje korelację ujemną, a kąt 90° oznacza brak korelacji między dwiema cechami. Wykres piargu wyświetla, ile zmian każdy główny komponent przechwytuje z danych. Jeśli pierwsze dwa lub trzy komputery są wystarczające do opisania istoty danych, Wykres piargi jest stromą krzywą, która szybko się wygina i spłaszcza.
szukasz sposobu na łatwe tworzenie biplotów PCA i piargów? Wypróbuj BioVinci, oprogramowanie typu „przeciągnij i upuść”, które za pomocą kilku kliknięć może uruchomić PCA i wykreślić wszystko, jak nikt inny.