Articles

Jak číst PCA biplots a sutí pozemky

analýza Hlavních komponent (PCA) byla získává popularitu jako nástroj, aby se silné vzory z komplexních biologických datových souborů. Odpověděli jsme na otázku „Co je PCA?“v tomto blogu bez žargonu-podívejte se na jednoduché vysvětlení toho, jak PCA funguje. Stručně řečeno, PCA zachycuje podstatu dat v několika hlavních složkách,které vyjadřují největší rozdíly v datovém souboru.

Obrázek 1. PCA spiknutí. Jak si to přečíst, viz tento blogový příspěvek

PCA nevyhodí žádné vzorky ani charakteristiky (proměnné). Místo toho snižuje ohromný počet rozměrů konstrukcí hlavních komponent (ks). PC popisují variace a zohledňují různé vlivy původních charakteristik. Such influences, or loadings, can be traced back from the PCA plot to find out what produces the differences among clusters.

A loading plot shows how strongly each characteristic influences a principal component.

Figure 2. Loading plot

podívejte se, jak jsou tyto vektory připnuty na počátku PC(PC1 = 0 a PC2 = 0)? Jejich hodnoty projektu na každém počítači ukazují, jak velkou váhu mají na tomto počítači. V tomto příkladu NPC2 a CHIT1 silně ovlivňují PC1, zatímco GBA a LCAT mají větší slovo v PC2.

Další pěkná věc, o zatížení pozemků: úhly mezi vektory, řekněte nám, jak vlastnosti korelují s jedním další. Podívejme se na obrázek 2.

  • když jsou dva vektory blízko a tvoří malý úhel, dvě proměnné, které představují, jsou pozitivně korelovány. Příklad: APOD a PSAP
  • pokud se setkají při 90°, není pravděpodobné, že budou korelovány. Příklad: NPC2 a GBA.
  • když se rozcházejí a tvoří velký úhel (téměř 180°), jsou negativně korelovány. Příklad: NPC2 a MAG.

Nyní, když to všechno víte, je čtení PCA biplot hračka.

PCA biplot = PCA skóre pozemku + načítání spiknutí

Obrázek 3. PCA biplot

pravděpodobně si všimnete, že PCA biplot jednoduše sloučí obvyklý PCA spiknutí s pozemkem zatížení. Uspořádání je následující:

  • spodní osa: skóre PC1.
  • levá osa: skóre PC2.
  • horní osa: zatížení na PC1.
  • pravá osa: zatížení na PC2.

jinými slovy, levá a dolní osa jsou na grafu PCA-použijte je ke čtení skóre PCA vzorků (teček). Horní a pravá osa patří do zátěžového grafu — použijte je ke čtení, jak silně každá charakteristika (vektor) ovlivňuje hlavní komponenty.

sutí děj zobrazuje, kolik variability jednotlivých hlavních komponent zachycuje z údajů

sutí spiknutí, na druhou stranu, je diagnostický nástroj pro kontrolu, zda PCA funguje dobře na vaše data, nebo ne. Hlavní komponenty jsou vytvořeny v pořadí podle množství variací, které pokrývají: PC1 zachycuje nejvíce variací, PC2-druhý nejvíce, a tak dále. Každý z nich přispívá některými informacemi o datech a v PCA existuje tolik hlavních složek, kolik je charakteristik. Vynecháme počítače a ztratíme informace.

Obrázek 4. PCA scree plot

dobrou zprávou je, že pokud první dva nebo tři počítače zachytily většinu informací, můžeme zbytek ignorovat, aniž bychom ztratili něco důležitého. Sutí graf ukazuje, kolik variací každý počítač zachytí z dat. Osa y je vlastní čísla, což v podstatě znamená množství variace. Pomocí suti vyberte hlavní součásti, které chcete zachovat. Ideální křivka by měla být strmá, pak se ohýbá na „lokti“ – to je váš bod řezu — a poté se zplošťuje. Na obrázku 4 stačí k popisu dat pouze PC 1,2 a 3.

vypořádat se s ne-tak-ideální sutí křivce, existuje několik způsobů:

  1. Kaiser pravidlo: vyberte Ks s vlastní čísla a vlastní alespoň 1.
  2. poměr rozptylu: vybrané počítače by měly být schopny popsat alespoň 80% rozptylu.

Pokud skončíte s příliš mnoha hlavními komponenty (více než 3), PCA nemusí být nejlepší způsob, jak vizualizovat vaše data. Místo toho zvažte jiné techniky redukce rozměrů, jako jsou t-SNE a MDS.

v souhrnu: PCA biplot ukazuje jak PC skóre vzorků (teček), tak zatížení proměnných (vektorů). Čím dále jsou tyto vektory z PC původu, tím větší vliv mají na tento počítač. Načítání pozemky také tip na to, jak proměnné, které korelují se jeden druhého: malý úhel znamená pozitivní korelaci, velký naznačuje negativní korelaci, a úhel 90° naznačuje žádná korelace mezi dvěma vlastnostmi. Graf suti zobrazuje, kolik variací každá hlavní složka zachycuje z dat. Pokud první dva nebo tři počítače postačují k popisu podstaty dat, je graf suti strmá křivka, která se rychle ohýbá a zplošťuje.

hledáte způsob, jak snadno vytvořit PCA biplots a suti? Zkuste BioVinci, drag and drop software, který dokáže spustit PCA a vykreslit vše, jako je nikdo podnikání v několika málo kliknutí.