6 Předpokladů Logistické Regrese (S Příklady)
Logistická regrese je metoda, kterou můžeme použít, aby se vešly regresní model, když závisle proměnná je binární.
Před montáží model dataset, logistická regrese vychází z následujících předpokladů:
- Předpoklad Č. 1: závisle Proměnná je Binární
- předpoklad #2: pozorování jsou nezávislá
- předpoklad #3: Neexistuje žádná Multikolinearita mezi vysvětlujícími proměnnými
- předpoklad #4: neexistují žádné extrémní odlehlé hodnoty
- předpoklad #5: Existuje Lineární Vztah Mezi Vysvětlujícími Proměnnými a Logit Proměnné Odezvy
- předpoklad #6: Velikost Vzorku je Dostatečně Velké
- předpoklady logistické regrese vs. Lineární Regrese
Předpoklad Č. 1: závisle Proměnná je Binární
Logistické regrese předpokládá, že proměnná odezvy trvá pouze na dva možné výsledky. Některé příklady zahrnují:
- Ano nebo Ne
- Muž nebo Žena
- Pass nebo Fail
- Vypracoval nebo Není Vypracován
- Maligní nebo Benigní
Jak zkontrolovat tento předpoklad: Jednoduše spočítat, kolik unikátních výsledků se vyskytují v reakci proměnné. Pokud existují více než dva možné výsledky, budete muset místo toho provést ordinální regresi.
předpoklad #2: pozorování jsou nezávislá
logistická regrese předpokládá, že pozorování v datovém souboru jsou na sobě nezávislá. To znamená, že pozorování by neměla pocházet z opakovaných měření stejného jedince nebo by měla být navzájem spojena.
Jak zkontrolovat tento předpoklad: nejjednodušší způsob, jak ověřit tento předpoklad je vytvořit graf reziduí proti času (tj. pořadí pozorování) a sledovat, zda nebo ne tam je náhodný vzor. Pokud neexistuje náhodný vzor, může být tento předpoklad porušen.
předpoklad #3: Neexistuje žádná Multikolinearita mezi vysvětlujícími proměnnými
logistická regrese předpokládá, že mezi vysvětlujícími proměnnými neexistuje žádná závažná multikolinearita.
Multikolinearita nastane, když dva nebo více vysvětlující proměnné jsou vysoce korelované navzájem, tak, že neposkytují jedinečný nebo nezávislé informace v regresním modelu. Pokud je stupeň korelace mezi proměnnými dostatečně vysoký, může to způsobit problémy při montáži a interpretaci modelu.
například, předpokládejme, že chcete provést logistické regrese pomocí max vertikální skok jako vysvětlované proměnné a tyto proměnné jako vysvětlující proměnné:
- výška Přehrávače
- Hráč velikost bot
- Hodiny strávené cvičit denně
V tomto případě, výška a velikost boty je pravděpodobné, že být vysoce korelované, protože vyšší lidé mají tendenci mít větší velikosti obuvi. To znamená, že multikolinearita bude pravděpodobně problémem, pokud použijeme obě tyto proměnné v regresi.
jak zkontrolovat tento předpoklad: Nejběžnější způsob, jak zjistit, multikolinearita je pomocí variance inflační faktor (VIF), který měří korelace a síla korelace mezi prediktorem proměnné v regresním modelu. V tomto tutoriálu najdete podrobné vysvětlení, jak vypočítat a interpretovat hodnoty VIF.
předpoklad #4: neexistují žádné extrémní odlehlé hodnoty
logistická regrese předpokládá, že v datovém souboru nejsou žádné extrémní odlehlé hodnoty nebo vlivná pozorování.
jak zkontrolovat tento předpoklad: Nejběžnějším způsobem testování extrémních odlehlých hodnot a vlivných pozorování v datovém souboru je výpočet Cookovy vzdálenosti pro každé pozorování. Pokud skutečně existují odlehlé hodnoty, můžete se rozhodnout (1) je odstranit, (2) nahradit je hodnotou, jako je průměr nebo medián, nebo (3) je jednoduše ponechat v modelu, ale při hlášení výsledků regrese si o tom poznamenejte.
předpoklad #5: Existuje Lineární Vztah Mezi Vysvětlujícími Proměnnými a Logit Proměnné Odezvy
Logistické regrese předpokládá, že existuje lineární vztah mezi každou vysvětlující proměnnou a logit proměnné odezvy. Připomeňme, že logit je definován jako:
Logit (p) = log (p / (1-p)), kde p je pravděpodobnost pozitivního výsledku.
jak zkontrolovat tento předpoklad: nejjednodušší způsob, jak zjistit, zda je tento předpoklad splněn, je použít test Box-Tidwell.
předpoklad #6: Velikost Vzorku je Dostatečně Velké
Logistické regrese předpokládá, že velikost vzorku z datového souboru pokud je dostatečně velký, aby vyvodit platné závěry z zařízená modelu logistické regrese.
jak zkontrolovat tento předpoklad: zpravidla byste měli mít minimálně 10 případů s nejméně častým výsledkem pro každou vysvětlující proměnnou. Pokud máte například 3 vysvětlující proměnné a očekávaná pravděpodobnost nejméně častého výsledku je 0,20, měli byste mít velikost vzorku alespoň (10*3) / 0.20 = 150.
předpoklady logistické regrese vs. Lineární Regrese
na rozdíl od lineární regrese, logistické regrese nevyžaduje:
- lineární vztah mezi vysvětlující proměnnou(y) a proměnné odpovědi.
- zbytky modelu, které mají být normálně distribuovány.
- zbytky mají konstantní rozptyl, také známý jako homoscedasticity.
související: čtyři předpoklady lineární regrese