Articles

6 Předpokladů Logistické Regrese (S Příklady)

Logistická regrese je metoda, kterou můžeme použít, aby se vešly regresní model, když závisle proměnná je binární.

Před montáží model dataset, logistická regrese vychází z následujících předpokladů:

Předpoklad Č. 1: závisle Proměnná je Binární

Logistické regrese předpokládá, že proměnná odezvy trvá pouze na dva možné výsledky. Některé příklady zahrnují:

  • Ano nebo Ne
  • Muž nebo Žena
  • Pass nebo Fail
  • Vypracoval nebo Není Vypracován
  • Maligní nebo Benigní

Jak zkontrolovat tento předpoklad: Jednoduše spočítat, kolik unikátních výsledků se vyskytují v reakci proměnné. Pokud existují více než dva možné výsledky, budete muset místo toho provést ordinální regresi.

předpoklad #2: pozorování jsou nezávislá

logistická regrese předpokládá, že pozorování v datovém souboru jsou na sobě nezávislá. To znamená, že pozorování by neměla pocházet z opakovaných měření stejného jedince nebo by měla být navzájem spojena.

Jak zkontrolovat tento předpoklad: nejjednodušší způsob, jak ověřit tento předpoklad je vytvořit graf reziduí proti času (tj. pořadí pozorování) a sledovat, zda nebo ne tam je náhodný vzor. Pokud neexistuje náhodný vzor, může být tento předpoklad porušen.

předpoklad #3: Neexistuje žádná Multikolinearita mezi vysvětlujícími proměnnými

logistická regrese předpokládá, že mezi vysvětlujícími proměnnými neexistuje žádná závažná multikolinearita.

Multikolinearita nastane, když dva nebo více vysvětlující proměnné jsou vysoce korelované navzájem, tak, že neposkytují jedinečný nebo nezávislé informace v regresním modelu. Pokud je stupeň korelace mezi proměnnými dostatečně vysoký, může to způsobit problémy při montáži a interpretaci modelu.

například, předpokládejme, že chcete provést logistické regrese pomocí max vertikální skok jako vysvětlované proměnné a tyto proměnné jako vysvětlující proměnné:

  • výška Přehrávače
  • Hráč velikost bot
  • Hodiny strávené cvičit denně

V tomto případě, výška a velikost boty je pravděpodobné, že být vysoce korelované, protože vyšší lidé mají tendenci mít větší velikosti obuvi. To znamená, že multikolinearita bude pravděpodobně problémem, pokud použijeme obě tyto proměnné v regresi.

jak zkontrolovat tento předpoklad: Nejběžnější způsob, jak zjistit, multikolinearita je pomocí variance inflační faktor (VIF), který měří korelace a síla korelace mezi prediktorem proměnné v regresním modelu. V tomto tutoriálu najdete podrobné vysvětlení, jak vypočítat a interpretovat hodnoty VIF.

předpoklad #4: neexistují žádné extrémní odlehlé hodnoty

logistická regrese předpokládá, že v datovém souboru nejsou žádné extrémní odlehlé hodnoty nebo vlivná pozorování.

jak zkontrolovat tento předpoklad: Nejběžnějším způsobem testování extrémních odlehlých hodnot a vlivných pozorování v datovém souboru je výpočet Cookovy vzdálenosti pro každé pozorování. Pokud skutečně existují odlehlé hodnoty, můžete se rozhodnout (1) je odstranit, (2) nahradit je hodnotou, jako je průměr nebo medián, nebo (3) je jednoduše ponechat v modelu, ale při hlášení výsledků regrese si o tom poznamenejte.

předpoklad #5: Existuje Lineární Vztah Mezi Vysvětlujícími Proměnnými a Logit Proměnné Odezvy

Logistické regrese předpokládá, že existuje lineární vztah mezi každou vysvětlující proměnnou a logit proměnné odezvy. Připomeňme, že logit je definován jako:

Logit (p) = log (p / (1-p)), kde p je pravděpodobnost pozitivního výsledku.

jak zkontrolovat tento předpoklad: nejjednodušší způsob, jak zjistit, zda je tento předpoklad splněn, je použít test Box-Tidwell.

předpoklad #6: Velikost Vzorku je Dostatečně Velké

Logistické regrese předpokládá, že velikost vzorku z datového souboru pokud je dostatečně velký, aby vyvodit platné závěry z zařízená modelu logistické regrese.

jak zkontrolovat tento předpoklad: zpravidla byste měli mít minimálně 10 případů s nejméně častým výsledkem pro každou vysvětlující proměnnou. Pokud máte například 3 vysvětlující proměnné a očekávaná pravděpodobnost nejméně častého výsledku je 0,20, měli byste mít velikost vzorku alespoň (10*3) / 0.20 = 150.

předpoklady logistické regrese vs. Lineární Regrese

na rozdíl od lineární regrese, logistické regrese nevyžaduje:

  • lineární vztah mezi vysvětlující proměnnou(y) a proměnné odpovědi.
  • zbytky modelu, které mají být normálně distribuovány.
  • zbytky mají konstantní rozptyl, také známý jako homoscedasticity.

související: čtyři předpoklady lineární regrese