Articles

A logisztikai regresszió 6 feltételezése (példákkal)

A logisztikai regresszió olyan módszer, amelyet felhasználhatunk egy regressziós modell illesztésére, ha a válaszváltozó bináris.

mielőtt modellt illesztene egy adatkészlethez, a logisztikai regresszió a következő feltételezéseket teszi:

1.feltételezés: a Válaszváltozó bináris

a logisztikai regresszió feltételezi, hogy a válaszváltozó csak két lehetséges eredményt vesz fel. Néhány példa:

  • Igen vagy nem
  • férfi vagy nő
  • Pass or Fail
  • Drafted or Not Drafted
  • malignus or Benign

hogyan lehet ellenőrizni ezt a feltételezést: egyszerűen számolja meg, hogy hány egyedi kimenetel fordul elő a válaszváltozóban. Ha kettőnél több lehetséges kimenetel van, akkor inkább ordinális regressziót kell végrehajtania.

2. feltételezés: a megfigyelések függetlenek

a logisztikai regresszió feltételezi, hogy az adatkészlet megfigyelései függetlenek egymástól. Vagyis a megfigyelések nem származhatnak ugyanazon egyén ismételt méréseiből, vagy semmilyen módon nem kapcsolódhatnak egymáshoz.

hogyan lehet ellenőrizni ezt a feltételezést: a legegyszerűbb módja annak, hogy ellenőrizze ezt a feltételezést, hogy hozzon létre egy telek maradványok idővel (azaz a sorrendben a megfigyelések), és megfigyeljük, hogy van-e egy véletlenszerű minta. Ha nincs véletlenszerű minta, akkor ezt a feltételezést megsérthetik.

feltételezés #3: A magyarázó változók között nincs Multikollinearitás

a logisztikai regresszió feltételezi, hogy a magyarázó változók között nincs súlyos multikollinearitás.

Multikollinearitás akkor fordul elő, amikor két vagy több magyarázó változó erősen korrelál egymással, oly módon, hogy nem nyújtanak egyedi vagy független információt a regressziós modellben. Ha a korreláció mértéke elég magas a változók között, problémákat okozhat a modell illesztésekor és értelmezésekor.

tegyük fel például, hogy a logisztikus regressziót a Max függőleges ugrás mint válaszváltozó, és a következő változókat magyarázó változók segítségével kívánja végrehajtani:

  • Játékosmagasság
  • játékos cipőméret
  • napi gyakorlással töltött órák

ebben az esetben a magasság és a cipőméret valószínűleg erősen korrelál, mivel a magasabb emberek általában nagyobb cipőmérettel rendelkeznek. Ez azt jelenti, hogy a multikollinearitás valószínűleg problémát jelent, ha mindkét változót használjuk a regresszióban.

hogyan lehet ellenőrizni ezt a feltételezést: A multikollinearitás kimutatásának leggyakoribb módja a variancia inflációs tényező (VIF) használata, amely a regressziós modellben a prediktor változók közötti korreláció és korreláció erősségét méri. Nézze meg ezt az oktatóanyagot a VIF értékek kiszámításának és értelmezésének részletes magyarázatához.

4. feltételezés: nincsenek extrém kiugró értékek

a logisztikai regresszió feltételezi, hogy nincsenek szélsőséges kiugró értékek vagy befolyásos megfigyelések az adatkészletben.

hogyan lehet ellenőrizni ezt a feltételezést: A legáltalánosabb módja annak, hogy teszteljék a szélsőséges kiugró és befolyásos megfigyelések egy adathalmazban, hogy kiszámítja szakács távolsága minden egyes megfigyelés. Ha valóban vannak kiugró értékek, akkor dönthet úgy, hogy (1) eltávolítja őket, (2) kicseréli őket olyan értékre, mint az átlag vagy a medián, vagy (3) egyszerűen megtartja őket a modellben, de erről jegyezze fel a regressziós eredmények jelentésekor.

5. feltételezés: Lineáris kapcsolat van a magyarázó változók és a Válaszváltozó Logitja között

a logisztikus regresszió feltételezi, hogy lineáris kapcsolat van minden magyarázó változó és a válaszváltozó logitja között. Emlékezzünk arra, hogy a logit meghatározása:

Logit(p) = log(p / (1-p)), ahol p a pozitív eredmény valószínűsége.

hogyan ellenőrizzük ezt a feltételezést: a legegyszerűbb módja annak, hogy megnézzük, hogy ez a feltételezés teljesül-e, egy Box-Tidwell teszt használata.

feltételezés # 6: A minta mérete elég nagy

a logisztikai regresszió feltételezi, hogy az adatkészlet mintamérete, ha elég nagy ahhoz, hogy érvényes következtetéseket vonjon le az illesztett logisztikai regressziós modellből.

hogyan lehet ellenőrizni ezt a feltételezést: ökölszabályként legalább 10 esetnek kell lennie, amelyek a legkevésbé gyakoriak az egyes magyarázó változókhoz. Például, ha 3 magyarázó változója van, és a legkevésbé gyakori kimenetel várható valószínűsége 0,20, akkor a minta mérete legalább (10*3) / 0.20 = 150.

A logisztikai regresszió feltételezései vs. Lineáris regresszió

a lineáris regresszióval ellentétben a logisztikus regresszió nem igényel:

  • lineáris kapcsolatot a magyarázó változó(k) és a válaszváltozó között.
  • a normál eloszlású modell maradékai.
  • a maradványok állandó varianciájúak, más néven homoszkedaszticitás.

összefüggő: a lineáris regresszió négy feltételezése