Articles

De 6 veronderstellingen van logistieke regressie (met voorbeelden)

logistieke regressie is een methode die we kunnen gebruiken om in een regressiemodel te passen wanneer de responsvariabele binair is.

alvorens een model aan een dataset toe te passen, maakt logistische regressie de volgende aannames:

aanname #1: De responsvariabele is binair

logistische regressie gaat ervan uit dat de responsvariabele slechts twee mogelijke uitkomsten krijgt. Enkele voorbeelden zijn::

  • ja of Nee
  • man of vrouw
  • Pass or Fail
  • opgesteld of niet opgesteld
  • maligne of goedaardig

Hoe controleer je deze aanname: tel gewoon hoeveel unieke uitkomsten voorkomen in de responsvariabele. Als er meer dan twee mogelijke uitkomsten zijn, moet u in plaats daarvan ordinale regressie uitvoeren.

aanname # 2: de waarnemingen zijn onafhankelijk

logistische regressie veronderstelt dat de waarnemingen in de dataset onafhankelijk van elkaar zijn. Dat wil zeggen, de waarnemingen mogen niet afkomstig zijn van herhaalde metingen van hetzelfde individu of op enigerlei wijze met elkaar verband houden.

hoe deze aanname te controleren: de makkelijkste manier om deze aanname te controleren is door een plot van reststoffen te maken tegen de tijd (d.w.z. de volgorde van de waarnemingen) en te observeren of er al dan niet een willekeurig patroon is. Als er geen willekeurig patroon is, dan kan deze aanname worden geschonden.

aanname # 3: Er is geen multicollineariteit onder verklarende variabelen

logistische regressie veronderstelt dat er geen ernstige multicollineariteit onder de verklarende variabelen is.

multicollineariteit treedt op wanneer twee of meer verklarende variabelen sterk met elkaar gecorreleerd zijn, zodat zij geen unieke of onafhankelijke informatie in het regressiemodel opleveren. Als de mate van correlatie tussen variabelen hoog genoeg is, kan dit problemen veroorzaken bij het passen en interpreteren van het model.

bijvoorbeeld, stel dat u logistische regressie wilt uitvoeren met behulp van max verticale sprong als de responsvariabele en de volgende variabelen als verklarende variabelen:

  • speler hoogte
  • speler schoenmaat
  • uren besteed aan het oefenen per dag

in dit geval zijn hoogte en schoenmaat waarschijnlijk sterk gecorreleerd omdat grotere mensen de neiging hebben grotere schoenmaten te hebben. Dit betekent dat multicollineariteit waarschijnlijk een probleem is als we beide variabelen gebruiken in de regressie.

hoe deze aanname te controleren: De meest voorkomende manier om multicollineariteit te detecteren is door gebruik te maken van de variance inflation factor (VIF), die de correlatie en de sterkte van de correlatie tussen de voorspellende variabelen in een regressiemodel meet. Bekijk deze tutorial voor een diepgaande uitleg over het berekenen en interpreteren van VIF-waarden.

aanname #4: Er zijn geen Extreme uitschieters

logistieke regressie veronderstelt dat er geen extreme uitschieters of invloedrijke waarnemingen in de dataset zijn.

hoe deze aanname te controleren: De meest voorkomende manier om te testen op extreme uitschieters en invloedrijke observaties in een dataset is om de afstand van Cook te berekenen voor elke waarneming. Als er inderdaad uitschieters zijn, kunt u ervoor kiezen om (1) ze te verwijderen, (2) ze te vervangen door een waarde zoals het gemiddelde of mediaan, of (3) ze gewoon in het model te houden, maar hier een notitie van te maken bij het rapporteren van de regressieresultaten.

aanname # 5: Er is een lineair verband tussen verklarende variabelen en de Logit van de responsvariabele

logistische regressie veronderstelt dat er een lineair verband bestaat tussen elke verklarende variabele en de logit van de responsvariabele. Bedenk dat de logit gedefinieerd is als:

Logit (P) = log(p / (1-p)) waarbij p de waarschijnlijkheid is van een positieve uitkomst.

hoe deze aanname te controleren: de makkelijkste manier om te zien of aan deze aanname wordt voldaan, is door een Box-Tidwell-test te gebruiken.

aanname # 6: De steekproefgrootte is voldoende groot

logistieke regressie veronderstelt dat de steekproefgrootte van de gegevensset groot genoeg is om geldige conclusies te trekken uit het aangepaste logistieke regressiemodel.

Hoe controleer je deze aanname: als vuistregel moet je minimaal 10 gevallen hebben met de minst frequente uitkomst voor elke verklarende variabele. Bijvoorbeeld, als je 3 verklarende variabelen en de verwachte waarschijnlijkheid van de minst frequente uitkomst is 0,20, dan moet je een steekproefgrootte van ten minste (10*3) / 0.20 = 150.

veronderstellingen van logistieke regressie vs. Lineaire regressie

in tegenstelling tot lineaire regressie vereist logistische regressie geen:

  • een lineair verband tussen de verklarende variabele(s) en de responsvariabele.
  • de reststoffen van het model die normaal moeten worden verdeeld.
  • de reststoffen hebben een constante variantie, ook bekend als homoscedasticiteit.

gerelateerd: De vier veronderstellingen van lineaire regressie