Articles

De 6 antagelser om logistisk Regression (med eksempler)

logistisk regression er en metode, som vi kan bruge til at passe til en regressionsmodel, når responsvariablen er binær.

inden du tilpasser en model til et datasæt, antager logistisk regression følgende antagelser:

antagelse #1: Responsvariablen er binær

logistisk regression antager, at responsvariablen kun får to mulige resultater. Nogle eksempler inkluderer:

  • ja eller Nej
  • mand eller kvinde
  • Pass or Fail
  • udarbejdet eller ikke udarbejdet
  • malign eller godartet

Sådan kontrolleres denne antagelse: tæl blot, hvor mange unikke resultater der forekommer i responsvariablen. Hvis der er mere end to mulige resultater, skal du udføre ordinær regression i stedet.

antagelse # 2: observationerne er uafhængige

logistisk regression forudsætter, at observationerne i datasættet er uafhængige af hinanden. Det vil sige, at observationerne ikke skal komme fra gentagne målinger af det samme individ eller være relateret til hinanden på nogen måde.

Sådan kontrolleres denne antagelse: den nemmeste måde at kontrollere denne antagelse på er at oprette et plot af rester mod tiden (dvs.rækkefølgen af observationerne) og observere, om der er et tilfældigt mønster eller ej. Hvis der ikke er et tilfældigt mønster, kan denne antagelse overtrædes.

antagelse #3: Der er ingen multikollinearitet blandt forklarende variabler

logistisk regression antager, at der ikke er nogen alvorlig multikollinearitet blandt de forklarende variabler.

multikollinearitet opstår, når to eller flere forklarende variabler er stærkt korrelerede med hinanden, således at de ikke giver unik eller uafhængig information i regressionsmodellen. Hvis graden af korrelation er høj nok mellem variabler, kan det medføre problemer ved montering og fortolkning af modellen. lodret spring som svarvariablen og følgende variabler som forklarende variabler:

  • Spillerhøjde
  • Spillerskostørrelse
  • timer brugt på at øve om dagen

i dette tilfælde vil højde og skostørrelse sandsynligvis være stærkt korreleret, da højere mennesker har tendens til at have større skostørrelser. Dette betyder, at multikollinearitet sandsynligvis vil være et problem, hvis vi bruger begge disse variabler i regressionen.

Sådan kontrolleres denne antagelse: Den mest almindelige måde at opdage multikollinearitet på er ved at bruge variansinflation faktor (VIF), som måler korrelationen og styrken af korrelationen mellem forudsigelsesvariablerne i en regressionsmodel. Tjek denne tutorial for en dybdegående forklaring på, hvordan man beregner og fortolker VIF-værdier.

antagelse # 4: der er ingen ekstreme Outliers

logistisk regression antager, at der ikke er ekstreme outliers eller indflydelsesrige observationer i datasættet.

Sådan kontrolleres denne antagelse: Den mest almindelige måde at teste for ekstreme outliers og indflydelsesrige observationer i et datasæt er at beregne Cooks afstand for hver observation. Hvis der faktisk er outliers, kan du vælge at (1) fjerne dem, (2) erstatte dem med en værdi som middelværdien eller medianen, eller (3) blot holde dem i modellen, men noter om dette, når du rapporterer regressionsresultaterne.

antagelse #5: Der er et lineært forhold mellem forklarende variabler og Logit for Responsvariablen

logistisk regression antager, at der findes et lineært forhold mellem hver forklarende variabel og logit for responsvariablen. Husk at logit er defineret som:

Logit(p) = log(p / (1-p)) hvor p er sandsynligheden for et positivt resultat.

Sådan kontrolleres denne antagelse: den nemmeste måde at se, om denne antagelse er opfyldt, er at bruge en boks-Tidevandstest.

antagelse #6: Stikprøvestørrelsen er tilstrækkelig stor

logistisk regression forudsætter, at stikprøvestørrelsen af datasættet, hvis den er stor nok til at drage gyldige konklusioner fra den monterede logistiske regressionsmodel.

Sådan kontrolleres denne antagelse: som tommelfingerregel skal du have mindst 10 tilfælde med det mindst hyppige resultat for hver forklarende variabel. For eksempel, hvis du har 3 forklarende variabler, og den forventede sandsynlighed for det mindst hyppige resultat er 0,20, skal du have en stikprøvestørrelse på mindst (10*3) / 0.20 = 150.

antagelser om logistisk Regression vs. Lineær Regression

i modsætning til lineær regression kræver logistisk regression ikke:

  • et lineært forhold mellem den forklarende variabel(er) og responsvariablen.
  • resterne af modellen, der skal distribueres normalt.
  • resterne har konstant varians, også kendt som homoscedasticity.

relateret: De fire antagelser om lineær Regression