De 6 Forutsetningene For Logistisk Regresjon (Med Eksempler)
Logistisk regresjon er en metode som vi kan bruke til å passe til en regresjonsmodell når responsvariabelen er binær.
før du monterer en modell til et datasett, gjør logistisk regresjon følgende forutsetninger:
- Assumption #1: Responsvariabelen Er Binær
- Antagelse # 2: Observasjonene Er Uavhengige
- Antagelse # 3: Det er Ingen Multikollinearitet blant Forklaringsvariablene
- Assumption # 4: Det er Ingen Ekstreme Outliers
- Antagelse # 5: Det Er Et Lineært Forhold Mellom Forklaringsvariabler og Logit Av Responsvariabelen
- Antagelse # 6: Utvalgsstørrelsen er Tilstrekkelig Stor
- Forutsetninger For Logistisk Regresjon vs. Lineær Regresjon
Assumption #1: Responsvariabelen Er Binær
Logistisk regresjon antar at responsvariabelen bare tar to mulige utfall. Noen eksempler er:
- Ja Eller Nei
- Mann eller Kvinne
- Pass eller Mislykkes
- Drafted or Not Drafted
- Ondartet eller Godartet
hvordan sjekke denne antagelsen: bare telle hvor mange unike utfall som oppstår i responsvariabelen. Hvis det er mer enn to mulige utfall, må du utføre ordinær regresjon i stedet.
Antagelse # 2: Observasjonene Er Uavhengige
Logistisk regresjon antar at observasjonene i datasettet er uavhengige av hverandre. Det vil si at observasjonene ikke skal komme fra gjentatte målinger av samme person eller være relatert til hverandre på noen måte.Den enkleste måten å sjekke denne antagelsen på er å lage et plott av rester mot tiden (dvs. rekkefølgen på observasjonene) og observere om det er et tilfeldig mønster eller ikke. Hvis det ikke er et tilfeldig mønster, kan denne antakelsen bli brutt.
Antagelse # 3: Det er Ingen Multikollinearitet blant Forklaringsvariablene
Logistisk regresjon forutsetter at det ikke er noen alvorlig multikollinearitet blant forklaringsvariablene.
Multikollinearitet oppstår når to eller flere forklaringsvariabler er sterkt korrelert med hverandre, slik at de ikke gir unik eller uavhengig informasjon i regresjonsmodellen. Hvis graden av korrelasjon er høy nok mellom variabler, kan det føre til problemer ved montering og tolkning av modellen. anta for eksempel at du vil utføre logistisk regresjon ved å bruke maks vertikalt hopp som responsvariabel og følgende variabler som forklaringsvariabler:
- Spillerhøyde
- Spillerskostørrelse
- Timer brukt på å øve per dag
i dette tilfellet vil høyde og skostørrelse sannsynligvis være svært korrelert siden høyere personer har en tendens til å ha større skostørrelser. Dette betyr at multikollinearitet sannsynligvis vil være et problem hvis vi bruker begge disse variablene i regresjonen.
hvordan sjekke denne antagelsen: Den vanligste måten å oppdage multikollinearitet på er å bruke variansinflasjonsfaktoren (vif), som måler korrelasjonen og styrken av korrelasjonen mellom prediktorvariablene i en regresjonsmodell. Sjekk ut denne veiledningen for en grundig forklaring på hvordan du beregner OG tolker vif-verdier.
Assumption # 4: Det er Ingen Ekstreme Outliers
Logistisk regresjon antar at det ikke er noen ekstreme outliers eller innflytelsesrike observasjoner i datasettet.
hvordan sjekke denne antagelsen: Den vanligste måten å teste for ekstreme uteliggere og innflytelsesrike observasjoner i et datasett er å beregne Cooks avstand for hver observasjon. Hvis det faktisk er outliers, kan du velge å (1) fjerne dem, (2) erstatte dem med en verdi som gjennomsnittet eller medianen, eller (3) bare holde dem i modellen, men gjør et notat om dette når du rapporterer regresjonsresultatene.
Antagelse # 5: Det Er Et Lineært Forhold Mellom Forklaringsvariabler og Logit Av Responsvariabelen
Logistisk regresjon antar at det eksisterer et lineært forhold mellom hver forklaringsvariabel og logit av responsvariabelen. Husk at logit er definert som:
Logit (p) = log (p / (1-p)) hvor p er sannsynligheten for et positivt utfall.
Hvordan sjekke denne antakelsen: den enkleste måten å se om denne antakelsen er oppfylt, er å bruke En Box-Tidwell-test.
Antagelse # 6: Utvalgsstørrelsen er Tilstrekkelig Stor
Logistisk regresjon forutsetter at utvalgsstørrelsen på datasettet er stor nok til å trekke gyldige konklusjoner fra den monterte logistiske regresjonsmodellen.
slik sjekker du denne antakelsen: som en tommelfingerregel bør du ha minimum 10 tilfeller med minst hyppig utfall for hver forklaringsvariabel. For eksempel, hvis du har 3 forklaringsvariabler og den forventede sannsynligheten for det minst hyppige utfallet er 0,20, bør du ha en prøvestørrelse på minst (10*3) / 0.20 = 150.
Forutsetninger For Logistisk Regresjon vs. Lineær Regresjon
i motsetning til lineær regresjon krever logistisk regresjon ikke:
- et lineært forhold mellom forklaringsvariabelen(e) og responsvariabelen.
- restene av modellen som skal distribueres normalt.
- residualene har konstant varians, også kjent som homoskedastisitet.
Relatert: De Fire Forutsetningene For Lineær Regresjon