Logistisen Regression 6 oletusta (esimerkein)
logistinen regressio on menetelmä, jolla voimme sovittaa regressiomallin, kun vastemuuttuja on binäärinen.
ennen mallin liittämistä tietojoukkoon logistinen regressio tekee seuraavat oletukset:
- oletus #1: Vastemuuttuja on binäärinen
- oletus #2: havainnot ovat riippumattomia
- oletus #3: Selittävien muuttujien joukossa
- oletus #4: ei ole olemassa äärimmäisiä poikkeamia
- oletus #5: Selittävien muuttujien välillä on lineaarinen suhde ja vastemuuttujan logit
- oletus #6: Otoskoko on riittävän suuri
- logistisen Regression oletukset vs. Lineaarinen regressio
oletus #1: Vastemuuttuja on binäärinen
logistinen regressio olettaa, että vastemuuttuja saa vain kaksi mahdollista lopputulosta. Joitakin esimerkkejä ovat:
- Kyllä tai ei
- mies tai nainen
- läpäisee tai ei
- laadittu tai ei laadittu
- pahanlaatuinen tai hyvänlaatuinen
miten tämä oletus tarkistetaan: lasketaan vain, kuinka monta yksittäistä lopputulosta vastemuuttujassa esiintyy. Jos on enemmän kuin kaksi mahdollista lopputulosta, sinun täytyy suorittaa ordinaalinen regressio sen sijaan.
oletus #2: havainnot ovat riippumattomia
logistinen regressio olettaa, että aineiston havainnot ovat toisistaan riippumattomia. Toisin sanoen havainnot eivät saa tulla saman yksilön toistuvista mittauksista tai liittyä toisiinsa millään tavalla.
miten tarkistaa tämä oletus: helpoin tapa tarkistaa tämä oletus on luoda jäännösjäännös aikaa vastaan (eli havaintojen järjestys) ja tarkkailla, onko satunnaiskuviota vai ei. Jos ei ole satunnaista kaavaa, tämä oletus voidaan rikkoa.
oletus #3: Selittävien muuttujien joukossa
logistinen regressio olettaa, että selittävien muuttujien joukossa ei ole vakavaa monisolineaarisuutta.
Monikollineaarisuus syntyy, kun kaksi tai useampi selittävä muuttuja korreloi voimakkaasti keskenään siten, että ne eivät anna regressiomallissa ainutkertaista tai riippumatonta tietoa. Jos muuttujien välinen korrelaatio on riittävän korkea, se voi aiheuttaa ongelmia mallia sovittaessa ja tulkittaessa.
Oletetaan esimerkiksi, että haluat suorittaa logistisen regression käyttäen vastemuuttujana maksimaalista pystyhyppyä ja selittävinä muuttujina seuraavia muuttujia:
- pelaajan pituus
- pelaajan kengän koko
- harjoitteluun päivässä käytetyt tunnit
tässä tapauksessa pituus ja kengän koko todennäköisesti korreloivat suuresti, koska pidemmillä ihmisillä on yleensä suuremmat kenkäkoot. Tämä tarkoittaa, että multikolineaarisuus on todennäköisesti ongelma, jos käytämme näitä molempia muuttujia regressiossa.
näin tarkistat tämän oletuksen: Yleisin tapa havaita monisolineaarisuus on varianssi-inflaatiokertoimella (Vif), joka mittaa regressiomallissa predikaattorimuuttujien korrelaatiota ja korrelaation voimakkuutta. Tutustu tähän opetusohjelmaan saadaksesi perusteellisen selityksen siitä, miten VIF-arvot lasketaan ja tulkitaan.
oletus #4: ei ole olemassa äärimmäisiä poikkeamia
logistinen regressio olettaa, että aineistossa ei ole äärimmäisiä poikkeamia tai vaikuttavia havaintoja.
näin tarkistat tämän oletuksen: Yleisin tapa testata äärimmäisiä poikkeamia ja vaikuttavia havaintoja aineistossa on laskea Cookin etäisyys kullekin havainnolle. Jos todella on poikkeavia arvoja, voit valita (1) poistaa ne, (2) korvata ne arvolla, kuten keskiarvo tai mediaani, tai (3) yksinkertaisesti pitää ne mallissa, mutta tee tästä merkintä raportoidessasi regressiotuloksia.
oletus #5: Selittävien muuttujien välillä on lineaarinen suhde ja vastemuuttujan logit
logistinen regressio olettaa, että kunkin selittävän muuttujan ja vastemuuttujan logitin välillä on lineaarinen suhde. Logit määritellään seuraavasti:
Logit(P) = log(p / (1-p)), jossa p on positiivisen tuloksen todennäköisyys.
miten tämä oletus tarkistetaan: helpoin tapa nähdä täyttyykö tämä oletus on käyttää Box-Tidwell-testiä.
oletus #6: Otoskoko on riittävän suuri
logistisessa regressiossa oletetaan, että aineiston otoskoko, jos se on tarpeeksi suuri, jotta voidaan tehdä pätevät johtopäätökset sovitetusta logistisesta regressiomallista.
tämän oletuksen tarkistaminen: nyrkkisääntönä on, että kutakin selittävää muuttujaa kohti tulee olla vähintään 10 tapausta, joissa lopputulos on vähiten. Esimerkiksi, jos sinulla on 3 selittävää muuttujaa ja oletettu todennäköisyys vähiten toistuvalle tulokselle on 0,20, otoskoko on vähintään (10*3) / 0.20 = 150.
logistisen Regression oletukset vs. Lineaarinen regressio
toisin kuin lineaarinen regressio, logistinen regressio ei vaadi:
- lineaarista suhdetta selittävän muuttujan(selittävien muuttujien) ja vastemuuttujan välillä.
- normaalisti jaettavat mallin jäännökset.
- jäännöksillä on vakiovarianssi, joka tunnetaan myös homoskedastisuutena.
liittyvät: lineaarisen Regression neljä oletusta