Articles

De 6 antagandena om logistisk Regression (med exempel)

logistisk regression är en metod som vi kan använda för att passa en regressionsmodell när svarsvariabeln är binär.

innan en modell monteras på en dataset gör logistisk regression följande antaganden:

antagande #1: Svarsvariabeln är binär

logistisk regression antar att svarsvariabeln bara tar på sig två möjliga resultat. Några exempel är:

  • ja eller Nej
  • man eller kvinna
  • Pass eller Fail
  • utarbetad eller inte utarbetad
  • malign eller godartad

Så här kontrollerar du detta antagande: räkna helt enkelt hur många unika resultat som uppstår i svarsvariabeln. Om det finns mer än två möjliga resultat måste du istället utföra ordinär regression.

antagande # 2: observationerna är oberoende

logistisk regression förutsätter att observationerna i datauppsättningen är oberoende av varandra. Det vill säga observationerna bör inte komma från upprepade mätningar av samma individ eller vara relaterade till varandra på något sätt.

hur man kontrollerar detta antagande: det enklaste sättet att kontrollera detta antagande är att skapa en plot av rester mot tiden (dvs. observationernas ordning) och observera om det finns ett slumpmässigt mönster eller inte. Om det inte finns ett slumpmässigt mönster kan detta antagande brytas.

antagande # 3: Det finns ingen multikollinearitet bland förklarande variabler

logistisk regression förutsätter att det inte finns någon allvarlig multikollinearitet bland de förklarande variablerna.

multikollinearitet uppstår när två eller flera förklarande variabler är starkt korrelerade med varandra, så att de inte ger unik eller oberoende information i regressionsmodellen. Om graden av korrelation är tillräckligt hög mellan variabler kan det orsaka problem vid montering och tolkning av modellen.

anta till exempel att du vill utföra logistisk regression med max vertikalt hopp som svarvariabel och följande variabler som förklarande variabler:

  • Spelarhöjd
  • Spelarskostorlek
  • timmar som spenderas per dag

i det här fallet kommer höjd och skostorlek sannolikt att vara starkt korrelerade eftersom högre människor tenderar att ha större skostorlekar. Detta innebär att multikollinearitet sannolikt kommer att vara ett problem om vi använder båda dessa variabler i regressionen.

hur man kontrollerar detta antagande: Det vanligaste sättet att upptäcka multikollinearitet är att använda variansinflationsfaktorn (VIF), som mäter korrelationen och styrkan i korrelationen mellan prediktorvariablerna i en regressionsmodell. Kolla in denna handledning för en djupgående förklaring av hur man beräknar och tolkar VIF-värden.

antagande # 4: Det finns inga extrema avvikare

logistisk regression förutsätter att det inte finns några extrema avvikare eller inflytelserika observationer i datauppsättningen.

hur man kontrollerar detta antagande: Det vanligaste sättet att testa för extrema avvikare och inflytelserika observationer i en dataset är att beräkna Cooks avstånd för varje observation. Om det verkligen finns avvikare kan du välja att (1) Ta bort dem, (2) ersätta dem med ett värde som medelvärdet eller medianen, eller (3) helt enkelt behålla dem i modellen men notera detta när du rapporterar regressionsresultaten.

antagande # 5: Det finns ett linjärt förhållande mellan förklarande variabler och Logit för Svarsvariabeln

logistisk regression antar att det finns ett linjärt förhållande mellan varje förklarande variabel och logit för svarsvariabeln. Minns att logit definieras som:

Logit(p) = log(p / (1-p)) där p är sannolikheten för ett positivt resultat.

Så här kontrollerar du detta antagande: det enklaste sättet att se om detta antagande är uppfyllt är att använda ett Box-Tidwell-test.

antagande # 6: Provstorleken är tillräckligt stor

logistisk regression förutsätter att provstorleken för datauppsättningen om den är tillräckligt stor för att dra giltiga slutsatser från den monterade logistiska regressionsmodellen.

Så här kontrollerar du detta antagande: som tumregel bör du ha minst 10 fall med det minst frekventa resultatet för varje förklarande variabel. Om du till exempel har 3 förklarande variabler och den förväntade sannolikheten för det minst frekventa resultatet är 0,20, bör du ha en provstorlek på minst (10*3) / 0.20 = 150.

antaganden om logistisk Regression vs. Linjär Regression

till skillnad från linjär regression kräver logistisk regression inte:

  • ett linjärt förhållande mellan den förklarande variabeln(erna) och svarsvariabeln.
  • resterna av modellen som ska distribueras normalt.
  • resterna har konstant varians, även känd som homoscedasticitet.

relaterad: de fyra antagandena om linjär Regression