6 założenia regresji logistycznej (z przykładami)
regresja logistyczna jest metodą, której możemy użyć do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna.
przed dopasowaniem modelu do zbioru danych regresja logistyczna przyjmuje następujące założenia:
- założenie #1: zmienna odpowiedzi jest binarna
- założenie #2: obserwacje są niezależne
- założenie # 3:
- założenie #4: nie ma ekstremalnych wartości odstających
- założenie #5: Istnieje liniowa zależność między zmiennymi objaśniającymi a Logitem zmiennej odpowiedzi
- założenie # 6: Wielkość próby jest wystarczająco duża
- założenia regresji logistycznej vs. Regresja liniowa
założenie #1: zmienna odpowiedzi jest binarna
regresja logistyczna zakłada, że zmienna odpowiedzi przyjmuje tylko dwa możliwe wyniki. Niektóre przykłady obejmują:
- tak lub nie
- mężczyzna lub kobieta
- Pass or Fail
- Drafted or Not Drafted
- złośliwy lub łagodny
Jak sprawdzić to założenie: po prostu policz, ile unikalnych wyników występuje w zmiennej odpowiedzi. Jeśli istnieje więcej niż dwa możliwe wyniki, będziesz musiał zamiast tego wykonać regresję porządkową.
założenie #2: obserwacje są niezależne
regresja logistyczna zakłada, że obserwacje w zbiorze danych są niezależne od siebie. Oznacza to, że obserwacje nie powinny pochodzić z powtarzanych pomiarów tej samej osoby lub być ze sobą powiązane w jakikolwiek sposób.
Jak sprawdzić to założenie: najprostszym sposobem sprawdzenia tego założenia jest stworzenie wykresu pozostałości względem czasu (tj. kolejności obserwacji)i obserwacja, czy istnieje losowy wzór. Jeśli nie ma przypadkowego wzorca, to założenie to może zostać naruszone.
założenie # 3:
regresja logistyczna zakłada, że między zmiennymi objaśniającymi nie występuje duża wielokolinearność.
Multicollinearity występuje, gdy dwie lub więcej zmiennych wyjaśniających są ze sobą silnie skorelowane, tak, że nie dostarczają unikalnych lub niezależnych informacji w modelu regresji. Jeśli stopień korelacji między zmiennymi jest wystarczająco wysoki, może to powodować problemy podczas dopasowywania i interpretowania modelu.
Załóżmy na przykład, że chcesz przeprowadzić regresję logistyczną, używając maksymalnego skoku pionowego jako zmiennej odpowiedzi i następujących zmiennych jako zmiennych wyjaśniających:
- wzrost zawodnika
- rozmiar buta zawodnika
- godziny spędzone na ćwiczeniach dziennie
w tym przypadku wzrost i rozmiar buta mogą być silnie skorelowane, ponieważ wyżsi ludzie mają większe rozmiary butów. Oznacza to, że multicollinearity prawdopodobnie będzie problemem, jeśli użyjemy obu tych zmiennych w regresji.
Jak sprawdzić to założenie: Najczęstszym sposobem wykrywania wielokolinearności jest użycie współczynnika inflacji wariancji (VIF), który mierzy korelację i siłę korelacji między zmiennymi predyktora w modelu regresji. Sprawdź ten samouczek, aby uzyskać szczegółowe wyjaśnienie, jak obliczać i interpretować wartości VIF.
założenie #4: nie ma ekstremalnych wartości odstających
regresja logistyczna zakłada, że nie ma ekstremalnych wartości odstających lub wpływowych obserwacji w zbiorze danych.
Jak sprawdzić to założenie: Najczęstszym sposobem badania ekstremalnych wartości odstających i wpływowych obserwacji w zbiorze danych jest obliczenie odległości Cooka dla każdej obserwacji. Jeśli rzeczywiście istnieją wartości odstające, możesz wybrać (1) usunąć je, (2) zastąpić je wartością, taką jak średnia lub mediana, lub (3) po prostu zachować je w modelu, ale zanotować o tym podczas raportowania wyników regresji.
założenie #5: Istnieje liniowa zależność między zmiennymi objaśniającymi a Logitem zmiennej odpowiedzi
regresja logistyczna zakłada, że istnieje liniowa zależność między każdą zmienną wyjaśniającą a logitem zmiennej odpowiedzi. Przypomnijmy, że logit jest zdefiniowany jako:
Logit(p) = log(p / (1-p)) gdzie p jest prawdopodobieństwem pozytywnego wyniku.
Jak sprawdzić to założenie: najprostszym sposobem, aby sprawdzić, czy to założenie jest spełnione, jest użycie testu Box-Tidwella.
założenie # 6: Wielkość próby jest wystarczająco duża
regresja logistyczna zakłada, że wielkość próby zbioru danych jest wystarczająco duża, aby wyciągnąć prawidłowe wnioski z dopasowanego modelu regresji logistycznej.
Jak sprawdzić to założenie: z reguły powinieneś mieć minimum 10 przypadków z najmniej częstym wynikiem dla każdej zmiennej wyjaśniającej. Na przykład, jeśli masz 3 zmienne wyjaśniające, a oczekiwane prawdopodobieństwo najmniej częstego wyniku wynosi 0,20, powinieneś mieć próbkę o wielkości co najmniej (10*3) / 0.20 = 150.
założenia regresji logistycznej vs. Regresja liniowa
w przeciwieństwie do regresji liniowej regresja logistyczna nie wymaga:
- liniowej zależności między zmienną objaśniającą(zmiennymi objaśniającymi) a zmienną odpowiedzi.
- pozostałości modelu, które mają być normalnie rozłożone.
- pozostałości mają stałą wariancję, znaną również jako homoscedastyczność.
Related: cztery założenia regresji liniowej