Die 6 Annahmen der logistischen Regression (mit Beispielen)
Die logistische Regression ist eine Methode, mit der wir ein Regressionsmodell anpassen können, wenn die Antwortvariable binär ist.
Bevor ein Modell an einen Datensatz angepasst wird, nimmt die logistische Regression die folgenden Annahmen an:
- Annahme #1: Die Antwortvariable ist binär
- Annahme #2: Die Beobachtungen sind unabhängig
- Annahme #3: Es gibt keine Multikollinearität unter erklärenden Variablen
- Annahme #4: Es gibt keine extremen Ausreißer
- Annahme #5: Es besteht eine lineare Beziehung zwischen erklärenden Variablen und dem Logit der Antwortvariablen
- Annahme #6: Die Stichprobengröße ist ausreichend groß
- Annahmen der logistischen Regression vs. Lineare Regression
Annahme #1: Die Antwortvariable ist binär
Die logistische Regression geht davon aus, dass die Antwortvariable nur zwei mögliche Ergebnisse annimmt. Einige Beispiele sind:
- Ja oder Nein
- Männlich oder weiblich
- Bestanden oder nicht bestanden
- Entworfen oder nicht entworfen
- Bösartig oder gutartig
So überprüfen Sie diese Annahme: Zählen Sie einfach, wie viele eindeutige Ergebnisse in der Antwortvariablen auftreten. Wenn es mehr als zwei mögliche Ergebnisse gibt, müssen Sie stattdessen eine ordinale Regression durchführen.
Annahme #2: Die Beobachtungen sind unabhängig
Bei der logistischen Regression wird davon ausgegangen, dass die Beobachtungen im Datensatz unabhängig voneinander sind. Das heißt, die Beobachtungen sollten nicht aus wiederholten Messungen derselben Person stammen oder in irgendeiner Weise miteinander in Beziehung stehen.
So überprüfen Sie diese Annahme: Der einfachste Weg, diese Annahme zu überprüfen, besteht darin, ein Diagramm der Residuen gegen die Zeit (dh die Reihenfolge der Beobachtungen) zu erstellen und zu beobachten, ob ein Zufallsmuster vorliegt oder nicht. Wenn es kein zufälliges Muster gibt, kann diese Annahme verletzt werden.
Annahme #3: Es gibt keine Multikollinearität unter erklärenden Variablen
Die logistische Regression geht davon aus, dass es keine starke Multikollinearität unter den erklärenden Variablen gibt. Multikollinearität tritt auf, wenn zwei oder mehr erklärende Variablen stark miteinander korreliert sind, so dass sie keine eindeutigen oder unabhängigen Informationen im Regressionsmodell liefern. Wenn der Korrelationsgrad zwischen Variablen hoch genug ist, kann dies zu Problemen bei der Anpassung und Interpretation des Modells führen. Angenommen, Sie möchten eine logistische Regression mit max vertical jump als Antwortvariable und den folgenden Variablen als erklärenden Variablen durchführen:
- Spielergröße
- Spielerschuhgröße
- Übungsstunden pro Tag
In diesem Fall sind Größe und Schuhgröße wahrscheinlich stark korreliert, da größere Menschen tendenziell größere Schuhgrößen haben. Dies bedeutet, dass Multikollinearität wahrscheinlich ein Problem darstellt, wenn wir beide Variablen in der Regression verwenden.
Wie kann man diese Annahme überprüfen: Der häufigste Weg, Multikollinearität zu erkennen, ist die Verwendung des Varianzinflationsfaktors (VIF), der die Korrelation und Stärke der Korrelation zwischen den Prädiktorvariablen in einem Regressionsmodell misst. In diesem Tutorial erfahren Sie ausführlich, wie Sie VIF-Werte berechnen und interpretieren.
Annahme #4: Es gibt keine extremen Ausreißer
Die logistische Regression geht davon aus, dass es keine extremen Ausreißer oder einflussreichen Beobachtungen im Datensatz gibt.
Wie kann man diese Annahme überprüfen: Die gebräuchlichste Methode zum Testen auf extreme Ausreißer und einflussreiche Beobachtungen in einem Datensatz besteht darin, die Cook-Entfernung für jede Beobachtung zu berechnen. Wenn es tatsächlich Ausreißer gibt, können Sie diese (1) entfernen, (2) durch einen Wert wie den Mittelwert oder Median ersetzen oder (3) sie einfach im Modell belassen, dies jedoch bei der Meldung der Regressionsergebnisse notieren.
Annahme #5: Es besteht eine lineare Beziehung zwischen erklärenden Variablen und dem Logit der Antwortvariablen
Die logistische Regression geht davon aus, dass zwischen jeder erklärenden Variablen und dem Logit der Antwortvariablen eine lineare Beziehung besteht. Denken Sie daran, dass das Logit definiert ist als:
Logit(p) = log(p / (1-p)) wobei p die Wahrscheinlichkeit eines positiven Ergebnisses ist.
So überprüfen Sie diese Annahme: Der einfachste Weg, um festzustellen, ob diese Annahme erfüllt ist, ist die Verwendung eines Box-Tidwell-Tests.
Annahme #6: Die Stichprobengröße ist ausreichend groß
Bei der logistischen Regression wird davon ausgegangen, dass die Stichprobengröße des Datensatzes groß genug ist, um gültige Schlussfolgerungen aus dem angepassten logistischen Regressionsmodell zu ziehen.
So überprüfen Sie diese Annahme: Als Faustregel sollten Sie mindestens 10 Fälle mit dem am wenigsten häufigen Ergebnis für jede erklärende Variable haben. Wenn Sie beispielsweise 3 erklärende Variablen haben und die erwartete Wahrscheinlichkeit des am wenigsten häufigen Ergebnisses 0,20 beträgt, sollten Sie einen Stichprobenumfang von mindestens haben (10*3) / 0.20 = 150.
Annahmen der logistischen Regression vs. Lineare Regression
Im Gegensatz zur linearen Regression erfordert die logistische Regression nicht:
- Eine lineare Beziehung zwischen der erklärenden Variablen und der Antwortvariablen.
- Die Residuen des normalverteilten Modells.
- Die Residuen haben eine konstante Varianz, auch bekannt als Homoskedastizität.
Verwandt: Die vier Annahmen der linearen Regression