Articles

Los 6 Supuestos de Regresión Logística (Con ejemplos)

La regresión logística es un método que podemos usar para ajustar un modelo de regresión cuando la variable de respuesta es binaria.

Antes de ajustar un modelo a un conjunto de datos, la regresión logística hace las siguientes suposiciones:

Suposición #1: La Variable de respuesta es binaria

La regresión logística asume que la variable de respuesta solo toma dos resultados posibles. Algunos ejemplos incluyen:

  • Sí o No
  • Hombre o Mujer
  • Pasa o Falla
  • Redactado o No redactado
  • Maligno o Benigno

Cómo verificar esta suposición: Simplemente cuente cuántos resultados únicos se producen en la variable de respuesta. Si hay más de dos resultados posibles, tendrá que realizar regresión ordinal en su lugar.

Supuesto # 2: Las Observaciones son Independientes

La regresión logística asume que las observaciones en el conjunto de datos son independientes entre sí. Es decir, las observaciones no deben provenir de mediciones repetidas del mismo individuo ni estar relacionadas entre sí de ninguna manera.

Cómo verificar esta suposición: La forma más fácil de verificar esta suposición es crear una gráfica de residuos contra el tiempo (es decir, el orden de las observaciones) y observar si hay o no un patrón aleatorio. Si no hay un patrón aleatorio, entonces esta suposición puede ser violada.

Supuesto # 3: No hay multicolinealidad Entre las Variables Explicativas

La regresión logística asume que no hay multicolinealidad severa entre las variables explicativas.

La multicolinealidad ocurre cuando dos o más variables explicativas están altamente correlacionadas entre sí, de modo que no proporcionan información única o independiente en el modelo de regresión. Si el grado de correlación es lo suficientemente alto entre las variables, puede causar problemas a la hora de ajustar e interpretar el modelo.

Por ejemplo, supongamos que desea realizar una regresión logística utilizando el salto vertical máximo como variable de respuesta y las siguientes variables como variables explicativas:

  • Altura del jugador
  • Talla del zapato del jugador
  • Horas de práctica al día

En este caso, es probable que la altura y el tamaño del zapato estén altamente correlacionados, ya que las personas más altas tienden a tener tallas de zapatos más grandes. Esto significa que es probable que la multicolinealidad sea un problema si usamos ambas variables en la regresión.

Cómo comprobar esta suposición: La forma más común de detectar la multicolinealidad es mediante el uso del factor de inflación de varianza (VIF), que mide la correlación y la fuerza de correlación entre las variables predictoras en un modelo de regresión. Consulte este tutorial para obtener una explicación detallada de cómo calcular e interpretar los valores de VIF.

Supuesto # 4: No hay valores atípicos extremos

La regresión logística asume que no hay valores atípicos extremos u observaciones influyentes en el conjunto de datos.

Cómo comprobar esta suposición: La forma más común de probar valores atípicos extremos y observaciones influyentes en un conjunto de datos es calcular la distancia de Cook para cada observación. Si hay valores atípicos, puede elegir (1) eliminarlos, (2) reemplazarlos con un valor como la media o la mediana, o (3) simplemente mantenerlos en el modelo, pero tomar nota de esto al informar los resultados de la regresión.

Suposición # 5: Existe una Relación Lineal Entre las Variables Explicativas y el Logit de la Variable de Respuesta

La regresión logística asume que existe una relación lineal entre cada variable explicativa y el logit de la variable de respuesta. Recordemos que el logit se define como:

Logit(p) = log(p / (1-p)), donde p es la probabilidad de un resultado positivo.

Cómo verificar esta suposición: La forma más fácil de ver si se cumple esta suposición es usar una prueba de Box-Tidwell.

Supuesto # 6: El tamaño de la muestra es suficientemente grande

La regresión logística asume que el tamaño de la muestra del conjunto de datos es lo suficientemente grande como para extraer conclusiones válidas del modelo de regresión logística ajustado.

Cómo verificar esta suposición: Como regla general, debe tener un mínimo de 10 casos con el resultado menos frecuente para cada variable explicativa. Por ejemplo, si tiene 3 variables explicativas y la probabilidad esperada del resultado menos frecuente es de 0,20, entonces debe tener un tamaño de muestra de al menos (10*3) / 0.20 = 150.

Supuestos de Regresión Logística vs. Regresión lineal

En contraste con la regresión lineal, la regresión logística no requiere:

  • Una relación lineal entre las variables explicativas y la variable de respuesta.
  • Los residuos del modelo que se distribuirán normalmente.
  • Los residuos tienen varianza constante, también conocida como homocedasticidad.

Relacionados: Los Cuatro Supuestos de Regresión Lineal