Le 6 ipotesi di regressione logistica (con esempi)
La regressione logistica è un metodo che possiamo usare per adattare un modello di regressione quando la variabile di risposta è binaria.
Prima di adattare un modello a un set di dati, la regressione logistica fa le seguenti ipotesi:
- Ipotesi #1: La variabile di risposta è binaria
- Ipotesi #2: Le osservazioni sono indipendenti
- Ipotesi # 3: Non esiste una multicollinearità tra le variabili esplicative
- Ipotesi #4: Non ci sono valori anomali estremi
- Ipotesi # 5: Esiste una relazione lineare tra le variabili esplicative e il Logit della variabile di risposta
- Ipotesi # 6: La dimensione del campione è sufficientemente grande
- Ipotesi di regressione logistica vs. Regressione lineare
Ipotesi #1: La variabile di risposta è binaria
La regressione logistica presuppone che la variabile di risposta assuma solo due possibili risultati. Alcuni esempi includono:
- Sì o No
- Maschio o Femmina
- Passa o fallisce
- Redatto o non redatto
- Maligno o benigno
Come verificare questa ipotesi: conta semplicemente quanti risultati unici si verificano nella variabile di risposta. Se ci sono più di due possibili risultati, sarà necessario eseguire invece la regressione ordinale.
Ipotesi #2: Le osservazioni sono indipendenti
La regressione logistica presuppone che le osservazioni nel set di dati siano indipendenti l’una dall’altra. Cioè, le osservazioni non dovrebbero provenire da misurazioni ripetute dello stesso individuo o essere correlate tra loro in alcun modo.
Come verificare questa ipotesi: Il modo più semplice per verificare questa ipotesi è creare una trama di residui contro il tempo (cioè l’ordine delle osservazioni) e osservare se esiste o meno un modello casuale. Se non esiste un modello casuale, questa ipotesi potrebbe essere violata.
Ipotesi # 3: Non esiste una multicollinearità tra le variabili esplicative
La regressione logistica presuppone che non vi sia una multicollinearità grave tra le variabili esplicative.
La multicollinearità si verifica quando due o più variabili esplicative sono altamente correlate tra loro, in modo tale da non fornire informazioni univoche o indipendenti nel modello di regressione. Se il grado di correlazione è abbastanza alto tra le variabili, può causare problemi durante il montaggio e l’interpretazione del modello.
Per esempio, supponiamo che si desidera eseguire la regressione logistica, utilizzando max salto verticale come la variabile di risposta e le seguenti variabili come variabili esplicative:
- Lettore di altezza
- Lettore di scarpe
- Ore passato la pratica al giorno
In questo caso, altezza e numero di scarpe sono suscettibili di essere altamente correlati, dal momento che le persone più alte tendono ad avere grandi taglie scarpa. Ciò significa che è probabile che la multicollinearità sia un problema se usiamo entrambe queste variabili nella regressione.
Come verificare questa ipotesi: Il modo più comune per rilevare la multicollinearità è utilizzando il fattore di varianza inflazione (VIF), che misura la correlazione e la forza della correlazione tra le variabili predittive in un modello di regressione. Dai un’occhiata a questo tutorial per una spiegazione approfondita di come calcolare e interpretare i valori VIF.
Ipotesi #4: Non ci sono valori anomali estremi
La regressione logistica presuppone che non ci siano valori anomali estremi o osservazioni influenti nel set di dati.
Come verificare questa ipotesi: Il modo più comune per testare valori anomali estremi e osservazioni influenti in un set di dati è calcolare la distanza di Cook per ogni osservazione. Se ci sono effettivamente valori anomali, puoi scegliere di (1) rimuoverli, (2) sostituirli con un valore come la media o la mediana, o (3) semplicemente tenerli nel modello ma prendere nota di questo quando si riportano i risultati di regressione.
Ipotesi # 5: Esiste una relazione lineare tra le variabili esplicative e il Logit della variabile di risposta
La regressione logistica presuppone che esista una relazione lineare tra ciascuna variabile esplicativa e il logit della variabile di risposta. Ricordiamo che il logit è definito come:
Logit (p) = log(p / (1-p)) dove p è la probabilità di un risultato positivo.
Come controllare questa ipotesi: Il modo più semplice per vedere se questa ipotesi è soddisfatta è usare un test Box-Tidwell.
Ipotesi # 6: La dimensione del campione è sufficientemente grande
Regressione logistica presuppone che la dimensione del campione del set di dati se abbastanza grande per trarre conclusioni valide dal modello di regressione logistica montato.
Come verificare questa ipotesi: Come regola generale, dovresti avere un minimo di 10 casi con il risultato meno frequente per ogni variabile esplicativa. Ad esempio, se si dispone di 3 variabili esplicative e la probabilità prevista del risultato meno frequente è 0,20, si dovrebbe avere una dimensione del campione di almeno (10*3) / 0.20 = 150.
Ipotesi di regressione logistica vs. Regressione lineare
A differenza della regressione lineare, la regressione logistica non richiede:
- Una relazione lineare tra la variabile esplicativa e la variabile di risposta.
- I residui del modello da distribuire normalmente.
- I residui di avere varianza costante, noto anche come omoscedasticità.
Correlati: le quattro ipotesi di regressione lineare