Les 6 Hypothèses de Régression logistique (Avec des exemples)
La régression logistique est une méthode que nous pouvons utiliser pour adapter un modèle de régression lorsque la variable de réponse est binaire.
Avant d’adapter un modèle à un ensemble de données, la régression logistique fait les hypothèses suivantes :
- Hypothèse #1: La variable de réponse est binaire
- Hypothèse #2 : Les observations sont indépendantes
- Hypothèse #3: Il n’y a pas de Multicollinéarité Entre les Variables explicatives
- Hypothèse #4 :Il n’y a pas de valeurs aberrantes extrêmes
- Hypothèse #5: Il existe une Relation linéaire Entre les Variables explicatives et le Logit de la Variable de réponse
- Hypothèse #6: La taille de l’échantillon est suffisamment grande
- Hypothèses de régression logistique vs. Régression linéaire
Hypothèse #1: La variable de réponse est binaire
La régression logistique suppose que la variable de réponse ne prend que deux résultats possibles. Voici quelques exemples ::
- Oui ou Non
- Mâle ou Femelle
- Réussite ou échec
- Rédigé ou Non
- Malin ou bénin
Comment vérifier cette hypothèse: Comptez simplement le nombre de résultats uniques dans la variable de réponse. S’il y a plus de deux résultats possibles, vous devrez effectuer une régression ordinale à la place.
Hypothèse #2 : Les observations sont indépendantes
La régression logistique suppose que les observations de l’ensemble de données sont indépendantes les unes des autres. Autrement dit, les observations ne doivent pas provenir de mesures répétées du même individu ni être liées les unes aux autres de quelque manière que ce soit.
Comment vérifier cette hypothèse: Le moyen le plus simple de vérifier cette hypothèse est de créer un tracé de résidus par rapport au temps (c’est-à-dire l’ordre des observations) et d’observer s’il existe ou non un motif aléatoire. S’il n’y a pas de motif aléatoire, cette hypothèse peut être violée.
Hypothèse #3: Il n’y a pas de Multicollinéarité Entre les Variables explicatives
La régression logistique suppose qu’il n’y a pas de multicollinéarité sévère entre les variables explicatives.
La multicollinéarité se produit lorsque deux variables explicatives ou plus sont fortement corrélées l’une à l’autre, de sorte qu’elles ne fournissent pas d’informations uniques ou indépendantes dans le modèle de régression. Si le degré de corrélation est suffisamment élevé entre les variables, cela peut poser des problèmes lors de l’ajustement et de l’interprétation du modèle.
Par exemple, supposons que vous souhaitiez effectuer une régression logistique en utilisant le saut vertical maximum comme variable de réponse et les variables suivantes comme variables explicatives:
- Hauteur du joueur
- Taille de la chaussure du joueur
- Heures passées à pratiquer par jour
Dans ce cas, la taille et la taille de la chaussure sont susceptibles d’être fortement corrélées car les personnes plus grandes ont tendance à avoir des tailles de chaussures plus grandes. Cela signifie que la multicollinéarité est susceptible d’être un problème si nous utilisons ces deux variables dans la régression.
Comment vérifier cette hypothèse: La façon la plus courante de détecter la multicollinéarité consiste à utiliser le facteur d’inflation de la variance (VIF), qui mesure la corrélation et la force de la corrélation entre les variables prédictives dans un modèle de régression. Consultez ce tutoriel pour une explication approfondie de la façon de calculer et d’interpréter les valeurs VIF.
Hypothèse #4 :Il n’y a pas de valeurs aberrantes extrêmes
La régression logistique suppose qu’il n’y a pas de valeurs aberrantes extrêmes ou d’observations influentes dans l’ensemble de données.
Comment vérifier cette hypothèse: La façon la plus courante de tester les valeurs aberrantes extrêmes et les observations influentes dans un ensemble de données consiste à calculer la distance de Cook pour chaque observation. S’il y a effectivement des valeurs aberrantes, vous pouvez choisir de (1) les supprimer, (2) les remplacer par une valeur comme la moyenne ou la médiane, ou (3) simplement les conserver dans le modèle mais en prendre note lors du signalement des résultats de régression.
Hypothèse #5: Il existe une Relation linéaire Entre les Variables explicatives et le Logit de la Variable de réponse
La régression logistique suppose qu’il existe une relation linéaire entre chaque variable explicative et le logit de la variable de réponse. Rappelons que le logit est défini comme :
Logit(p) = log(p/(1-p)) où p est la probabilité d’un résultat positif.
Comment vérifier cette hypothèse: Le moyen le plus simple de voir si cette hypothèse est remplie est d’utiliser un test Box-Tidwell.
Hypothèse #6: La taille de l’échantillon est suffisamment grande
La régression logistique suppose que la taille de l’échantillon de l’ensemble de données soit suffisamment grande pour tirer des conclusions valides du modèle de régression logistique ajusté.
Comment vérifier cette hypothèse: En règle générale, vous devriez avoir un minimum de 10 cas avec le résultat le moins fréquent pour chaque variable explicative. Par exemple, si vous avez 3 variables explicatives et que la probabilité attendue du résultat le moins fréquent est de 0,20, vous devriez avoir une taille d’échantillon d’au moins (10*3) / 0.20 = 150.
Hypothèses de régression logistique vs. Régression linéaire
Contrairement à la régression linéaire, la régression logistique ne nécessite pas :
- Une relation linéaire entre la ou les variables explicatives et la variable de réponse.
- Les résidus du modèle à distribuer normalement.
- Les résidus ont une variance constante, également connue sous le nom d’homoscédasticité.
Connexe : Les quatre hypothèses de Régression linéaire