Régression logistique
La régression logistique est un modèle statistique utilisé pour prédire une variable dépendante binaire (ou catégorique) en fonction de variables indépendantes. Contrairement à la régression linéaire qui prédit une valeur continue, la régression logistique est utilisée lorsque la variable cible prend deux valeurs possibles (par exemple, 0 ou 1, vrai ou faux, oui ou non).
Le modèle de régression logistique calcule la probabilité qu’un événement se produise, basée sur les valeurs des variables indépendantes.
Formule de la Régression Logistique
Le modèle de régression logistique utilise la fonction sigmoïde (ou fonction logistique) pour transformer la sortie de la régression linéaire en une probabilité, dont les valeurs sont comprises entre 0 et 1. L’équation de la régression logistique est :
où :
-
: probabilité que la variable cible soit égale à 1 (par exemple, un événement positif),
-
: intercept,
-
: coefficients des variables indépendantes ,
-
: base du logarithme naturel.
L’argument de la fonction sigmoïde est la somme pondérée des variables indépendantes, qui est ensuite transformée pour être entre 0 et 1.
Interprétation des Paramètres
-
(intercept) : L’intercept de l’équation est l’odds log lorsque toutes les variables indépendantes sont égales à zéro.
-
: Ce sont les log-odds des changements dans la probabilité de l’événement pour chaque unité de changement dans les variables .
Odds et Odds Ratio
La régression logistique repose sur les odds (cotes), qui sont le rapport des probabilités de succès sur les probabilités d’échec. L’odds ratio mesure l’effet d’une unité de changement dans la variable indépendante sur l’odds (ou cotes).
Si , cela signifie qu’une unité d’augmentation dans multiplie l’odds par , c’est-à-dire environ 1.65.
Équation des Odds
Les odds sont donnés par la relation :
Cela transforme la probabilité en un rapport de chances.
Fonction Sigmoïde
La fonction sigmoïde est définie par :
où est la somme pondérée des variables indépendantes (i.e., ).
Hypothèses de la Régression Logistique
Les hypothèses sous-jacentes à la régression logistique sont :
-
Relation linéaire entre les prédicteurs et les log-odds : La relation entre les variables indépendantes et le logarithme des cotes (log-odds) est linéaire.
-
Indépendance des erreurs : Les erreurs doivent être indépendantes.
-
Absence de multicolinéarité : Les variables indépendantes ne doivent pas être trop corrélées entre elles.