Régression logistique

La régression logistique est un modèle statistique utilisé pour prédire une variable dépendante binaire (ou catégorique) en fonction de variables indépendantes. Contrairement à la régression linéaire qui prédit une valeur continue, la régression logistique est utilisée lorsque la variable cible yy prend deux valeurs possibles (par exemple, 0 ou 1, vrai ou faux, oui ou non).

Le modèle de régression logistique calcule la probabilité qu’un événement se produise, basée sur les valeurs des variables indépendantes.


Formule de la Régression Logistique

Le modèle de régression logistique utilise la fonction sigmoïde (ou fonction logistique) pour transformer la sortie de la régression linéaire en une probabilité, dont les valeurs sont comprises entre 0 et 1. L’équation de la régression logistique est :

p(y=1x)=11+e(β0+β1x1+β2x2++βnxn)p(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n)}}

où :

  • p(y=1x)p(y=1|x) : probabilité que la variable cible yy soit égale à 1 (par exemple, un événement positif),

  • β0\beta_0 : intercept,

  • β1,,βn\beta_1, \dots, \beta_n : coefficients des variables indépendantes x1,x2,,xnx_1, x_2, \dots, x_n,

  • ee : base du logarithme naturel.

L’argument de la fonction sigmoïde est la somme pondérée des variables indépendantes, qui est ensuite transformée pour être entre 0 et 1.

Interprétation des Paramètres

  • β0\beta_0 (intercept) : L’intercept de l’équation est l’odds log lorsque toutes les variables indépendantes sont égales à zéro.

  • β1,,βn\beta_1, \dots, \beta_n : Ce sont les log-odds des changements dans la probabilité de l’événement pour chaque unité de changement dans les variables x1,x2,,xnx_1, x_2, \dots, x_n.

Odds et Odds Ratio

La régression logistique repose sur les odds (cotes), qui sont le rapport des probabilités de succès sur les probabilités d’échec. L’odds ratio mesure l’effet d’une unité de changement dans la variable indépendante sur l’odds (ou cotes).

Si β1=0.5\beta_1 = 0.5, cela signifie qu’une unité d’augmentation dans x1x_1 multiplie l’odds par e0.5e^{0.5}, c’est-à-dire environ 1.65.

Équation des Odds

Les odds sont donnés par la relation :

odds(y=1x)=p(y=1x)1p(y=1x)\text{odds}(y=1|x) = \frac{p(y=1|x)}{1 – p(y=1|x)}

Cela transforme la probabilité en un rapport de chances.

Fonction Sigmoïde

La fonction sigmoïde σ(z)\sigma(z) est définie par :

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

zz est la somme pondérée des variables indépendantes (i.e., z=β0+β1x1++βnxnz = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n).


Hypothèses de la Régression Logistique

Les hypothèses sous-jacentes à la régression logistique sont :

  1. Relation linéaire entre les prédicteurs et les log-odds : La relation entre les variables indépendantes et le logarithme des cotes (log-odds) est linéaire.

  2. Indépendance des erreurs : Les erreurs doivent être indépendantes.

  3. Absence de multicolinéarité : Les variables indépendantes ne doivent pas être trop corrélées entre elles.