Régression linéaire simple et multiple

La régression linéaire est un modèle statistique utilisé pour analyser la relation entre une variable dépendante (ou cible) et une ou plusieurs variables indépendantes (ou prédicteurs). Cette méthode est très utilisée en analyse prédictive et en apprentissage automatique.


Régression Linéaire Simple

La régression linéaire simple consiste à modéliser la relation entre une seule variable dépendante yy et une seule variable indépendante xx. Le modèle linéaire est représenté par l’équation :

y=β0+β1x+ϵy = \beta_0 + \beta_1 x + \epsilon

où :

  • yy : variable dépendante (cible),

  • xx : variable indépendante (prédicteur),

  • β0\beta_0 : intercept (ordonnée à l’origine),

  • β1\beta_1 : pente (coefficient de régression),

  • ϵ\epsilon : erreur (terme aléatoire ou bruit).

L’objectif de la régression linéaire simple est de trouver les valeurs des paramètres β0\beta_0 et β1\beta_1 qui minimisent la somme des carrés des erreurs (SSE, Sum of Squared Errors).

Hypothèses de la Régression Linéaire Simple

  • Linéarité : La relation entre xx et yy est linéaire.

  • Indépendance : Les observations sont indépendantes.

  • Homoscedasticité : La variance des erreurs est constante pour toutes les valeurs de xx.

  • Normalité des erreurs : Les erreurs doivent suivre une distribution normale.

Interprétation des Paramètres

  • β0\beta_0 (l’intercept) : C’est la valeur de yy lorsque x=0x = 0.

  • β1\beta_1 (la pente) : C’est la variation de yy associée à une unité de variation de xx. Si β1\beta_1 est positif, cela signifie que la relation entre xx et yy est positive (augmentation de xx entraîne une augmentation de yy).


Régression Linéaire Multiple

La régression linéaire multiple étend la régression linéaire simple à plusieurs variables indépendantes. Elle est utilisée pour prédire une variable dépendante yy à partir de plusieurs variables indépendantes x1,x2,,xnx_1, x_2, \dots, x_n.

Le modèle de régression linéaire multiple est représenté par l’équation :

y=β0+β1x1+β2x2++βnxn+ϵy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon

où :

  • yy : variable dépendante,

  • x1,x2,,xnx_1, x_2, \dots, x_n : variables indépendantes,

  • β0\beta_0 : intercept,

  • β1,β2,,βn\beta_1, \beta_2, \dots, \beta_n : coefficients des variables indépendantes,

  • ϵ\epsilon : erreur.

L’objectif est également de trouver les paramètres β0,β1,,βn\beta_0, \beta_1, \dots, \beta_n qui minimisent la somme des carrés des erreurs.

Hypothèses de la Régression Linéaire Multiple

Les hypothèses restent similaires à celles de la régression linéaire simple, mais il faut aussi considérer les relations entre les variables indépendantes :

  • Multicolinéarité : Les variables indépendantes ne doivent pas être fortement corrélées entre elles. Si elles le sont, cela peut rendre l’estimation des coefficients peu fiable.

Interprétation des Paramètres

  • β0\beta_0 (intercept) : C’est la valeur prédite de yy lorsque toutes les variables x1,x2,,xnx_1, x_2, \dots, x_n sont égales à zéro.

  • β1,,βn\beta_1, \dots, \beta_n : Ce sont les effets des variables x1,x2,,xnx_1, x_2, \dots, x_n sur yy, tout en maintenant les autres variables constantes. Par exemple, β1\beta_1 représente la variation de yy lorsque x1x_1 change de 1 unité, en gardant les autres variables constantes.

 

Évaluation de la Régression Linéaire

Voici quelques mesures de performance courantes utilisées pour évaluer la qualité d’un modèle de régression linéaire :

  1. R2R^2 (Coefficient de Détermination) : Cette mesure indique la proportion de la variance de la variable dépendante qui est expliquée par les variables indépendantes. Plus R2R^2 est proche de 1, meilleur est le modèle.

    R2=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2 = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i – \bar{y})^2}

    y^i\hat{y}_i est la valeur prédite, et yˉ\bar{y} est la moyenne de yy.

  2. Erreur quadratique moyenne (RMSE) : Elle mesure la différence entre les valeurs observées et les valeurs prédites. Plus elle est faible, mieux c’est.

    RMSE=1ni=1n(yiy^i)2RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i – \hat{y}_i)^2}

  3. Erreur absolue moyenne (MAE) : C’est la moyenne des erreurs absolues entre les valeurs observées et les valeurs prédites.

    MAE=1ni=1nyiy^iMAE = \frac{1}{n} \sum_{i=1}^{n} |y_i – \hat{y}_i|