Régression linéaire simple et multiple
La régression linéaire est un modèle statistique utilisé pour analyser la relation entre une variable dépendante (ou cible) et une ou plusieurs variables indépendantes (ou prédicteurs). Cette méthode est très utilisée en analyse prédictive et en apprentissage automatique.
Régression Linéaire Simple
La régression linéaire simple consiste à modéliser la relation entre une seule variable dépendante et une seule variable indépendante . Le modèle linéaire est représenté par l’équation :
où :
-
: variable dépendante (cible),
-
: variable indépendante (prédicteur),
-
: intercept (ordonnée à l’origine),
-
: pente (coefficient de régression),
-
: erreur (terme aléatoire ou bruit).
L’objectif de la régression linéaire simple est de trouver les valeurs des paramètres et qui minimisent la somme des carrés des erreurs (SSE, Sum of Squared Errors).
Hypothèses de la Régression Linéaire Simple
-
Linéarité : La relation entre et est linéaire.
-
Indépendance : Les observations sont indépendantes.
-
Homoscedasticité : La variance des erreurs est constante pour toutes les valeurs de .
-
Normalité des erreurs : Les erreurs doivent suivre une distribution normale.
Interprétation des Paramètres
-
(l’intercept) : C’est la valeur de lorsque .
-
(la pente) : C’est la variation de associée à une unité de variation de . Si est positif, cela signifie que la relation entre et est positive (augmentation de entraîne une augmentation de ).
Régression Linéaire Multiple
La régression linéaire multiple étend la régression linéaire simple à plusieurs variables indépendantes. Elle est utilisée pour prédire une variable dépendante à partir de plusieurs variables indépendantes .
Le modèle de régression linéaire multiple est représenté par l’équation :
où :
-
: variable dépendante,
-
: variables indépendantes,
-
: intercept,
-
: coefficients des variables indépendantes,
-
: erreur.
L’objectif est également de trouver les paramètres qui minimisent la somme des carrés des erreurs.
Hypothèses de la Régression Linéaire Multiple
Les hypothèses restent similaires à celles de la régression linéaire simple, mais il faut aussi considérer les relations entre les variables indépendantes :
-
Multicolinéarité : Les variables indépendantes ne doivent pas être fortement corrélées entre elles. Si elles le sont, cela peut rendre l’estimation des coefficients peu fiable.
Interprétation des Paramètres
-
(intercept) : C’est la valeur prédite de lorsque toutes les variables sont égales à zéro.
-
: Ce sont les effets des variables sur , tout en maintenant les autres variables constantes. Par exemple, représente la variation de lorsque change de 1 unité, en gardant les autres variables constantes.
Évaluation de la Régression Linéaire
Voici quelques mesures de performance courantes utilisées pour évaluer la qualité d’un modèle de régression linéaire :
-
(Coefficient de Détermination) : Cette mesure indique la proportion de la variance de la variable dépendante qui est expliquée par les variables indépendantes. Plus est proche de 1, meilleur est le modèle.
où est la valeur prédite, et est la moyenne de .
-
Erreur quadratique moyenne (RMSE) : Elle mesure la différence entre les valeurs observées et les valeurs prédites. Plus elle est faible, mieux c’est.
-
Erreur absolue moyenne (MAE) : C’est la moyenne des erreurs absolues entre les valeurs observées et les valeurs prédites.