Régression linéaire, Régression linéaire, Régression linéaire, Régression linéaire, Régression linéaire
Introduction
La régression linéaire est l’une des techniques les plus classiques et répandues en statistiques et machine learning. Elle permet de modéliser la relation linéaire entre une variable dépendante (variable cible) et une ou plusieurs variables indépendantes (features ou prédicteurs).
Ce modèle est souvent utilisé pour la prédiction continue, la compréhension des relations entre variables, ou encore comme base pour des modèles plus complexes.
Qu’est-ce que la régression linéaire ?
La régression linéaire cherche à ajuster une droite (ou un hyperplan en dimension supérieure) qui minimise la différence entre les valeurs prédites et les valeurs réelles.
Formule simple (régression linéaire simple) :
y=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilony=β0+β1x+ε
- yyy : variable cible
- xxx : variable explicative
- β0\beta_0β0 : intercept (ordonnée à l’origine)
- β1\beta_1β1 : coefficient de régression (pente)
- ε\varepsilonε : erreur aléatoire
Régression linéaire multiple
Lorsque plusieurs variables explicatives sont utilisées, la formule devient : y=β0+β1×1+β2×2+⋯+βpxp+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilony=β0+β1x1+β2x2+⋯+βpxp+ε
où ppp est le nombre de variables explicatives.
Estimation des coefficients
Les coefficients β\betaβ sont généralement estimés via la méthode des moindres carrés ordinaires (OLS), qui minimise la somme des carrés des erreurs entre les valeurs observées et les valeurs prédites.
Hypothèses de la régression linéaire
Pour que le modèle soit valide et interprétable, plusieurs hypothèses sont posées :
- Relation linéaire entre variables explicatives et cible.
- Indépendance des erreurs.
- Homoscedasticité : variance constante des erreurs.
- Normalité des erreurs (utile pour tests statistiques).
- Pas de multicolinéarité trop forte entre variables explicatives.
Évaluation du modèle
1. Coefficient de détermination R2R^2R2 :
Mesure la proportion de variance expliquée par le modèle. R2=1−SSresSStotR^2 = 1 – \frac{SS_{res}}{SS_{tot}}R2=1−SStotSSres
- SSresSS_{res}SSres : somme des carrés des résidus
- SStotSS_{tot}SStot : somme totale des carrés
2. Erreur quadratique moyenne (MSE) : moyenne des carrés des erreurs.
3. RMSE : racine carrée de la MSE, en unité de la variable cible.
Applications typiques
- Prédiction des prix immobiliers selon caractéristiques.
- Analyse économique (ex : relation revenu / consommation).
- Prévision météo, tendances financières.
- Bio-statistiques, études cliniques.
Exemple simple en Python avec scikit-learn
pythonCopierModifierfrom sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
# Jeu de données
X = df[['feature1', 'feature2']] # variables explicatives
y = df['target'] # variable cible
# Séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Modèle
model = LinearRegression()
model.fit(X_train, y_train)
# Prédiction
y_pred = model.predict(X_test)
# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"MSE : {mse:.2f}")
print(f"R2 : {r2:.2f}")
Limites de la régression linéaire
- Incapable de modéliser des relations non linéaires sans transformation des variables.
- Sensible aux valeurs aberrantes.
- Hypothèses parfois trop restrictives.
- Ne convient pas toujours à des données complexes ou très bruitées.
Extensions et variantes
- Régression polynomiale : modéliser des relations non linéaires en introduisant des puissances des variables.
- Ridge et Lasso : régularisation pour éviter le sur-apprentissage et gérer la multicolinéarité.
- Régression logistique : variante pour classification binaire.
Conclusion
La régression linéaire est un modèle simple mais puissant, idéal pour commencer en machine learning ou statistique. Elle offre une bonne base pour comprendre les relations entre variables et faire des prédictions continues.
En maîtrisant la régression linéaire, vous posez les fondations nécessaires pour évoluer vers des modèles plus avancés et complexes.
Introduction
La régression linéaire est l’une des techniques les plus classiques et répandues en statistiques et machine learning. Elle permet de modéliser la relation linéaire entre une variable dépendante (variable cible) et une ou plusieurs variables indépendantes (features ou prédicteurs).
Ce modèle est souvent utilisé pour la prédiction continue, la compréhension des relations entre variables, ou encore comme base pour des modèles plus complexes.
Qu’est-ce que la régression linéaire ?
La régression linéaire cherche à ajuster une droite (ou un hyperplan en dimension supérieure) qui minimise la différence entre les valeurs prédites et les valeurs réelles.
Formule simple (régression linéaire simple) :
y=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilony=β0+β1x+ε
- yyy : variable cible
- xxx : variable explicative
- β0\beta_0β0 : intercept (ordonnée à l’origine)
- β1\beta_1β1 : coefficient de régression (pente)
- ε\varepsilonε : erreur aléatoire
Régression linéaire multiple
Lorsque plusieurs variables explicatives sont utilisées, la formule devient : y=β0+β1×1+β2×2+⋯+βpxp+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilony=β0+β1x1+β2x2+⋯+βpxp+ε
où ppp est le nombre de variables explicatives.
Estimation des coefficients
Les coefficients β\betaβ sont généralement estimés via la méthode des moindres carrés ordinaires (OLS), qui minimise la somme des carrés des erreurs entre les valeurs observées et les valeurs prédites.
Hypothèses de la régression linéaire
Pour que le modèle soit valide et interprétable, plusieurs hypothèses sont posées :
- Relation linéaire entre variables explicatives et cible.
- Indépendance des erreurs.
- Homoscedasticité : variance constante des erreurs.
- Normalité des erreurs (utile pour tests statistiques).
- Pas de multicolinéarité trop forte entre variables explicatives.
Évaluation du modèle
1. Coefficient de détermination R2R^2R2 :
Mesure la proportion de variance expliquée par le modèle. R2=1−SSresSStotR^2 = 1 – \frac{SS_{res}}{SS_{tot}}R2=1−SStotSSres
- SSresSS_{res}SSres : somme des carrés des résidus
- SStotSS_{tot}SStot : somme totale des carrés
2. Erreur quadratique moyenne (MSE) : moyenne des carrés des erreurs.
3. RMSE : racine carrée de la MSE, en unité de la variable cible.
Applications typiques
- Prédiction des prix immobiliers selon caractéristiques.
- Analyse économique (ex : relation revenu / consommation).
- Prévision météo, tendances financières.
- Bio-statistiques, études cliniques.
Exemple simple en Python avec scikit-learn
pythonCopierModifierfrom sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
# Jeu de données
X = df[['feature1', 'feature2']] # variables explicatives
y = df['target'] # variable cible
# Séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Modèle
model = LinearRegression()
model.fit(X_train, y_train)
# Prédiction
y_pred = model.predict(X_test)
# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"MSE : {mse:.2f}")
print(f"R2 : {r2:.2f}")
Limites de la régression linéaire
- Incapable de modéliser des relations non linéaires sans transformation des variables.
- Sensible aux valeurs aberrantes.
- Hypothèses parfois trop restrictives.
- Ne convient pas toujours à des données complexes ou très bruitées.
Extensions et variantes
- Régression polynomiale : modéliser des relations non linéaires en introduisant des puissances des variables.
- Ridge et Lasso : régularisation pour éviter le sur-apprentissage et gérer la multicolinéarité.
- Régression logistique : variante pour classification binaire.
Conclusion
La régression linéaire est un modèle simple mais puissant, idéal pour commencer en machine learning ou statistique. Elle offre une bonne base pour comprendre les relations entre variables et faire des prédictions continues.
En maîtrisant la régression linéaire, vous posez les fondations nécessaires pour évoluer vers des modèles plus avancés et complexes.