Régression linéaire, Régression linéaire, Régression linéaire, Régression linéaire, Régression linéaire

Introduction

La régression linéaire est l’une des techniques les plus classiques et répandues en statistiques et machine learning. Elle permet de modéliser la relation linéaire entre une variable dépendante (variable cible) et une ou plusieurs variables indépendantes (features ou prédicteurs).

Ce modèle est souvent utilisé pour la prédiction continue, la compréhension des relations entre variables, ou encore comme base pour des modèles plus complexes.


Qu’est-ce que la régression linéaire ?

La régression linéaire cherche à ajuster une droite (ou un hyperplan en dimension supérieure) qui minimise la différence entre les valeurs prédites et les valeurs réelles.

Formule simple (régression linéaire simple) :

y=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilony=β0​+β1​x+ε


Régression linéaire multiple

Lorsque plusieurs variables explicatives sont utilisées, la formule devient : y=β0+β1×1+β2×2+⋯+βpxp+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilony=β0​+β1​x1​+β2​x2​+⋯+βp​xp​+ε

où ppp est le nombre de variables explicatives.


Estimation des coefficients

Les coefficients β\betaβ sont généralement estimés via la méthode des moindres carrés ordinaires (OLS), qui minimise la somme des carrés des erreurs entre les valeurs observées et les valeurs prédites.


Hypothèses de la régression linéaire

Pour que le modèle soit valide et interprétable, plusieurs hypothèses sont posées :


Évaluation du modèle

1. Coefficient de détermination R2R^2R2 :

Mesure la proportion de variance expliquée par le modèle. R2=1−SSresSStotR^2 = 1 – \frac{SS_{res}}{SS_{tot}}R2=1−SStot​SSres​​

2. Erreur quadratique moyenne (MSE) : moyenne des carrés des erreurs.

3. RMSE : racine carrée de la MSE, en unité de la variable cible.


Applications typiques


Exemple simple en Python avec scikit-learn

pythonCopierModifierfrom sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Jeu de données
X = df[['feature1', 'feature2']]  # variables explicatives
y = df['target']                 # variable cible

# Séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modèle
model = LinearRegression()
model.fit(X_train, y_train)

# Prédiction
y_pred = model.predict(X_test)

# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE : {mse:.2f}")
print(f"R2 : {r2:.2f}")

Limites de la régression linéaire


Extensions et variantes


Conclusion

La régression linéaire est un modèle simple mais puissant, idéal pour commencer en machine learning ou statistique. Elle offre une bonne base pour comprendre les relations entre variables et faire des prédictions continues.

En maîtrisant la régression linéaire, vous posez les fondations nécessaires pour évoluer vers des modèles plus avancés et complexes.

Introduction

La régression linéaire est l’une des techniques les plus classiques et répandues en statistiques et machine learning. Elle permet de modéliser la relation linéaire entre une variable dépendante (variable cible) et une ou plusieurs variables indépendantes (features ou prédicteurs).

Ce modèle est souvent utilisé pour la prédiction continue, la compréhension des relations entre variables, ou encore comme base pour des modèles plus complexes.


Qu’est-ce que la régression linéaire ?

La régression linéaire cherche à ajuster une droite (ou un hyperplan en dimension supérieure) qui minimise la différence entre les valeurs prédites et les valeurs réelles.

Formule simple (régression linéaire simple) :

y=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilony=β0​+β1​x+ε


Régression linéaire multiple

Lorsque plusieurs variables explicatives sont utilisées, la formule devient : y=β0+β1×1+β2×2+⋯+βpxp+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilony=β0​+β1​x1​+β2​x2​+⋯+βp​xp​+ε

où ppp est le nombre de variables explicatives.


Estimation des coefficients

Les coefficients β\betaβ sont généralement estimés via la méthode des moindres carrés ordinaires (OLS), qui minimise la somme des carrés des erreurs entre les valeurs observées et les valeurs prédites.


Hypothèses de la régression linéaire

Pour que le modèle soit valide et interprétable, plusieurs hypothèses sont posées :


Évaluation du modèle

1. Coefficient de détermination R2R^2R2 :

Mesure la proportion de variance expliquée par le modèle. R2=1−SSresSStotR^2 = 1 – \frac{SS_{res}}{SS_{tot}}R2=1−SStot​SSres​​

2. Erreur quadratique moyenne (MSE) : moyenne des carrés des erreurs.

3. RMSE : racine carrée de la MSE, en unité de la variable cible.


Applications typiques


Exemple simple en Python avec scikit-learn

pythonCopierModifierfrom sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Jeu de données
X = df[['feature1', 'feature2']]  # variables explicatives
y = df['target']                 # variable cible

# Séparation train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modèle
model = LinearRegression()
model.fit(X_train, y_train)

# Prédiction
y_pred = model.predict(X_test)

# Évaluation
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE : {mse:.2f}")
print(f"R2 : {r2:.2f}")

Limites de la régression linéaire


Extensions et variantes


Conclusion

La régression linéaire est un modèle simple mais puissant, idéal pour commencer en machine learning ou statistique. Elle offre une bonne base pour comprendre les relations entre variables et faire des prédictions continues.

En maîtrisant la régression linéaire, vous posez les fondations nécessaires pour évoluer vers des modèles plus avancés et complexes.

Régression linéaire