Test de corrélation et régression

Les tests de corrélation et les techniques de régression sont des outils statistiques essentiels pour analyser les relations entre les variables dans un ensemble de données. Ils permettent de mesurer la force, la direction et la nature des relations entre les variables, ainsi que de modéliser ces relations pour faire des prédictions ou des inférences.


1. Test de Pearson

Le test de Pearson est utilisé pour évaluer la corrélation linéaire entre deux variables continues. Il mesure la force et la direction de la relation linéaire entre les variables. Le coefficient de corrélation de Pearson (rr) varie de -1 à 1, où :

Formule :

r=nxyxy(nx2(x)2)(ny2(y)2)r = \frac{n \sum xy – \sum x \sum y}{\sqrt{(n \sum x^2 – (\sum x)^2)(n \sum y^2 – (\sum y)^2)}}

Où :

Exemple :
Supposons que vous souhaitez étudier la relation entre le nombre d’heures d’étude (X) et les résultats aux examens (Y) d’un groupe d’étudiants. Le test de Pearson vous permet de quantifier cette relation linéaire. Une corrélation élevée (proche de 1) indiquerait que plus un étudiant étudie, plus il obtient de bons résultats.

Interprétation :
Le test de Pearson est approprié lorsque les données suivent une relation linéaire et sont normalement distribuées. Il peut être influencé par les valeurs extrêmes (outliers), ce qui doit être pris en compte dans l’analyse.


2. Test de Spearman

Le test de Spearman est une mesure de la corrélation monotone entre deux variables. Contrairement au test de Pearson, le test de Spearman ne présume pas que les données suivent une relation linéaire ni qu’elles sont normalement distribuées. Il est utilisé pour évaluer des relations qui sont monotones (soit croissantes, soit décroissantes), mais pas nécessairement linéaires.

Le coefficient de corrélation de Spearman (ρ\rho) varie également de -1 à 1 :

Formule :

ρ=16di2n(n21)\rho = 1 – \frac{6 \sum d_i^2}{n(n^2 – 1)}

Où :

Exemple :
Si vous étudiez la relation entre le rang des étudiants dans un concours (X) et leur satisfaction (Y), et que vous remarquez que les étudiants mieux classés tendent à être plus satisfaits sans pour autant suivre une relation linéaire parfaite, le test de Spearman est plus approprié que le test de Pearson.

Interprétation :
Le test de Spearman est plus robuste que le test de Pearson aux outliers et aux distributions non normales. Il est donc particulièrement utile lorsque les données ne suivent pas une distribution normale ou lorsqu’une relation non linéaire est suspectée.


3. Régression linéaire simple et multiple

La régression linéaire est une technique statistique qui modélise la relation entre une variable dépendante (ou cible) et une ou plusieurs variables indépendantes (ou prédictives) à l’aide d’une équation linéaire. La régression linéaire peut être simple (avec une seule variable indépendante) ou multiple (avec plusieurs variables indépendantes).

Régression linéaire simple

Dans la régression linéaire simple, on modélise la relation entre une seule variable indépendante XX et une variable dépendante YY.

Formule :

Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon

Où :

Exemple :
Supposons que vous souhaitiez prédire le revenu d’une personne en fonction de son niveau d’éducation (nombre d’années). La régression linéaire simple vous permettrait de déterminer la relation entre ces deux variables.

Régression linéaire multiple

La régression linéaire multiple étend ce modèle pour inclure plusieurs variables indépendantes. Elle permet de prédire la variable dépendante en fonction de plusieurs prédicteurs.

Formule :

Y=β0+β1X1+β2X2++βpXp+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \epsilon

Où :

Exemple :
Vous pouvez utiliser la régression linéaire multiple pour prédire le prix d’une maison en fonction de plusieurs facteurs comme la superficie, le nombre de chambres, l’emplacement, etc.

Interprétation :
La régression linéaire est utile lorsqu’une relation linéaire entre les variables existe et permet de faire des prédictions. Elle peut être utilisée pour estimer la valeur d’une variable dépendante à partir des variables indépendantes, mais elle nécessite que les hypothèses sous-jacentes (linéarité, indépendance, etc.) soient vérifiées.


4. Régression logistique

La régression logistique est une méthode utilisée lorsque la variable dépendante est binaire (par exemple, succès/échec, 0/1). Contrairement à la régression linéaire, qui prédit une valeur continue, la régression logistique prédit la probabilité que l’événement d’intérêt se produise (par exemple, la probabilité qu’un client achète un produit).

La régression logistique utilise la fonction logistique (ou sigmoïde) pour transformer les prédictions linéaires en probabilités comprises entre 0 et 1.

Formule :

Logit(p)=ln(p1p)=β0+β1X1+β2X2++βpXp\text{Logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p

Où :

Exemple :
Supposons que vous vouliez prédire si un client achètera un produit en fonction de variables comme l’âge, le revenu et la fréquence d’achat précédente. La régression logistique vous permet de prédire la probabilité que le client achète le produit.

Interprétation :
La régression logistique est utilisée pour des problèmes de classification binaire. Elle fournit des probabilités qui peuvent être converties en classes (0 ou 1), et elle est souvent utilisée dans des domaines comme la finance, la médecine (par exemple, prédire la probabilité de développer une maladie) et le marketing (par exemple, prédire si un client effectuera un achat).


Conclusion

Les tests de corrélation et les modèles de régression sont des outils clés en analyse inférentielle pour explorer et comprendre les relations entre les variables. Ils aident non seulement à identifier des relations significatives, mais aussi à prédire les comportements futurs en fonction des données passées. Les tests de Pearson et de Spearman sont adaptés aux relations linéaires et monotones respectivement, tandis que les modèles de régression linéaire et logistique sont utilisés pour effectuer des prédictions basées sur des variables indépendantes.