Test de Pearson
Le test de Pearson, ou correlation de Pearson, mesure la force et la direction de la relation linéaire entre deux variables continues. C’est l’un des tests les plus couramment utilisés pour évaluer la corrélation entre deux variables quantitatives.
Hypothèses du Test de Pearson
-
Hypothèse nulle (H₀) : Il n’y a pas de relation linéaire entre les deux variables. En d’autres termes, la corrélation est égale à zéro.
-
Hypothèse alternative (H₁) : Il existe une relation linéaire entre les deux variables. En d’autres termes, la corrélation n’est pas égale à zéro.
Coefficient de Corrélation de Pearson (r)
Le coefficient de corrélation de Pearson (r) est une mesure qui varie entre -1 et 1 :
-
r = 1 : Corrélation parfaitement positive.
-
r = -1 : Corrélation parfaitement négative.
-
r = 0 : Pas de corrélation linéaire.
La formule de r est donnée par :
où :
-
: le nombre d’observations,
-
et
: les deux variables,
-
: somme des produits des paires de valeurs
et
,
-
et
: sommes des valeurs de
et
,
-
et
: sommes des carrés des valeurs de
et
.
Interprétation des Résultats du Test de Pearson
Après avoir calculé le coefficient de corrélation
, il faut analyser la valeur p pour tester l’hypothèse nulle.
-
Valeur p faible (p < α) : Rejet de l’hypothèse nulle. Il existe une relation linéaire significative entre les deux variables.
-
Valeur p élevée (p ≥ α) : Acceptation de l’hypothèse nulle. Il n’y a pas de relation linéaire significative entre les deux variables.
Fonctions :
-
stats.pearsonr()
La fonction stats.pearsonr() de SciPy calcule le coefficient de corrélation de Pearson, qui mesure la force et la direction de la relation linéaire entre deux variables.
Importation :
from scipy import stats
Attributs :
Nom Type Description x array-like Un tableau de données représentant la première variable. y array-like Un tableau de données représentant la deuxième variable à comparer avec la première. Exemple de code :
from scipy import stats import numpy as np # Création de deux variables x et y x = np.array([1, 2, 3, 4, 5]) y = np.array([2, 4, 5, 4, 5]) # Calcul du coefficient de corrélation de Pearson et de la p-valeur corr_coefficient, p_value = stats.pearsonr(x, y) # Affichage des résultats print(f'Coefficient de corrélation de Pearson: {corr_coefficient}') print(f'P-valeur: {p_value}')
Explication du code :
from scipy import stats
importe le module stats de la bibliothèque scipy, qui contient des fonctions statistiques utilisées pour effectuer des tests de corrélation, des analyses de variance, et bien plus encore.import numpy as np
importe la bibliothèque numpy, renommée ici ennp
, utilisée pour manipuler des tableaux (arrays) et effectuer des opérations numériques de manière efficace.Création de deux variables x et y
x = np.array([1, 2, 3, 4, 5])
crée un tableaux
contenant les valeurs [1, 2, 3, 4, 5], représentant les données de la première variable.y = np.array([2, 4, 5, 4, 5])
crée un tableauy
contenant les valeurs [2, 4, 5, 4, 5], représentant les données de la deuxième variable.Calcul du coefficient de corrélation de Pearson et de la p-valeur
corr_coefficient, p_value = stats.pearsonr(x, y)
applique le test de corrélation de Pearson entre les variablesx
ety
. Le coefficient de corrélation de Pearson évalue la force et la direction de la relation linéaire entre deux variables. Il retourne deux valeurs :corr_coefficient
, qui représente la force et la direction de la corrélation, etp_value
, qui indique la significativité de la corrélation.Affichage des résultats
print(f'Coefficient de corrélation de Pearson: {corr_coefficient}')
affiche la valeur du coefficient de corrélation de Pearson. Ce coefficient varie entre -1 et 1 : un coefficient proche de 1 indique une corrélation positive forte, proche de -1 indique une corrélation négative forte, et proche de 0 indique aucune corrélation linéaire.print(f'P-valeur: {p_value}')
affiche la p-valeur associée au test de Pearson. Si la p-valeur est inférieure à un seuil de signification (généralement 0.05), cela suggère que la corrélation observée est statistiquement significative, c'est-à-dire que la relation entre les deux variables n'est probablement pas due au hasard.