Test de Pearson

Le test de Pearson, ou correlation de Pearson, mesure la force et la direction de la relation linéaire entre deux variables continues. C’est l’un des tests les plus couramment utilisés pour évaluer la corrélation entre deux variables quantitatives.

Hypothèses du Test de Pearson

Hypothèse nulle (H₀) : Il n’y a pas de relation linéaire entre les deux variables. En d’autres termes, la corrélation est égale à zéro.

$H₀ : \rho = 0$ $H_{0} : ρ = 0$
Hypothèse alternative (H₁) : Il existe une relation linéaire entre les deux variables. En d’autres termes, la corrélation n’est pas égale à zéro.

$H₁ : \rho \neq 0$ $H_{1} : ρ \neq = 0$

Coefficient de Corrélation de Pearson (r)

Le coefficient de corrélation de Pearson (r) est une mesure qui varie entre -1 et 1 :

r = 1 : Corrélation parfaitement positive.
r = -1 : Corrélation parfaitement négative.
r = 0 : Pas de corrélation linéaire.

La formule de r est donnée par :

$r = \frac{n(\sum xy) – (\sum x)(\sum y)}{\sqrt{[n \sum x^2 – (\sum x)^2][n \sum y^2 – (\sum y)^2]}}$

$r = [ n \sum x ^{2} - ( \sum x ) ^{2} ] [ n \sum y ^{2} - ( \sum y ) ^{2} ] n ( \sum x y ) - ( \sum x ) ( \sum y )$

où :

$n$ $n$ : le nombre d’observations,
$x$ $x$ et

$y$ $y$ : les deux variables,
$\sum xy$ $\sum x y$ : somme des produits des paires de valeurs

$x_i$ $x_{i}$ et

$y_i$ $y_{i}$ ,
$\sum x$ $\sum x$ et

$\sum y$ $\sum y$ : sommes des valeurs de

$x$ $x$ et

$y$ $y$ ,
$\sum x^2$ $\sum x^{2}$ et

$\sum y^2$ $\sum y^{2}$ : sommes des carrés des valeurs de

$x$ $x$ et

$y$ $y$ .

Interprétation des Résultats du Test de Pearson

Après avoir calculé le coefficient de corrélation

$r$

$r$ , il faut analyser la valeur p pour tester l’hypothèse nulle.

Valeur p faible (p < α) : Rejet de l’hypothèse nulle. Il existe une relation linéaire significative entre les deux variables.
Valeur p élevée (p ≥ α) : Acceptation de l’hypothèse nulle. Il n’y a pas de relation linéaire significative entre les deux variables.

Fonctions :

stats.pearsonr()

La fonction stats.pearsonr() de SciPy calcule le coefficient de corrélation de Pearson, qui mesure la force et la direction de la relation linéaire entre deux variables.

Importation :

from scipy import stats

Attributs :

Nom	Type	Description
x	array-like	Un tableau de données représentant la première variable.
y	array-like	Un tableau de données représentant la deuxième variable à comparer avec la première.

Exemple de code :

from scipy import stats
import numpy as np

# Création de deux variables x et y
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])

# Calcul du coefficient de corrélation de Pearson et de la p-valeur
corr_coefficient, p_value = stats.pearsonr(x, y)

# Affichage des résultats
print(f'Coefficient de corrélation de Pearson: {corr_coefficient}')
print(f'P-valeur: {p_value}')

Explication du code :

from scipy import stats importe le module stats de la bibliothèque scipy, qui contient des fonctions statistiques utilisées pour effectuer des tests de corrélation, des analyses de variance, et bien plus encore.

import numpy as np importe la bibliothèque numpy, renommée ici en np, utilisée pour manipuler des tableaux (arrays) et effectuer des opérations numériques de manière efficace.

Création de deux variables x et y

x = np.array([1, 2, 3, 4, 5]) crée un tableau x contenant les valeurs [1, 2, 3, 4, 5], représentant les données de la première variable.

y = np.array([2, 4, 5, 4, 5]) crée un tableau y contenant les valeurs [2, 4, 5, 4, 5], représentant les données de la deuxième variable.

Calcul du coefficient de corrélation de Pearson et de la p-valeur

corr_coefficient, p_value = stats.pearsonr(x, y) applique le test de corrélation de Pearson entre les variables x et y. Le coefficient de corrélation de Pearson évalue la force et la direction de la relation linéaire entre deux variables. Il retourne deux valeurs : corr_coefficient, qui représente la force et la direction de la corrélation, et p_value, qui indique la significativité de la corrélation.

Affichage des résultats

print(f'Coefficient de corrélation de Pearson: {corr_coefficient}') affiche la valeur du coefficient de corrélation de Pearson. Ce coefficient varie entre -1 et 1 : un coefficient proche de 1 indique une corrélation positive forte, proche de -1 indique une corrélation négative forte, et proche de 0 indique aucune corrélation linéaire.

print(f'P-valeur: {p_value}') affiche la p-valeur associée au test de Pearson. Si la p-valeur est inférieure à un seuil de signification (généralement 0.05), cela suggère que la corrélation observée est statistiquement significative, c'est-à-dire que la relation entre les deux variables n'est probablement pas due au hasard.