Test de Pearson

Le test de Pearson, ou correlation de Pearson, mesure la force et la direction de la relation linéaire entre deux variables continues. C’est l’un des tests les plus couramment utilisés pour évaluer la corrélation entre deux variables quantitatives.

Hypothèses du Test de Pearson

Coefficient de Corrélation de Pearson (r)

Le coefficient de corrélation de Pearson (r) est une mesure qui varie entre -1 et 1 :

La formule de r est donnée par :

 

r=n(xy)(x)(y)[nx2(x)2][ny2(y)2]r = \frac{n(\sum xy) – (\sum x)(\sum y)}{\sqrt{[n \sum x^2 – (\sum x)^2][n \sum y^2 – (\sum y)^2]}}

où :

Interprétation des Résultats du Test de Pearson

Après avoir calculé le coefficient de corrélation

rr

, il faut analyser la valeur p pour tester l’hypothèse nulle.

Fonctions :

  • stats.pearsonr()

    La fonction stats.pearsonr() de SciPy calcule le coefficient de corrélation de Pearson, qui mesure la force et la direction de la relation linéaire entre deux variables.

    Importation :

    from scipy import stats

    Attributs :

    Nom Type Description
    x array-like Un tableau de données représentant la première variable.
    y array-like Un tableau de données représentant la deuxième variable à comparer avec la première.

    Exemple de code :

    from scipy import stats
    import numpy as np
    
    # Création de deux variables x et y
    x = np.array([1, 2, 3, 4, 5])
    y = np.array([2, 4, 5, 4, 5])
    
    # Calcul du coefficient de corrélation de Pearson et de la p-valeur
    corr_coefficient, p_value = stats.pearsonr(x, y)
    
    # Affichage des résultats
    print(f'Coefficient de corrélation de Pearson: {corr_coefficient}')
    print(f'P-valeur: {p_value}')
    Résultat du code

    Explication du code :

    from scipy import stats importe le module stats de la bibliothèque scipy, qui contient des fonctions statistiques utilisées pour effectuer des tests de corrélation, des analyses de variance, et bien plus encore.

    import numpy as np importe la bibliothèque numpy, renommée ici en np, utilisée pour manipuler des tableaux (arrays) et effectuer des opérations numériques de manière efficace.

    Création de deux variables x et y

    x = np.array([1, 2, 3, 4, 5]) crée un tableau x contenant les valeurs [1, 2, 3, 4, 5], représentant les données de la première variable.

    y = np.array([2, 4, 5, 4, 5]) crée un tableau y contenant les valeurs [2, 4, 5, 4, 5], représentant les données de la deuxième variable.

    Calcul du coefficient de corrélation de Pearson et de la p-valeur

    corr_coefficient, p_value = stats.pearsonr(x, y) applique le test de corrélation de Pearson entre les variables x et y. Le coefficient de corrélation de Pearson évalue la force et la direction de la relation linéaire entre deux variables. Il retourne deux valeurs : corr_coefficient, qui représente la force et la direction de la corrélation, et p_value, qui indique la significativité de la corrélation.

    Affichage des résultats

    print(f'Coefficient de corrélation de Pearson: {corr_coefficient}') affiche la valeur du coefficient de corrélation de Pearson. Ce coefficient varie entre -1 et 1 : un coefficient proche de 1 indique une corrélation positive forte, proche de -1 indique une corrélation négative forte, et proche de 0 indique aucune corrélation linéaire.

    print(f'P-valeur: {p_value}') affiche la p-valeur associée au test de Pearson. Si la p-valeur est inférieure à un seuil de signification (généralement 0.05), cela suggère que la corrélation observée est statistiquement significative, c'est-à-dire que la relation entre les deux variables n'est probablement pas due au hasard.