Matrices de corrélation

Une matrice de corrélation est un tableau carré qui montre le coefficient de corrélation entre plusieurs variables numériques d’un jeu de données. Elle permet de repérer facilement les relations linéaires positives ou négatives entre les variables, et d’identifier celles qui sont fortement liées.

La corrélation est une mesure statistique qui varie entre -1 et +1 :

Les matrices de corrélation sont particulièrement utiles pour :

Fonctions :

  • corr()

    La fonction corr() de pandas est utilisée pour calculer la matrice de corrélation entre les colonnes d'un DataFrame.

    Importation :

    import pandas as pd

    Attributs :

    Nom Type Description
    method str, optionnel La méthode à utiliser pour calculer la corrélation. Par défaut, c'est `'pearson'`. Les autres options sont `'kendall'` et `'spearman'`.
    min_periods int, optionnel Le nombre minimal de valeurs non-nulles requises pour calculer la corrélation. Si ce nombre n'est pas atteint, le résultat sera `NaN`.
    numeric_only bool, optionnel Si `True`, seuls les types numériques seront utilisés pour calculer la corrélation. Par défaut, c'est `None` et cela inclut tous les types.

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame d'exemple
    data = {
        'A': [1, 2, 3, 4, 5],
        'B': [5, 4, 3, 2, 1],
        'C': [2, 3, 4, 5, 6]
    }
    df = pd.DataFrame(data)
    
    # Calcul de la matrice de corrélation
    correlation_matrix = df.corr()
    
    # Affichage de la matrice de corrélation
    print(correlation_matrix)
    Résultat du code

    Explication du code :

    Un DataFrame pandas est créé avec trois colonnes : A, B, et C.

    df.corr() calcule la matrice de corrélation entre les colonnes du DataFrame. Par défaut, la méthode de corrélation utilisée est Pearson, qui est la plus courante pour mesurer la relation linéaire entre les variables.

    La fonction retourne une matrice carrée où chaque cellule contient la corrélation entre deux colonnes.

    Par exemple, la corrélation entre A et B sera proche de -1, indiquant une corrélation négative forte.