Matrices de corrélation

Fonctions :

  • corr()

    La fonction corr() de pandas est utilisée pour calculer la matrice de corrélation entre les colonnes d'un DataFrame.

    Importation :

    import pandas as pd

    Attributs :

    Nom Type Description
    method str, optionnel La méthode à utiliser pour calculer la corrélation. Par défaut, c'est `'pearson'`. Les autres options sont `'kendall'` et `'spearman'`.
    min_periods int, optionnel Le nombre minimal de valeurs non-nulles requises pour calculer la corrélation. Si ce nombre n'est pas atteint, le résultat sera `NaN`.
    numeric_only bool, optionnel Si `True`, seuls les types numériques seront utilisés pour calculer la corrélation. Par défaut, c'est `None` et cela inclut tous les types.

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame d'exemple
    data = {
        'A': [1, 2, 3, 4, 5],
        'B': [5, 4, 3, 2, 1],
        'C': [2, 3, 4, 5, 6]
    }
    df = pd.DataFrame(data)
    
    # Calcul de la matrice de corrélation
    correlation_matrix = df.corr()
    
    # Affichage de la matrice de corrélation
    print(correlation_matrix)
    Résultat du code

    Explication du code :

    Un DataFrame pandas est créé avec trois colonnes : A, B, et C.

    df.corr() calcule la matrice de corrélation entre les colonnes du DataFrame. Par défaut, la méthode de corrélation utilisée est Pearson, qui est la plus courante pour mesurer la relation linéaire entre les variables.

    La fonction retourne une matrice carrée où chaque cellule contient la corrélation entre deux colonnes.

    Par exemple, la corrélation entre A et B sera proche de -1, indiquant une corrélation négative forte.