Matrices de corrélation

Une matrice de corrélation est un tableau carré qui montre le coefficient de corrélation entre plusieurs variables numériques d’un jeu de données. Elle permet de repérer facilement les relations linéaires positives ou négatives entre les variables, et d’identifier celles qui sont fortement liées.

La corrélation est une mesure statistique qui varie entre -1 et +1 :

+1 indique une corrélation linéaire parfaite positive,
0 signifie aucune corrélation linéaire,
-1 indique une corrélation linéaire parfaite négative.

Les matrices de corrélation sont particulièrement utiles pour :

Détecter les variables redondantes ou fortement corrélées,
Sélectionner des variables pertinentes pour un modèle de machine learning,
Identifier des patterns inattendus entre les variables,
Comprendre la structure globale du jeu de données.

Fonctions :

corr()

La fonction corr() de pandas est utilisée pour calculer la matrice de corrélation entre les colonnes d'un DataFrame.

Importation :

import pandas as pd

Attributs :

Nom	Type	Description
method	str, optionnel	La méthode à utiliser pour calculer la corrélation. Par défaut, c'est `'pearson'`. Les autres options sont `'kendall'` et `'spearman'`.
min_periods	int, optionnel	Le nombre minimal de valeurs non-nulles requises pour calculer la corrélation. Si ce nombre n'est pas atteint, le résultat sera `NaN`.
numeric_only	bool, optionnel	Si `True`, seuls les types numériques seront utilisés pour calculer la corrélation. Par défaut, c'est `None` et cela inclut tous les types.

Exemple de code :

import pandas as pd

# Création d'un DataFrame d'exemple
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

# Affichage de la matrice de corrélation
print(correlation_matrix)

Explication du code :

Un DataFrame pandas est créé avec trois colonnes : A, B, et C.

df.corr() calcule la matrice de corrélation entre les colonnes du DataFrame. Par défaut, la méthode de corrélation utilisée est Pearson, qui est la plus courante pour mesurer la relation linéaire entre les variables.

La fonction retourne une matrice carrée où chaque cellule contient la corrélation entre deux colonnes.

Par exemple, la corrélation entre A et B sera proche de -1, indiquant une corrélation négative forte.