Matrices de corrélation
Fonctions :
-
corr()
La fonction corr() de pandas est utilisée pour calculer la matrice de corrélation entre les colonnes d'un DataFrame.
Importation :
import pandas as pd
Attributs :
Nom Type Description method str, optionnel La méthode à utiliser pour calculer la corrélation. Par défaut, c'est `'pearson'`. Les autres options sont `'kendall'` et `'spearman'`. min_periods int, optionnel Le nombre minimal de valeurs non-nulles requises pour calculer la corrélation. Si ce nombre n'est pas atteint, le résultat sera `NaN`. numeric_only bool, optionnel Si `True`, seuls les types numériques seront utilisés pour calculer la corrélation. Par défaut, c'est `None` et cela inclut tous les types. Exemple de code :
import pandas as pd # Création d'un DataFrame d'exemple data = { 'A': [1, 2, 3, 4, 5], 'B': [5, 4, 3, 2, 1], 'C': [2, 3, 4, 5, 6] } df = pd.DataFrame(data) # Calcul de la matrice de corrélation correlation_matrix = df.corr() # Affichage de la matrice de corrélation print(correlation_matrix)
Explication du code :
Un DataFrame pandas est créé avec trois colonnes :
A
,B
, etC
.df.corr()
calcule la matrice de corrélation entre les colonnes du DataFrame. Par défaut, la méthode de corrélation utilisée est Pearson, qui est la plus courante pour mesurer la relation linéaire entre les variables.La fonction retourne une matrice carrée où chaque cellule contient la corrélation entre deux colonnes.
Par exemple, la corrélation entre
A
etB
sera proche de -1, indiquant une corrélation négative forte.