Pair Plot
Le pair plot est un outil incontournable pour explorer rapidement les relations entre plusieurs variables numériques d’un jeu de données. Il génère automatiquement une matrice de graphiques, affichant à la fois les distributions individuelles de chaque variable (sur la diagonale) et les nuages de points (scatter plots) pour toutes les paires possibles.
Cette visualisation permet de :
-
Repérer facilement les corrélations entre variables.
-
Détecter des groupes, des tendances ou des relations non linéaires.
-
Identifier des valeurs aberrantes potentielles.
-
Obtenir une vue d’ensemble synthétique du dataset avant une analyse approfondie.
Avec Seaborn, le pair plot est très simple à créer et offre des options pour colorer les points selon des catégories (hue), facilitant ainsi l’exploration visuelle des interactions complexes.
Fonctions :
-
pairplot()
La fonction sns.pairplot() permet de créer un graphique en paires, où chaque variable d'un DataFrame est tracée contre toutes les autres variables, pour explorer les relations bivariées dans un jeu de données.
Importation :
import seaborn as snsAttributs :
Paramètre Type Description Valeur par défaut dataDataFrame Le DataFrame contenant les données à visualiser. Nonehuestr Nom de la variable dans les données pour colorer les points selon une catégorie. Nonepalettestr / list Palette de couleurs à utiliser pour la variable hue.Nonekindstr Type de graphique à utiliser pour la paire (par défaut un nuage de points). Les options sont "scatter", "reg", "resid", "kde", "hex". 'scatter'cornerbool Si True, ne trace pas les graphiques redondants (en haut de la diagonale).Falseheightfloat La hauteur de chaque graphique dans la grille. 2.5dropnabool Si True, supprime les lignes contenant des valeurs manquantes avant de tracer les graphiques.TrueExemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("iris") # Tracer le pairplot pour le dataset iris sns.pairplot(data, hue="species") plt.show()
Explication du code :
import seaborn as snsimporte la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as pltimporte la bibliothèque matplotlib.pyplot pour la création de graphiques.Création d'un DataFrame exemple
data = sns.load_dataset("iris")charge le célèbre dataset "iris", qui contient des mesures de différentes caractéristiques de fleurs d'iris, et l'assigne à la variabledata.Tracer le pairplot pour le dataset iris
sns.pairplot(data, hue="species")génère un pairplot, qui est une matrice de graphiques pour examiner les relations entre toutes les paires de variables du dataset. La variable 'species' est utilisée pour colorier les points selon les différentes espèces d'iris, ce qui permet de visualiser les différences entre les espèces pour chaque paire de caractéristiques.Afficher le graphique
plt.show()affiche le graphique généré à l'écran.