Pair Plot
Le pair plot est un outil incontournable pour explorer rapidement les relations entre plusieurs variables numériques d’un jeu de données. Il génère automatiquement une matrice de graphiques, affichant à la fois les distributions individuelles de chaque variable (sur la diagonale) et les nuages de points (scatter plots) pour toutes les paires possibles.
Cette visualisation permet de :
-
Repérer facilement les corrélations entre variables.
-
Détecter des groupes, des tendances ou des relations non linéaires.
-
Identifier des valeurs aberrantes potentielles.
-
Obtenir une vue d’ensemble synthétique du dataset avant une analyse approfondie.
Avec Seaborn, le pair plot est très simple à créer et offre des options pour colorer les points selon des catégories (hue
), facilitant ainsi l’exploration visuelle des interactions complexes.
Fonctions :
-
pairplot()
La fonction sns.pairplot() permet de créer un graphique en paires, où chaque variable d'un DataFrame est tracée contre toutes les autres variables, pour explorer les relations bivariées dans un jeu de données.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
hue
str Nom de la variable dans les données pour colorer les points selon une catégorie. None
palette
str / list Palette de couleurs à utiliser pour la variable hue
.None
kind
str Type de graphique à utiliser pour la paire (par défaut un nuage de points). Les options sont "scatter", "reg", "resid", "kde", "hex". 'scatter'
corner
bool Si True
, ne trace pas les graphiques redondants (en haut de la diagonale).False
height
float La hauteur de chaque graphique dans la grille. 2.5
dropna
bool Si True
, supprime les lignes contenant des valeurs manquantes avant de tracer les graphiques.True
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("iris") # Tracer le pairplot pour le dataset iris sns.pairplot(data, hue="species") plt.show()
Explication du code :
import seaborn as sns
importe la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as plt
importe la bibliothèque matplotlib.pyplot pour la création de graphiques.Création d'un DataFrame exemple
data = sns.load_dataset("iris")
charge le célèbre dataset "iris", qui contient des mesures de différentes caractéristiques de fleurs d'iris, et l'assigne à la variabledata
.Tracer le pairplot pour le dataset iris
sns.pairplot(data, hue="species")
génère un pairplot, qui est une matrice de graphiques pour examiner les relations entre toutes les paires de variables du dataset. La variable 'species' est utilisée pour colorier les points selon les différentes espèces d'iris, ce qui permet de visualiser les différences entre les espèces pour chaque paire de caractéristiques.Afficher le graphique
plt.show()
affiche le graphique généré à l'écran.