Scatter Plots
Le scatter plot est l’un des graphiques les plus fondamentaux pour visualiser la relation entre deux variables numériques. Chaque point représente une observation, positionnée selon ses valeurs sur les deux axes. Cette visualisation permet de détecter facilement des corrélations, des groupements, des tendances, ou encore des valeurs aberrantes.
Les scatter plots sont particulièrement utiles pour :
-
Évaluer la force et la direction d’une relation linéaire ou non.
-
Identifier des clusters ou des sous-groupes dans les données.
-
Visualiser des distributions bivariées avant d’appliquer des analyses plus complexes.
Seaborn offre des fonctionnalités étendues pour enrichir les scatter plots, notamment par l’ajout de couleurs (hue), tailles (size) ou formes (style) des points, ce qui permet de représenter plusieurs dimensions en même temps.
Fonctions :
-
sns.scatterplot()
La fonction sns.scatterplot() est utilisée pour créer un graphique de dispersion, idéal pour visualiser la relation entre deux variables quantitatives. Elle permet également de personnaliser l'apparence des points en fonction d'autres variables.
Importation :
import seaborn as snsAttributs :
Paramètre Type Description Valeur par défaut dataDataFrame Le DataFrame contenant les données à visualiser. Nonexstr Le nom de la variable à utiliser pour l'axe des x. Noneystr Le nom de la variable à utiliser pour l'axe des y. Nonehuestr Nom de la variable dans les données pour colorer les points selon une catégorie. Nonestylestr Nom de la variable dans les données pour modifier le style des points (par exemple, formes différentes). Nonesizestr Nom de la variable dans les données pour contrôler la taille des points. Nonemarkersbool Si True, affiche les marqueurs pour les points sur le graphique. Truepalettestr / list Palette de couleurs à utiliser pour colorier les points. Nonelegendbool Si True, affiche la légende des catégories. TrueExemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("tips") # Tracer un scatterplot pour visualiser la relation entre total_bill et tip sns.scatterplot(x="total_bill", y="tip", data=data, hue="time", style="time", size="size") plt.show()
Explication du code :
import seaborn as snsimporte la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as pltimporte la bibliothèque matplotlib.pyplot pour la création de graphiques.Création d'un DataFrame exemple
data = sns.load_dataset("tips")charge le dataset "tips", qui contient des informations sur les pourboires dans des restaurants, et l'assigne à la variabledata.Tracer un scatterplot pour visualiser la relation entre 'total_bill' et 'tip'
sns.scatterplot(x="total_bill", y="tip", data=data, hue="time", style="time", size="size")trace un scatterplot (nuage de points) pour visualiser la relation entre la facture totale ('total_bill') et le pourboire ('tip'). Les points sont colorés selon la variable 'time' (hue), stylisés selon la variable 'time' (style), et leur taille est déterminée par la variable 'size' (size).Afficher le graphique
plt.show()affiche le graphique généré à l'écran.