Scatter Plots
Le scatter plot est l’un des graphiques les plus fondamentaux pour visualiser la relation entre deux variables numériques. Chaque point représente une observation, positionnée selon ses valeurs sur les deux axes. Cette visualisation permet de détecter facilement des corrélations, des groupements, des tendances, ou encore des valeurs aberrantes.
Les scatter plots sont particulièrement utiles pour :
-
Évaluer la force et la direction d’une relation linéaire ou non.
-
Identifier des clusters ou des sous-groupes dans les données.
-
Visualiser des distributions bivariées avant d’appliquer des analyses plus complexes.
Seaborn offre des fonctionnalités étendues pour enrichir les scatter plots, notamment par l’ajout de couleurs (hue
), tailles (size
) ou formes (style
) des points, ce qui permet de représenter plusieurs dimensions en même temps.
Fonctions :
-
sns.scatterplot()
La fonction sns.scatterplot() est utilisée pour créer un graphique de dispersion, idéal pour visualiser la relation entre deux variables quantitatives. Elle permet également de personnaliser l'apparence des points en fonction d'autres variables.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Le nom de la variable à utiliser pour l'axe des x. None
y
str Le nom de la variable à utiliser pour l'axe des y. None
hue
str Nom de la variable dans les données pour colorer les points selon une catégorie. None
style
str Nom de la variable dans les données pour modifier le style des points (par exemple, formes différentes). None
size
str Nom de la variable dans les données pour contrôler la taille des points. None
markers
bool Si True, affiche les marqueurs pour les points sur le graphique. True
palette
str / list Palette de couleurs à utiliser pour colorier les points. None
legend
bool Si True, affiche la légende des catégories. True
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("tips") # Tracer un scatterplot pour visualiser la relation entre total_bill et tip sns.scatterplot(x="total_bill", y="tip", data=data, hue="time", style="time", size="size") plt.show()
Explication du code :
import seaborn as sns
importe la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as plt
importe la bibliothèque matplotlib.pyplot pour la création de graphiques.Création d'un DataFrame exemple
data = sns.load_dataset("tips")
charge le dataset "tips", qui contient des informations sur les pourboires dans des restaurants, et l'assigne à la variabledata
.Tracer un scatterplot pour visualiser la relation entre 'total_bill' et 'tip'
sns.scatterplot(x="total_bill", y="tip", data=data, hue="time", style="time", size="size")
trace un scatterplot (nuage de points) pour visualiser la relation entre la facture totale ('total_bill') et le pourboire ('tip'). Les points sont colorés selon la variable 'time' (hue), stylisés selon la variable 'time' (style), et leur taille est déterminée par la variable 'size' (size).Afficher le graphique
plt.show()
affiche le graphique généré à l'écran.