Box Plot
Le Box Plot, ou boîte à moustaches, est un graphique statistique essentiel pour résumer la distribution d’une variable numérique en mettant en évidence sa dispersion, sa symétrie (ou non), et la présence de valeurs aberrantes.
Ce type de diagramme est largement utilisé car il fournit une vue synthétique des principales caractéristiques d’une distribution :
-
Médiane (ligne centrale)
-
Premier et troisième quartiles (Q1 et Q3), qui forment la boîte
-
Étendue interquartile (IQR) : mesure de la dispersion (Q3 − Q1)
-
« Moustaches » : limites des valeurs considérées comme non aberrantes
-
Points individuels au-delà des moustaches : identifiés comme outliers
Le Box Plot est particulièrement utile pour :
-
Comparer plusieurs distributions côte à côte (ex. selon des catégories)
-
Détecter des valeurs extrêmes
-
Évaluer la symétrie ou l’asymétrie d’une variable
-
Résumer visuellement une grande quantité de données numériques
Fonctions :
-
sns.boxplot()
La fonction sns.boxplot() permet de tracer un diagramme en boîte (boxplot), qui est un graphique statistique montrant la distribution d'un ensemble de données. Il présente la médiane, le premier et le troisième quartile, ainsi que les valeurs aberrantes potentielles sous forme de points.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Nom de la variable à afficher sur l'axe des x (catégories). None
y
str Nom de la variable à afficher sur l'axe des y (valeurs). None
hue
str Nom de la variable à utiliser pour colorer les boîtes par catégories. None
palette
str / list Palette de couleurs à utiliser pour les différentes catégories de la variable hue
.None
width
float Largeur des boîtes (compris entre 0 et 1). 0.8
fliersize
float Taille des points représentant les valeurs aberrantes. 5
whis
float or str Définit les "moustaches" (les étendues des boîtes). Valeur par défaut : 1.5, ce qui signifie que les moustaches s'étendent jusqu'à 1.5 fois l'écart interquartile. 1.5
orient
str Orientation du graphique. Options : "v"
pour vertical,"h"
pour horizontal."v"
ax
Axes Axes de matplotlib sur lequel dessiner le graphique. None
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Chargement du dataset "tips" data = sns.load_dataset("tips") # Tracer un boxplot pour la variable total_bill en fonction du jour sns.boxplot(x="day", y="total_bill", data=data) plt.show()
Explication du code :
import seaborn as sns
importe la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as plt
importe la bibliothèque matplotlib.pyplot pour la création de graphiques.Chargement du dataset "tips"
data = sns.load_dataset("tips")
charge le dataset "tips", qui contient des informations sur les pourboires dans des restaurants, et l'assigne à la variabledata
.Tracer un boxplot pour la variable 'total_bill' en fonction du jour
sns.boxplot(x="day", y="total_bill", data=data)
trace un boxplot (boîte à moustaches) montrant la distribution des montants de l'addition ('total_bill') en fonction des jours de la semaine ('day'). Le boxplot permet de visualiser les médianes, les quartiles et les valeurs aberrantes.Afficher le graphique
plt.show()
affiche le graphique généré à l'écran.