Box Plot
Le Box Plot, ou boîte à moustaches, est un graphique statistique essentiel pour résumer la distribution d’une variable numérique en mettant en évidence sa dispersion, sa symétrie (ou non), et la présence de valeurs aberrantes.
Ce type de diagramme est largement utilisé car il fournit une vue synthétique des principales caractéristiques d’une distribution :
-
Médiane (ligne centrale)
-
Premier et troisième quartiles (Q1 et Q3), qui forment la boîte
-
Étendue interquartile (IQR) : mesure de la dispersion (Q3 − Q1)
-
« Moustaches » : limites des valeurs considérées comme non aberrantes
-
Points individuels au-delà des moustaches : identifiés comme outliers
Le Box Plot est particulièrement utile pour :
-
Comparer plusieurs distributions côte à côte (ex. selon des catégories)
-
Détecter des valeurs extrêmes
-
Évaluer la symétrie ou l’asymétrie d’une variable
-
Résumer visuellement une grande quantité de données numériques
Fonctions :
-
sns.boxplot()
La fonction sns.boxplot() permet de tracer un diagramme en boîte (boxplot), qui est un graphique statistique montrant la distribution d'un ensemble de données. Il présente la médiane, le premier et le troisième quartile, ainsi que les valeurs aberrantes potentielles sous forme de points.
Importation :
import seaborn as snsAttributs :
Paramètre Type Description Valeur par défaut dataDataFrame Le DataFrame contenant les données à visualiser. Nonexstr Nom de la variable à afficher sur l'axe des x (catégories). Noneystr Nom de la variable à afficher sur l'axe des y (valeurs). Nonehuestr Nom de la variable à utiliser pour colorer les boîtes par catégories. Nonepalettestr / list Palette de couleurs à utiliser pour les différentes catégories de la variable hue.Nonewidthfloat Largeur des boîtes (compris entre 0 et 1). 0.8fliersizefloat Taille des points représentant les valeurs aberrantes. 5whisfloat or str Définit les "moustaches" (les étendues des boîtes). Valeur par défaut : 1.5, ce qui signifie que les moustaches s'étendent jusqu'à 1.5 fois l'écart interquartile. 1.5orientstr Orientation du graphique. Options : "v"pour vertical,"h"pour horizontal."v"axAxes Axes de matplotlib sur lequel dessiner le graphique. NoneExemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Chargement du dataset "tips" data = sns.load_dataset("tips") # Tracer un boxplot pour la variable total_bill en fonction du jour sns.boxplot(x="day", y="total_bill", data=data) plt.show()
Explication du code :
import seaborn as snsimporte la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as pltimporte la bibliothèque matplotlib.pyplot pour la création de graphiques.Chargement du dataset "tips"
data = sns.load_dataset("tips")charge le dataset "tips", qui contient des informations sur les pourboires dans des restaurants, et l'assigne à la variabledata.Tracer un boxplot pour la variable 'total_bill' en fonction du jour
sns.boxplot(x="day", y="total_bill", data=data)trace un boxplot (boîte à moustaches) montrant la distribution des montants de l'addition ('total_bill') en fonction des jours de la semaine ('day'). Le boxplot permet de visualiser les médianes, les quartiles et les valeurs aberrantes.Afficher le graphique
plt.show()affiche le graphique généré à l'écran.