Boîte à moustaches (2D)
La boîte à moustaches, ou box plot, est un graphique statistique essentiel pour représenter la distribution d’une variable numérique. Il résume visuellement plusieurs caractéristiques importantes telles que la médiane, les quartiles, la dispersion, et la présence d’éventuels outliers (valeurs aberrantes).
Une boîte à moustaches se compose principalement de :
- Une boîte indiquant l’intervalle entre le premier quartile (Q1) et le troisième quartile (Q3),
- Une ligne à l’intérieur de la boîte représentant la médiane (Q2),
- Des « moustaches » qui s’étendent aux valeurs minimales et maximales non extrêmes,
- Des points isolés qui représentent les outliers, c’est-à-dire des observations situées en dehors des limites normales.
Ce graphique est particulièrement utile pour :
- Comparer la dispersion et la tendance centrale entre plusieurs groupes ou catégories,
- Détecter des asymétries dans la distribution des données,
- Identifier des valeurs extrêmes susceptibles d’influencer l’analyse,
- Comprendre rapidement la structure statistique d’un jeu de données.
La simplicité et la richesse d’informations du box plot en font un outil incontournable en analyse exploratoire des données, facilitant la prise de décision basée sur la distribution réelle des variables étudiées.
Fonctions :
-
px.box()
px.box() crée un diagramme en boîte (box plot) interactif, utilisé pour visualiser la distribution, la médiane, les quartiles, ainsi que les éventuels outliers (valeurs aberrantes) d’une variable numérique.
Importation :
import pandas as pd import plotly.express as px
Attributs :
Paramètre Type Description Valeur par défaut data_frame
DataFrame Tableau de données source. Obligatoire y
str Nom de la colonne numérique à représenter sur l’axe des ordonnées. Obligatoire x
str Nom de la colonne catégorielle utilisée pour grouper les données (optionnel). None
color
str Colonne utilisée pour colorer les boîtes selon une catégorie. None
notched
bool Si True
, affiche des encoches indiquant l’intervalle de confiance de la médiane.False
title
str Titre du graphique. None
Exemple de code :
import pandas as pd import plotly.express as px # Création d'un DataFrame data = { 'Groupe': ['A', 'A', 'B', 'B', 'A', 'B', 'A', 'B'], 'Score': [10, 12, 9, 15, 13, 10, 11, 14] } df = pd.DataFrame(data) # Création du box plot fig = px.box(df, x='Groupe', y='Score', title='Distribution des scores par groupe') # Affichage fig.show()
Explication du code :
importe les bibliothèques pandas et plotly.express.
Création du DataFrame
Le dictionnairedata
contient deux colonnes : -'Groupe'
(catégories), -'Score'
(valeurs numériques).df = pd.DataFrame(data)
transforme ce dictionnaire en tableau.Création du box plot
px.box(...)
crée un diagramme en boîte interactif : -x='Groupe'
pour grouper les données par catégorie, -y='Score'
pour afficher la distribution des scores, -title='Distribution des scores par groupe'
pour le titre.Affichage
fig.show()
affiche le graphique.