Boîte à moustaches
La boîte à moustaches, ou box plot, est un graphique statistique essentiel pour résumer la distribution d’une variable numérique. Elle permet de visualiser rapidement la médiane, les quartiles, ainsi que les valeurs extrêmes ou aberrantes (outliers).
Ce type de graphique est particulièrement utile pour comparer la dispersion et la symétrie des données entre plusieurs groupes, facilitant ainsi la détection de différences ou anomalies.
Les bibliothèques Matplotlib et Seaborn proposent des outils puissants pour créer et personnaliser des box plots, offrant une représentation claire et synthétique des caractéristiques principales d’un jeu de données.
Cette section vous expliquera comment utiliser les boîtes à moustaches pour enrichir vos analyses statistiques.
Fonctions :
-
plt.boxplot()
La fonction plt.boxplot() permet de créer un graphique en boîte (boxplot), utilisé pour afficher la distribution d'un jeu de données, en montrant ses quartiles, ainsi que les valeurs extrêmes et les éventuelles valeurs aberrantes.
Importation :
import matplotlib.pyplot as plt
Attributs :
Paramètre Type Description Valeur par défaut x
array-like Les données à représenter sous forme de boîte (ex : une liste ou un tableau de données numériques). None
vert
bool Indique si la boîte doit être tracée verticalement (True) ou horizontalement (False). True
patch_artist
bool Si True, les boîtes seront remplies avec des couleurs. False
notch
bool Si True, le graphique en boîte sera "entailleur" pour montrer l'intervalle interquartile. False
whis
float / str Proportion de l'intervalle interquartile (ex : 1.5 pour les valeurs extrêmes), ou 'range' pour utiliser toute l'étendue des données. 1.5
showmeans
bool Si True, le graphique affichera la moyenne des données. False
Exemple de code :
import matplotlib.pyplot as plt import numpy as np # Données à afficher dans un boxplot data = np.random.normal(loc=0, scale=1, size=100) # Création du boxplot plt.boxplot(data, vert=True, patch_artist=True, notch=True, whis=1.5, showmeans=True) # Ajouter un titre et afficher le graphique plt.title("Exemple de Boxplot") plt.show()
Explication du code :
Le code ci-dessus crée un boxplot (diagramme en boîte) à l'aide de la bibliothèque matplotlib.
1. Données à afficher :
Les données sont générées de manière aléatoire avec la fonction np.random.normal(), qui crée une distribution normale :
- loc=0 : La moyenne (centre) de la distribution, ici 0.
- scale=1 : L'écart-type de la distribution, ici 1.
- size=100 : Le nombre de valeurs générées, ici 100.
2. Création du boxplot :
Le boxplot est créé avec la fonction plt.boxplot(), qui prend plusieurs arguments pour personnaliser l'apparence du graphique :
- data : Les données à afficher dans le boxplot.
- vert=True : Le boxplot est orienté verticalement (True), ce qui signifie que la boîte est verticale.
- patch_artist=True : Remplir la boîte avec de la couleur (ici par défaut bleu). Si False, la boîte reste vide.
- notch=True : Ajout d'une encoche dans la boîte pour montrer l'intervalle de confiance médian.
- whis=1.5 : Le facteur de longueur des moustaches (les barres extérieures). Les moustaches s'étendent jusqu'à 1.5 fois l'écart interquartile.
- showmeans=True : Affichage de la moyenne des données sous forme de point dans le boxplot.
3. Personnalisation du graphique :
plt.title('Exemple de Boxplot') : Le titre du graphique, ici 'Exemple de Boxplot'.
4. Affichage du graphique :
La fonction plt.show() permet d'afficher le boxplot à l'écran.