Boîte à moustaches

La boîte à moustaches, ou box plot, est un graphique statistique essentiel pour résumer la distribution d’une variable numérique. Elle permet de visualiser rapidement la médiane, les quartiles, ainsi que les valeurs extrêmes ou aberrantes (outliers).

Ce type de graphique est particulièrement utile pour comparer la dispersion et la symétrie des données entre plusieurs groupes, facilitant ainsi la détection de différences ou anomalies.

Les bibliothèques Matplotlib et Seaborn proposent des outils puissants pour créer et personnaliser des box plots, offrant une représentation claire et synthétique des caractéristiques principales d’un jeu de données.

Cette section vous expliquera comment utiliser les boîtes à moustaches pour enrichir vos analyses statistiques.

Fonctions :

  • plt.boxplot()

    La fonction plt.boxplot() permet de créer un graphique en boîte (boxplot), utilisé pour afficher la distribution d'un jeu de données, en montrant ses quartiles, ainsi que les valeurs extrêmes et les éventuelles valeurs aberrantes.

    Importation :

    import matplotlib.pyplot as plt

    Attributs :

    Paramètre Type Description Valeur par défaut
    x array-like Les données à représenter sous forme de boîte (ex : une liste ou un tableau de données numériques). None
    vert bool Indique si la boîte doit être tracée verticalement (True) ou horizontalement (False). True
    patch_artist bool Si True, les boîtes seront remplies avec des couleurs. False
    notch bool Si True, le graphique en boîte sera "entailleur" pour montrer l'intervalle interquartile. False
    whis float / str Proportion de l'intervalle interquartile (ex : 1.5 pour les valeurs extrêmes), ou 'range' pour utiliser toute l'étendue des données. 1.5
    showmeans bool Si True, le graphique affichera la moyenne des données. False

    Exemple de code :

    import matplotlib.pyplot as plt
    import numpy as np
    
    # Données à afficher dans un boxplot
    data = np.random.normal(loc=0, scale=1, size=100)
    
    # Création du boxplot
    plt.boxplot(data, vert=True, patch_artist=True, notch=True, whis=1.5, showmeans=True)
    
    # Ajouter un titre et afficher le graphique
    plt.title("Exemple de Boxplot")
    plt.show()
    Résultat du code

    Explication du code :

    Le code ci-dessus crée un boxplot (diagramme en boîte) à l'aide de la bibliothèque matplotlib.

    1. Données à afficher :

    Les données sont générées de manière aléatoire avec la fonction np.random.normal(), qui crée une distribution normale :

    • loc=0 : La moyenne (centre) de la distribution, ici 0.
    • scale=1 : L'écart-type de la distribution, ici 1.
    • size=100 : Le nombre de valeurs générées, ici 100.

    2. Création du boxplot :

    Le boxplot est créé avec la fonction plt.boxplot(), qui prend plusieurs arguments pour personnaliser l'apparence du graphique :

    • data : Les données à afficher dans le boxplot.
    • vert=True : Le boxplot est orienté verticalement (True), ce qui signifie que la boîte est verticale.
    • patch_artist=True : Remplir la boîte avec de la couleur (ici par défaut bleu). Si False, la boîte reste vide.
    • notch=True : Ajout d'une encoche dans la boîte pour montrer l'intervalle de confiance médian.
    • whis=1.5 : Le facteur de longueur des moustaches (les barres extérieures). Les moustaches s'étendent jusqu'à 1.5 fois l'écart interquartile.
    • showmeans=True : Affichage de la moyenne des données sous forme de point dans le boxplot.

    3. Personnalisation du graphique :

    plt.title('Exemple de Boxplot') : Le titre du graphique, ici 'Exemple de Boxplot'.

    4. Affichage du graphique :

    La fonction plt.show() permet d'afficher le boxplot à l'écran.