Histogramme
L’histogramme est l’un des outils les plus fondamentaux de l’analyse exploratoire de données. Il permet de visualiser la distribution d’une variable numérique en regroupant ses valeurs en intervalles (appelés bins) et en représentant la fréquence (ou la densité) d’observation dans chaque intervalle.
Ce graphique est particulièrement utile pour :
-
Identifier la forme de la distribution (symétrique, asymétrique, multimodale, etc.)
-
Détecter des valeurs aberrantes ou des concentrations inhabituelles
-
Comparer la distribution de plusieurs sous-groupes de données
-
Choisir des transformations (logarithmique, normalisation…) ou orienter le choix de modèles statistiques
Dans Seaborn, la fonction principale pour créer un histogramme est histplot(), qui offre de nombreuses options pour :
-
ajuster automatiquement ou manuellement le nombre de bins
-
normaliser les données pour représenter une densité
-
ajouter une courbe de densité (KDE)
-
séparer la distribution selon une variable catégorielle
Fonctions :
-
sns.histplot()
La fonction sns.histplot() permet de tracer un histogramme de données univariées. Elle est similaire à sns.displot(), mais elle offre plus de flexibilité pour personnaliser le graphique en termes de couleur, de type de distribution et d'autres paramètres. C'est un excellent moyen de visualiser la distribution d'une variable.
Importation :
import seaborn as snsAttributs :
Paramètre Type Description Valeur par défaut dataDataFrame Le DataFrame contenant les données à visualiser. Nonexstr Nom de la variable à tracer sur l'axe des x. Nonehuestr Nom de la variable à utiliser pour colorer les données par catégories. Nonebinsint Nombre de bins (intervalles) dans l'histogramme. 10kdebool Si True, une courbe KDE est tracée sur l'histogramme.Falsestatstr Type de statistiques à afficher. Options incluent "count" (par défaut), "frequency", "density", et "probability". "count"colorstr Couleur des barres de l'histogramme. "blue"discretebool Si True, un histogramme discret est tracé (au lieu d'un histogramme continu).FalseExemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Chargement du dataset "tips" data = sns.load_dataset("tips") # Tracer l'histogramme de la variable 'total_bill' avec une courbe KDE sns.histplot(data=data, x="total_bill", kde=True) plt.show()
Explication du code :
import seaborn as snsimporte la bibliothèque seaborn, qui est utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as pltimporte la bibliothèque matplotlib.pyplot pour la création de graphiques.Chargement du dataset "tips"
data = sns.load_dataset("tips")charge le dataset "tips", qui contient des informations sur les pourboires dans des restaurants, et l'assigne à la variabledata.Tracer l'histogramme de la variable 'total_bill' avec une courbe KDE
sns.histplot(data=data, x="total_bill", kde=True)trace un histogramme de la variable 'total_bill' (montant total de l'addition) avec une courbe de densité de noyau (KDE) superposée pour estimer la distribution des données.Afficher le graphique
plt.show()affiche le graphique généré à l'écran.