Histogramme
L’histogramme est l’un des outils les plus fondamentaux de l’analyse exploratoire de données. Il permet de visualiser la distribution d’une variable numérique en regroupant ses valeurs en intervalles (appelés bins) et en représentant la fréquence (ou la densité) d’observation dans chaque intervalle.
Ce graphique est particulièrement utile pour :
-
Identifier la forme de la distribution (symétrique, asymétrique, multimodale, etc.)
-
Détecter des valeurs aberrantes ou des concentrations inhabituelles
-
Comparer la distribution de plusieurs sous-groupes de données
-
Choisir des transformations (logarithmique, normalisation…) ou orienter le choix de modèles statistiques
Dans Seaborn, la fonction principale pour créer un histogramme est histplot()
, qui offre de nombreuses options pour :
-
ajuster automatiquement ou manuellement le nombre de bins
-
normaliser les données pour représenter une densité
-
ajouter une courbe de densité (KDE)
-
séparer la distribution selon une variable catégorielle
Fonctions :
-
sns.histplot()
La fonction sns.histplot() permet de tracer un histogramme de données univariées. Elle est similaire à sns.displot(), mais elle offre plus de flexibilité pour personnaliser le graphique en termes de couleur, de type de distribution et d'autres paramètres. C'est un excellent moyen de visualiser la distribution d'une variable.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Nom de la variable à tracer sur l'axe des x. None
hue
str Nom de la variable à utiliser pour colorer les données par catégories. None
bins
int Nombre de bins (intervalles) dans l'histogramme. 10
kde
bool Si True
, une courbe KDE est tracée sur l'histogramme.False
stat
str Type de statistiques à afficher. Options incluent "count" (par défaut), "frequency", "density", et "probability". "count"
color
str Couleur des barres de l'histogramme. "blue"
discrete
bool Si True
, un histogramme discret est tracé (au lieu d'un histogramme continu).False
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Chargement du dataset "tips" data = sns.load_dataset("tips") # Tracer l'histogramme de la variable 'total_bill' avec une courbe KDE sns.histplot(data=data, x="total_bill", kde=True) plt.show()
Explication du code :
import seaborn as sns
importe la bibliothèque seaborn, qui est utilisée pour la visualisation de données statistiques en Python.import matplotlib.pyplot as plt
importe la bibliothèque matplotlib.pyplot pour la création de graphiques.Chargement du dataset "tips"
data = sns.load_dataset("tips")
charge le dataset "tips", qui contient des informations sur les pourboires dans des restaurants, et l'assigne à la variabledata
.Tracer l'histogramme de la variable 'total_bill' avec une courbe KDE
sns.histplot(data=data, x="total_bill", kde=True)
trace un histogramme de la variable 'total_bill' (montant total de l'addition) avec une courbe de densité de noyau (KDE) superposée pour estimer la distribution des données.Afficher le graphique
plt.show()
affiche le graphique généré à l'écran.