Histogrammes
Les histogrammes sont des graphiques essentiels pour analyser la distribution d’une variable numérique. Ils divisent les données en intervalles appelés bins et représentent la fréquence ou la densité des observations dans chaque intervalle sous forme de barres verticales.
Cette visualisation permet de comprendre la répartition des valeurs, d’identifier les tendances centrales, la dispersion, la présence de modes multiples, ainsi que les valeurs extrêmes.
Les bibliothèques Matplotlib et Seaborn offrent des outils flexibles pour créer des histogrammes, permettant de régler le nombre de bins, la normalisation, et de personnaliser l’apparence pour mieux s’adapter à vos besoins analytiques.
Cette section vous guidera dans la création, l’interprétation et la personnalisation des histogrammes pour enrichir votre analyse de données.
Fonctions :
-
plt.hist()
La fonction plt.hist() permet de créer un histogramme, qui est un graphique utilisé pour représenter la distribution des données en divisant les données en intervalles (ou "buckets") et en comptant le nombre de valeurs dans chaque intervalle.
Importation :
import matplotlib.pyplot as plt
Attributs :
Paramètre Type Description Valeur par défaut x
array-like Les données à afficher sous forme d'histogramme (ex : une liste ou un tableau de données numériques). None
bins
int / sequence Le nombre de bins (ou intervalles) ou une séquence de bords de bins. Par exemple, une liste de valeurs pour définir explicitement les bords des bins. 10
range
tuple La plage des valeurs à inclure dans l'histogramme sous forme de tuple (min, max). None
density
bool Si True, l'histogramme sera normalisé pour que l'aire sous l'histogramme soit égale à 1. Cela est utile pour comparer des distributions. False
color
str La couleur des barres de l'histogramme. 'blue'
histtype
str Le type d'histogramme à afficher : 'bar', 'barstacked', 'step', 'stepfilled'. 'bar'
align
str Détermine l'alignement des barres : 'left', 'mid', ou 'right'. 'mid'
Exemple de code :
import matplotlib.pyplot as plt import numpy as np # Génération de données aléatoires data = np.random.randn(1000) # Création de l'histogramme plt.hist(data, bins=30, color='skyblue', edgecolor='black', density=True) # Ajouter un titre et afficher le graphique plt.title("Histogramme de données aléatoires") plt.xlabel("Valeurs") plt.ylabel("Fréquence") plt.show()
Explication du code :
Le code ci-dessus utilise la bibliothèque matplotlib pour créer un histogramme représentant la distribution de données aléatoires générées à l'aide de numpy.
1. Génération de données aléatoires :
Les données sont générées à l'aide de la fonction np.random.randn(1000), qui crée un tableau de 1000 valeurs tirées d'une distribution normale standard (moyenne = 0, écart-type = 1).
2. Création de l'histogramme :
L'histogramme est créé avec la fonction plt.hist(), qui prend plusieurs arguments :
- data : Les données à afficher sous forme d'histogramme.
- bins=30 : Le nombre de bins (groupes de données) dans l'histogramme, ici 30.
- color='skyblue' : La couleur des barres de l'histogramme, ici un bleu clair.
- edgecolor='black' : La couleur du bord des barres, ici noir.
- density=True : Normalisation des fréquences afin que l'aire sous l'histogramme soit égale à 1 (probabilité).
3. Personnalisation du graphique :
Des éléments supplémentaires sont ajoutés pour améliorer la lisibilité du graphique :
- plt.title('Histogramme de données aléatoires') : Le titre du graphique.
- plt.xlabel('Valeurs') : Le label de l'axe des X, ici 'Valeurs'.
- plt.ylabel('Fréquence') : Le label de l'axe des Y, ici 'Fréquence'.
4. Affichage du graphique :
La fonction plt.show() permet d'afficher le graphique à l'écran.