Diagrammes de distribution
Comprendre la distribution d’une variable est une étape cruciale dans toute analyse de données. Les diagrammes de distribution permettent de visualiser comment les valeurs se répartissent, d’identifier les tendances centrales, la dispersion, les asymétries ou encore la présence de valeurs aberrantes.
En data science, ces visualisations servent de point de départ à l’exploration des données, et sont souvent utilisées pour vérifier des hypothèses statistiques, détecter des biais ou orienter le choix de modèles.
Cette section vous guidera dans l’utilisation de chacun de ces graphiques, en expliquant leurs cas d’usage, leurs avantages et leurs limites, ainsi que la manière de les personnaliser pour mieux répondre à vos besoins analytiques.
Hist Plot
La fonction sns.histplot() permet de tracer un histogramme de données univariées.
Box Plot
La fonction sns.boxplot() permet de tracer un diagramme en boîte (boxplot), qui est un graphique statistique montrant la distribution d’un ensemble de données.
Violin Plot
La fonction sns.violinplot() permet de tracer un diagramme en violon.
Dis Plot
La fonction sns.displot() permet de tracer une distribution univariée ou bivariée sous forme d’histogramme ou de kernel density estimate (KDE).
Kde Plot
La fonction sns.kdeplot() permet de tracer une estimation de la densité de probabilité d’une variable continue en utilisant une méthode de noyau.
Rug Plot
La fonction sns.rugplot() est utilisée pour ajouter un graphique de « rug » (tapis de rugissement) à un axe, qui est un graphique unidimensionnel représentant la distribution des données sous forme de petites lignes verticales (ou « rug » sur l’axe des x ou y).