Diagrammes de distribution

Comprendre la distribution d’une variable est une étape cruciale dans toute analyse de données. Les diagrammes de distribution permettent de visualiser comment les valeurs se répartissent, d’identifier les tendances centrales, la dispersion, les asymétries ou encore la présence de valeurs aberrantes.

En data science, ces visualisations servent de point de départ à l’exploration des données, et sont souvent utilisées pour vérifier des hypothèses statistiques, détecter des biais ou orienter le choix de modèles.

Cette section vous guidera dans l’utilisation de chacun de ces graphiques, en expliquant leurs cas d’usage, leurs avantages et leurs limites, ainsi que la manière de les personnaliser pour mieux répondre à vos besoins analytiques.

Hist Plot

La fonction sns.histplot() permet de tracer un histogramme de données univariées.

Box Plot

La fonction sns.boxplot() permet de tracer un diagramme en boîte (boxplot), qui est un graphique statistique montrant la distribution d’un ensemble de données.

Violin Plot

La fonction sns.violinplot() permet de tracer un diagramme en violon.

Dis Plot

La fonction sns.displot() permet de tracer une distribution univariée ou bivariée sous forme d’histogramme ou de kernel density estimate (KDE).

Kde Plot

La fonction sns.kdeplot() permet de tracer une estimation de la densité de probabilité d’une variable continue en utilisant une méthode de noyau.

Rug Plot

La fonction sns.rugplot() est utilisée pour ajouter un graphique de « rug » (tapis de rugissement) à un axe, qui est un graphique unidimensionnel représentant la distribution des données sous forme de petites lignes verticales (ou « rug » sur l’axe des x ou y).