Mesures de forme de distribution
Les mesures de forme de distribution permettent de décrire la manière dont les données sont réparties autour de leur moyenne. Elles sont essentielles pour analyser la symétrie, la concentration des données et les phénomènes extrêmes dans une distribution. Ces mesures incluent l’asymétrie (skewness), la kurtosis et les tableaux de fréquence, qui aident à comprendre la structure sous-jacente des données.
1. Kurtosis
La kurtosis mesure la « hauteur » des queues d’une distribution, indiquant la présence ou l’absence de valeurs extrêmes ou de outliers. Elle permet de savoir si les données ont une forte concentration autour de la moyenne ou si elles contiennent des valeurs atypiques.
-
Formule :
Où :
-
est chaque valeur des données,
-
est la moyenne des données,
-
est l’écart-type,
-
est le nombre total d’observations.
-
Interprétation :
-
Kurtosis de 0 (ou excess kurtosis de 0) : Distribution normale (mesokurtique).
-
Kurtosis positive (leptokurtique) : Distribution avec des queues plus lourdes et plus de valeurs extrêmes.
-
Kurtosis négative (platykurtique) : Distribution avec des queues légères et moins de valeurs extrêmes.
Exemple : Les rendements financiers souvent présentent une kurtosis élevée (leptokurtique), car des événements extrêmes, comme les crises économiques, sont plus fréquents que dans une distribution normale.
2. Tableau de fréquence
Le tableau de fréquence est un outil utilisé pour représenter la distribution des données en montrant combien de fois chaque valeur ou intervalle de valeurs apparaît. C’est un moyen de résumer les données et d’observer rapidement la fréquence d’occurrence des différentes valeurs.
-
Construction d’un tableau de fréquence :
-
Diviser les données en classes ou intervalles.
-
Compter le nombre d’observations dans chaque classe.
-
Calculer les fréquences (proportions) de chaque classe.
-
Le tableau peut contenir les colonnes suivantes :
-
Valeurs/classes : Les différentes valeurs ou intervalles de valeurs.
-
Fréquences absolues : Le nombre d’occurrences de chaque valeur.
-
Fréquences relatives : Le pourcentage d’observations dans chaque classe.
Exemple : Supposons un jeu de données représentant les âges de 100 personnes dans une population. Un tableau de fréquence pourrait montrer combien de personnes appartiennent à différentes tranches d’âge (par exemple, 20-29, 30-39, etc.).
3. Asymétrie (Skewness)
L’asymétrie (ou skewness) mesure l’asymétrie de la distribution des données, c’est-à-dire à quel point la distribution est décalée à gauche ou à droite par rapport à la moyenne.
-
Formule :
Où :
-
est chaque valeur des données,
-
est la moyenne des données,
-
est l’écart-type,
-
est le nombre total d’observations.
-
Interprétation :
-
Skewness de 0 : Distribution symétrique (comme la normale).
-
Skewness positive : La distribution est asymétrique à droite, avec une queue étendue vers la droite.
-
Skewness négative : La distribution est asymétrique à gauche, avec une queue étendue vers la gauche.
Exemple :
-
Les revenus dans de nombreuses populations présentent souvent une skewness positive, car une petite proportion d’individus ont des revenus très élevés par rapport à la majorité.
Conclusion
Les mesures de forme de distribution comme la kurtosis et la skewness, ainsi que l’utilisation des tableaux de fréquence, sont des outils puissants pour examiner la structure et la symétrie des données. Ces mesures aident à identifier les anomalies, la présence d’outliers et à décider des traitements statistiques appropriés. Une bonne compréhension de la forme des données permet de choisir les bonnes techniques de modélisation et d’interprétation.