Kurtosis

La kurtosis, ou coefficient d’aplatissement, est une mesure statistique qui décrit la forme de la distribution d’un jeu de données, plus précisément la concentration des valeurs autour de la moyenne et l’épaisseur des queues de distribution.

Une kurtosis élevée indique une distribution avec des queues épaisses et un pic plus pointu, ce qui signifie une forte concentration des données autour de la moyenne et une probabilité accrue de valeurs extrêmes (outliers). À l’inverse, une kurtosis faible signale une distribution plus plate avec des queues plus fines, indiquant une moindre concentration et moins d’extrêmes.

Mathématiquement, la kurtosis est souvent calculée comme le quatrième moment centré normalisé d’une variable aléatoire. La kurtosis d’une distribution normale est égale à 3. Parfois, on utilise la kurtosis excès, qui soustrait 3, pour comparer directement à la normale : une kurtosis excès positive indique une distribution leptokurtique (plus pointue), tandis qu’une négative indique une distribution platykurtique (plus plate).

Comprendre la kurtosis est important en data science, finance, et autres domaines où la probabilité de valeurs extrêmes impacte fortement les analyses et les modèles.

Dans cette page, vous apprendrez comment calculer la kurtosis, interpréter ses valeurs, et l’utiliser pour mieux caractériser vos données.

Fonctions :

  • kurtosis()

    La fonction kurtosis() de SciPy calcule la kurtose d'un ensemble de données. La kurtose mesure la tendance d'une distribution à avoir des queues plus épaisses ou plus fines par rapport à une distribution normale. Une kurtose positive indique une distribution avec des queues plus épaisses, tandis qu'une kurtose négative indique des queues plus fines. Une kurtose proche de 0 indique que la distribution est similaire à une distribution normale.

    Importation :

    from scipy.stats import kurtosis

    Attributs :

    Nom Type Description
    a array_like Les données d'entrée pour lesquelles la kurtose doit être calculée. Il peut s'agir d'un tableau NumPy ou d'une liste.
    axis int ou tuple of ints, optionnel Les axes le long desquels la kurtose est calculée. Par défaut, la kurtose est calculée pour l'ensemble des données (axis=None).
    fishers bool, optionnel Si True (par défaut), la kurtose est calculée en utilisant la définition de Fisher, qui fait que la kurtose de la distribution normale est 0. Si False, la définition d'Excel est utilisée, où la kurtose de la normale est 3.
    bias bool, optionnel Si True, la kurtose est calculée avec un biais (en divisant par n). Si False (par défaut), la kurtose est corrigée en divisant par (n - 1).

    Exemple de code :

    from scipy.stats import kurtosis
    import numpy as np
    
    # Données d'exemple
    data = np.random.normal(loc=0, scale=1, size=1000)
    
    # Calcul de la kurtose
    kurt = kurtosis(data)
    
    # Affichage de la kurtose
    print(f"Kurtose : {kurt}")
    Résultat du code

    Explication du code :

    La ligne from scipy.stats import kurtosis importe la fonction kurtosis depuis le module scipy.stats, utilisée pour mesurer l’aplatissement d’une distribution.

    import numpy as np importe la bibliothèque NumPy, renommée ici en np, qui permet de manipuler des tableaux de données et de générer des nombres aléatoires.

    Données d’exemple

    data = np.random.normal(loc=0, scale=1, size=1000) génère un tableau de 1000 valeurs aléatoires suivant une distribution normale centrée en 0 avec un écart-type de 1.

    Calcul de la kurtose

    kurt = kurtosis(data) calcule la kurtose (ou coefficient d’aplatissement) des données contenues dans data.

    Une kurtose positive indique une distribution plus pointue que la normale, tandis qu'une kurtose négative indique une distribution plus aplatie.

    Affichage de la kurtose

    print(f"Kurtose : {kurt}") affiche la valeur de la kurtose calculée pour les données.