Détection des valeurs aberrantes avec le Z-score
Le Z-score mesure combien d’écarts-types une valeur est éloignée de la moyenne d’un ensemble de données. Il permet de repérer les valeurs aberrantes en évaluant leur distance par rapport à la moyenne.
Un Z-score élevé indique que la donnée est éloignée de la moyenne, et donc potentiellement une valeur aberrante.
La formule du Z-score est la suivante : 𝑍 = ( 𝑋 − 𝜇 ) 𝜎
Où : 𝑋 est la valeur à évaluer, 𝜇 μ est la moyenne des données, 𝜎 est l’écart-type des données.
En général, un Z-score absolu supérieur à 3 (ou inférieur à -3) est considéré comme indiquant une valeur aberrante. Cette méthode est particulièrement efficace lorsque les données suivent une distribution normale, bien qu’elle puisse être moins précise pour des distributions non normales.
Les valeurs aberrantes identifiées peuvent ensuite être ajustées ou supprimées selon les besoins de l’analyse.
Calculer le Z-score
Le Z-score d’une valeur est calculé comme suit : Z = (X – μ) / σ
où X est la valeur, μ la moyenne des données et σ l’écart-type. Cela permet de standardiser les données pour repérer les points extrêmes.
Détecter les valeurs aberrantes au-delà d’un seuil
Les valeurs aberrantes sont les points dont le Z-score absolu est supérieur au seuil choisi (souvent 3). Ces points sont anormalement éloignés de la moyenne.
Supprimer ou traiter les valeurs aberrantes détectées
Après détection, les valeurs aberrantes peuvent être supprimées ou corrigées afin d’améliorer la qualité de l’analyse sans être biaisée par ces extrêmes.