Détection des valeurs aberrantes avec l'IQR
L’IQR (Interquartile Range) est une méthode statistique couramment utilisée pour détecter les valeurs aberrantes dans un ensemble de données. Il s’agit de la plage située entre le premier quartile (Q1) et le troisième quartile (Q3), soit la différence entre le 75e percentile (Q3) et le 25e percentile (Q1). Les valeurs aberrantes sont généralement définies comme celles qui se situent en dehors de l’intervalle : Intervalle = [ 𝑄 1 − 1.5 × 𝐼 𝑄 𝑅 , 𝑄 3 + 1.5 × 𝐼 𝑄 𝑅 ] Intervalle=[Q1−1.5×IQR,Q3+1.5×IQR] Où l’IQR est la différence entre Q3 et Q1. Les valeurs en dehors de cette plage sont considérées comme des aberrations. Cette méthode est particulièrement utile pour détecter des anomalies sans faire d’hypothèses sur la distribution des données. Les valeurs aberrantes peuvent ensuite être traitées en les supprimant, les remplaçant ou les ajustant selon le contexte de l’analyse.
Calculer l’IQR (Q3 – Q1)
L’IQR (Interquartile Range) mesure la dispersion centrale d’une série de données. Il se calcule en soustrayant le premier quartile (Q1) du troisième quartile (Q3), ce qui permet de repérer les valeurs extrêmes ou atypiques.
Détecter les valeurs aberrantes au-delà de 1.5*IQR
Les valeurs aberrantes sont les points situés en dehors de l’intervalle défini par [Q1 – 1.5×IQR, Q3 + 1.5×IQR]. Cette méthode permet d’identifier les observations anormalement faibles ou élevées dans un jeu de données.
Supprimer ou traiter les valeurs aberrantes détectées
Une fois les valeurs aberrantes identifiées, on peut les supprimer pour éviter qu’elles biaisent l’analyse, ou les traiter (remplacement, transformation) afin de préserver l’intégrité des données tout en réduisant leur impact.