Calculer l'IQR (Q3 - Q1)
Qu’est-ce que l’IQR ?
L’IQR, ou Interquartile Range (intervalle interquartile en français), est une mesure statistique qui permet d’évaluer la dispersion des données. Contrairement à l’écart-type, l’IQR n’est pas influencé par les valeurs extrêmes, ce qui le rend particulièrement utile dans l’analyse de données contenant des anomalies ou des outliers.
L’IQR se calcule en soustrayant le premier quartile (Q1) du troisième quartile (Q3) :
IQR = Q3 - Q1
Cela signifie que l’IQR représente l’intervalle dans lequel se situent les 50 % des données centrales, entre les 25 % les plus faibles (Q1) et les 25 % les plus élevées (Q3).
Pourquoi utiliser l’IQR ?
L’IQR est une mesure robuste, car elle ignore les extrêmes. Elle est souvent utilisée pour :
- Comprendre la dispersion des données sans être influencé par les valeurs aberrantes.
- Identifier les valeurs atypiques dans un jeu de données.
- Nettoyer les données avant de les introduire dans un modèle prédictif.
- Comparer la variabilité de différents ensembles de données.
Comment calculer l’IQR à la main ?
Voici les étapes à suivre pour calculer l’IQR manuellement, à partir d’un ensemble de données numériques :
Exemple :
D = [7, 9, 10, 12, 13, 14, 15, 16, 18, 20, 21]
- Trier les données dans l’ordre croissant (si ce n’est pas déjà fait).
- Identifier la médiane (Q2) : dans ce cas, la médiane est 14 (6e valeur d’une série de 11 éléments).
- Calculer le premier quartile (Q1) : médiane de la moitié inférieure = [7, 9, 10, 12, 13] → Q1 = 10.
- Calculer le troisième quartile (Q3) : médiane de la moitié supérieure = [15, 16, 18, 20, 21] → Q3 = 18.
- Calcul de l’IQR :
IQR = Q3 - Q1 = 18 - 10 = 8
Calculer l’IQR avec Python
Avec NumPy :
import numpy as np
data = [7, 9, 10, 12, 13, 14, 15, 16, 18, 20, 21]
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
print(f"IQR = {iqr}")
Avec Pandas :
import pandas as pd
df = pd.Series([7, 9, 10, 12, 13, 14, 15, 16, 18, 20, 21])
iqr = df.quantile(0.75) - df.quantile(0.25)
print(f"IQR = {iqr}")
Détection des valeurs aberrantes avec l’IQR
Une utilisation courante de l’IQR est la détection des outliers (valeurs aberrantes). La règle standard est la suivante :
Valeur aberrante si :
x < Q1 - 1.5 × IQR ou x > Q3 + 1.5 × IQR
Cela permet d’identifier les données qui s’éloignent significativement de la majorité. Ce processus est essentiel dans le cadre de la préparation des données (data preprocessing), notamment avant l’entraînement de modèles de machine learning.
Conclusion
L’IQR est un outil fondamental en data science pour résumer la dispersion centrale d’un jeu de données. Il est simple à calculer, robuste face aux valeurs extrêmes, et très utile pour détecter les anomalies. Maîtriser l’IQR permet d’améliorer significativement la qualité des analyses statistiques et la performance des modèles prédictifs.