Gestion des données déséquilibrées
Les données déséquilibrées sont courantes dans de nombreuses applications de machine learning, où certaines classes d’une variable cible sont largement sous-représentées par rapport à d’autres. Un tel déséquilibre peut nuire à la performance des modèles, car ces derniers peuvent devenir biaisés en faveur de la classe majoritaire. Cette section explore différentes méthodes pour traiter les problèmes d’imbalance des classes et améliorer les performances des modèles.
Ce que vous allez apprendre dans cette section :
-
Introduction à l’imbalance des classes
Découvrez le problème des données déséquilibrées et comment il peut affecter les performances des modèles, notamment en introduisant un biais vers la classe majoritaire. Vous apprendrez également pourquoi il est crucial d’aborder ce problème pour garantir une évaluation juste des modèles. -
Sous-échantillonnage (Undersampling) des classes majoritaires avec
RandomUnderSampler
deimblearn
Le sous-échantillonnage consiste à réduire le nombre d’exemples de la classe majoritaire pour équilibrer les données. Découvrez comment utiliser leRandomUnderSampler
de la bibliothèqueimblearn
pour sous-échantillonner de manière aléatoire et rendre votre dataset plus équilibré. -
Sur-échantillonnage (Oversampling) des classes minoritaires avec
RandomOverSampler
deimblearn
Le sur-échantillonnage augmente le nombre d’exemples de la classe minoritaire pour équilibrer le dataset. Découvrez comment appliquer cette méthode à l’aide duRandomOverSampler
deimblearn
pour dupliquer des échantillons de la classe minoritaire. -
Sur-échantillonnage avec SMOTE
Le SMOTE (Synthetic Minority Over-sampling Technique) génère de nouveaux exemples synthétiques pour la classe minoritaire en interpolant entre les exemples existants. Cette méthode permet d’éviter le sur-échantillonnage avec des copies exactes et rend les données plus diverses. -
Sous-échantillonnage avec NearMiss
NearMiss est une technique de sous-échantillonnage qui consiste à conserver les exemples de la classe majoritaire qui sont les plus proches des exemples de la classe minoritaire. Cela permet de réduire la taille du dataset tout en préservant l’information pertinente. -
Équilibrage des classes avec ADASYN
ADASYN (Adaptive Synthetic Sampling) est une méthode d’échantillonnage qui génère des exemples synthétiques en fonction de la densité des classes minoritaires. ADASYN donne plus de poids à la génération d’exemples là où la classe minoritaire est la plus rare. -
Analyse des effets des méthodes d’échantillonnage sur la performance du modèle
Découvrez comment les différentes techniques d’échantillonnage influent sur la performance des modèles. Vous apprendrez à évaluer l’impact de ces méthodes sur la précision, le rappel et d’autres métriques importantes. -
Équilibrage des classes en utilisant des poids pour les classes
Une autre approche consiste à appliquer des poids aux classes dans la fonction de perte du modèle, de sorte que la classe minoritaire ait plus d’importance lors de l’entraînement. Cette méthode est souvent utilisée dans des modèles comme les arbres de décision ou les réseaux neuronaux. -
Évaluation des modèles avec des données déséquilibrées
Apprenez à évaluer la performance d’un modèle sur des datasets déséquilibrés à l’aide de métriques comme la précision, le rappel, le score F1, et la matrice de confusion, qui sont plus adaptées dans ce contexte que la simple précision. -
Visualisation des classes avant et après échantillonnage
Visualiser la répartition des classes avant et après l’échantillonnage est essentiel pour comprendre l’impact des techniques de traitement des données déséquilibrées. Découvrez comment tracer des histogrammes ou des graphiques pour illustrer ces changements.
💡 L’échantillonnage des données déséquilibrées est une étape clé pour construire des modèles robustes qui prennent en compte la diversité des classes, offrant ainsi des prédictions plus précises et équitables.
Sous-sections du Chapitre
- Introduction à l’imbalance des classes
- Sous-échantillonnage (Undersampling) des classes majoritaires avec RandomUnderSampler de imblearn
- Sur-échantillonnage (Oversampling) des classes minoritaires avec RandomOverSampler de imblearn
- Sur-échantillonnage avec SMOTE
- Sous-échantillonnage avec NearMiss
- Équilibrage des classes avec ADASYN
- Analyse des effets des méthodes d’échantillonnage sur la performance du modèle
- Équilibrage des classes en utilisant des poids pour les classes
- Évaluation des modèles avec des données
- Visualisation des classes avant et après échantillonnage