Détection d’anomalies
La détection d’anomalies vise à repérer des données qui diffèrent significativement de la majorité des observations. Ces anomalies peuvent indiquer des erreurs, des comportements inhabituels ou des événements critiques, notamment dans :
-
la détection de fraude bancaire,
-
la surveillance réseau,
-
la qualité industrielle,
-
ou encore la maintenance prédictive.
Elle peut être abordée :
-
de manière supervisée, si l’on dispose d’exemples d’anomalies connues ;
-
semi-supervisée, si l’on connaît uniquement les données normales ;
-
non supervisée, lorsque rien n’est étiqueté, le modèle doit apprendre seul les patterns “normaux” pour en déduire les exceptions.
Méthodes courantes non supervisées :
-
Méthodes basées sur la distance :
-
Exemple : KNN → les points éloignés de leurs plus proches voisins sont suspects.
-
-
Méthodes basées sur la densité :
-
Exemple : DBSCAN → les points situés dans des zones de faible densité peuvent être considérés comme anomalies.
-
-
Méthodes probabilistes :
-
Exemple : Gaussian Mixture Model (GMM) → un point très improbable selon la distribution modélisée est potentiellement une anomalie.
-
-
Méthodes d’isolation :
-
Exemple : Isolation Forest → isole les points atypiques plus rapidement qu’un point « normal ».
-
Évaluation des performances :
-
Les mêmes métriques que pour les modèles de classification sont souvent utilisées :
-
Précision, rappel, F1-score
-
AUC – ROC (particulièrement utile quand les classes sont déséquilibrées)
-