Détection d’anomalies

La détection d’anomalies vise à repérer des données qui diffèrent significativement de la majorité des observations. Ces anomalies peuvent indiquer des erreurs, des comportements inhabituels ou des événements critiques, notamment dans :

la détection de fraude bancaire,
la surveillance réseau,
la qualité industrielle,
ou encore la maintenance prédictive.

Elle peut être abordée :

de manière supervisée, si l’on dispose d’exemples d’anomalies connues ;
semi-supervisée, si l’on connaît uniquement les données normales ;
non supervisée, lorsque rien n’est étiqueté, le modèle doit apprendre seul les patterns “normaux” pour en déduire les exceptions.

Méthodes courantes non supervisées :

Méthodes basées sur la distance :
- Exemple : KNN → les points éloignés de leurs plus proches voisins sont suspects.
Méthodes basées sur la densité :
- Exemple : DBSCAN → les points situés dans des zones de faible densité peuvent être considérés comme anomalies.
Méthodes probabilistes :
- Exemple : Gaussian Mixture Model (GMM) → un point très improbable selon la distribution modélisée est potentiellement une anomalie.
Méthodes d’isolation :
- Exemple : Isolation Forest → isole les points atypiques plus rapidement qu’un point « normal ».

Évaluation des performances :

Les mêmes métriques que pour les modèles de classification sont souvent utilisées :
- Précision, rappel, F1-score
- AUC – ROC (particulièrement utile quand les classes sont déséquilibrées)