Détection d’anomalies

La détection d’anomalies vise à repérer des données qui diffèrent significativement de la majorité des observations. Ces anomalies peuvent indiquer des erreurs, des comportements inhabituels ou des événements critiques, notamment dans :

  • la détection de fraude bancaire,

  • la surveillance réseau,

  • la qualité industrielle,

  • ou encore la maintenance prédictive.

Elle peut être abordée :

  • de manière supervisée, si l’on dispose d’exemples d’anomalies connues ;

  • semi-supervisée, si l’on connaît uniquement les données normales ;

  • non supervisée, lorsque rien n’est étiqueté, le modèle doit apprendre seul les patterns “normaux” pour en déduire les exceptions.

Méthodes courantes non supervisées :

  • Méthodes basées sur la distance :

    • Exemple : KNN → les points éloignés de leurs plus proches voisins sont suspects.

  • Méthodes basées sur la densité :

    • Exemple : DBSCAN → les points situés dans des zones de faible densité peuvent être considérés comme anomalies.

  • Méthodes probabilistes :

    • Exemple : Gaussian Mixture Model (GMM) → un point très improbable selon la distribution modélisée est potentiellement une anomalie.

  • Méthodes d’isolation :

    • Exemple : Isolation Forest → isole les points atypiques plus rapidement qu’un point « normal ».

Évaluation des performances :

  • Les mêmes métriques que pour les modèles de classification sont souvent utilisées :

    • Précision, rappel, F1-score

    • AUC – ROC (particulièrement utile quand les classes sont déséquilibrées)