Dérive de données, détection et réponse

Lorsqu’un modèle IA est mis en production, il est confronté à des données réelles, souvent très différentes de celles utilisées lors de son entraînement. Ces différences peuvent entraîner une baisse des performances du modèle — on parle alors de dérive de données (data drift) ou de dérive de concept (concept drift). Il est essentiel de détecter et de réagir rapidement à ces dérives pour maintenir l’efficacité du système.


Types de dérives

  1. Dérive de données (data drift)
    Le profil statistique des variables d’entrée change au fil du temps.
    Exemple : un modèle de détection de fraude bancaire qui voit apparaître de nouveaux comportements utilisateurs non observés à l’entraînement.

  2. Dérive de concept (concept drift)
    La relation entre les données d’entrée et la sortie cible évolue.
    Exemple : un modèle de prédiction des achats qui ne détecte plus correctement les comportements d’achat à cause d’un changement de tendance saisonnière ou de politique marketing.


Comment détecter la dérive ?

Plusieurs méthodes existent pour surveiller les données entrantes et détecter les dérives :

  • Comparaison de distributions statistiques :

    • Distance de Kolmogorov-Smirnov (KS), Earth Mover Distance (EMD), Jensen-Shannon divergence…

    • Histogrammes, moyennes glissantes, écarts-types des features.

  • Suivi des performances du modèle :

    • Une chute des scores (précision, F1, etc.) peut indiquer une dérive.

  • Modèle sentinelle (drift detector) :

    • Algorithmes comme ADWIN, DDM (Drift Detection Method), ou EDDM qui détectent automatiquement les changements dans la distribution des données ou dans les performances.

  • Outils spécialisés :


Exemples de métriques surveillées

Type de dérive Exemple de métrique utilisée
Dérive de données Jensen-Shannon divergence
Dérive de concept Précision / F1-score décroissante
Dérive catégorielle Chi² sur les distributions de catégories
Dérive temporelle Moyennes glissantes sur les fenêtres temporelles

Réponse à une dérive

  1. Alerter les équipes IA / MLOps : déclenchement d’un message via un dashboard ou une alerte automatique (ex : Slack, email).

  2. Collecte de nouvelles données : annoter manuellement ou automatiquement de nouveaux exemples représentatifs.

  3. Réentraînement du modèle :

    • Ajout des nouvelles données dans le dataset.

    • Réentraînement total ou partiel (fine-tuning).

    • Comparaison avec le modèle précédent avant mise en production.

  4. Mise en place de modèles adaptatifs :

    • Apprentissage en ligne (online learning).

    • Systèmes capables de s’adapter progressivement aux changements.


⚠️ Risques si non gérée

  • Chute de la qualité des prédictions.

  • Répercussions sur les utilisateurs (ex : recommandations absurdes).

  • Biais involontaires ou discriminations émergentes.

  • Perte de confiance dans le système.


En résumé

La dérive de données est inévitable dans tout système IA en production. Une surveillance proactive, combinée à une stratégie de réponse automatisée ou semi-automatisée, permet de maintenir la robustesse, la pertinence et la qualité des modèles d’apprentissage automatique face à un monde en constante évolution.