Loading [MathJax]/jax/output/HTML-CSS/config.js

Dérive de données, détection et réponse

Lorsqu’un modèle IA est mis en production, il est confronté à des données réelles, souvent très différentes de celles utilisées lors de son entraînement. Ces différences peuvent entraîner une baisse des performances du modèle — on parle alors de dérive de données (data drift) ou de dérive de concept (concept drift). Il est essentiel de détecter et de réagir rapidement à ces dérives pour maintenir l’efficacité du système.


Types de dérives

  1. Dérive de données (data drift)
    Le profil statistique des variables d’entrée change au fil du temps.
    Exemple : un modèle de détection de fraude bancaire qui voit apparaître de nouveaux comportements utilisateurs non observés à l’entraînement.

  2. Dérive de concept (concept drift)
    La relation entre les données d’entrée et la sortie cible évolue.
    Exemple : un modèle de prédiction des achats qui ne détecte plus correctement les comportements d’achat à cause d’un changement de tendance saisonnière ou de politique marketing.


Comment détecter la dérive ?

Plusieurs méthodes existent pour surveiller les données entrantes et détecter les dérives :


Exemples de métriques surveillées

Type de dérive Exemple de métrique utilisée
Dérive de données Jensen-Shannon divergence
Dérive de concept Précision / F1-score décroissante
Dérive catégorielle Chi² sur les distributions de catégories
Dérive temporelle Moyennes glissantes sur les fenêtres temporelles

Réponse à une dérive

  1. Alerter les équipes IA / MLOps : déclenchement d’un message via un dashboard ou une alerte automatique (ex : Slack, email).

  2. Collecte de nouvelles données : annoter manuellement ou automatiquement de nouveaux exemples représentatifs.

  3. Réentraînement du modèle :

    • Ajout des nouvelles données dans le dataset.

    • Réentraînement total ou partiel (fine-tuning).

    • Comparaison avec le modèle précédent avant mise en production.

  4. Mise en place de modèles adaptatifs :

    • Apprentissage en ligne (online learning).

    • Systèmes capables de s’adapter progressivement aux changements.


⚠️ Risques si non gérée


En résumé

La dérive de données est inévitable dans tout système IA en production. Une surveillance proactive, combinée à une stratégie de réponse automatisée ou semi-automatisée, permet de maintenir la robustesse, la pertinence et la qualité des modèles d’apprentissage automatique face à un monde en constante évolution.