Dérive de données, détection et réponse

Lorsqu’un modèle IA est mis en production, il est confronté à des données réelles, souvent très différentes de celles utilisées lors de son entraînement. Ces différences peuvent entraîner une baisse des performances du modèle — on parle alors de dérive de données (data drift) ou de dérive de concept (concept drift). Il est essentiel de détecter et de réagir rapidement à ces dérives pour maintenir l’efficacité du système.

Types de dérives

Dérive de données (data drift)
Le profil statistique des variables d’entrée change au fil du temps.
Exemple : un modèle de détection de fraude bancaire qui voit apparaître de nouveaux comportements utilisateurs non observés à l’entraînement.
Dérive de concept (concept drift)
La relation entre les données d’entrée et la sortie cible évolue.
Exemple : un modèle de prédiction des achats qui ne détecte plus correctement les comportements d’achat à cause d’un changement de tendance saisonnière ou de politique marketing.

Comment détecter la dérive ?

Plusieurs méthodes existent pour surveiller les données entrantes et détecter les dérives :

Comparaison de distributions statistiques :
- Distance de Kolmogorov-Smirnov (KS), Earth Mover Distance (EMD), Jensen-Shannon divergence…
- Histogrammes, moyennes glissantes, écarts-types des features.
Suivi des performances du modèle :
- Une chute des scores (précision, F1, etc.) peut indiquer une dérive.
Modèle sentinelle (drift detector) :
- Algorithmes comme ADWIN, DDM (Drift Detection Method), ou EDDM qui détectent automatiquement les changements dans la distribution des données ou dans les performances.
Outils spécialisés :
- Evidently AI, River, Alibi Detect permettent une détection avancée de dérive.

Exemples de métriques surveillées

Type de dérive	Exemple de métrique utilisée
Dérive de données	Jensen-Shannon divergence
Dérive de concept	Précision / F1-score décroissante
Dérive catégorielle	Chi² sur les distributions de catégories
Dérive temporelle	Moyennes glissantes sur les fenêtres temporelles

Réponse à une dérive

Alerter les équipes IA / MLOps : déclenchement d’un message via un dashboard ou une alerte automatique (ex : Slack, email).
Collecte de nouvelles données : annoter manuellement ou automatiquement de nouveaux exemples représentatifs.
Réentraînement du modèle :
- Ajout des nouvelles données dans le dataset.
- Réentraînement total ou partiel (fine-tuning).
- Comparaison avec le modèle précédent avant mise en production.
Mise en place de modèles adaptatifs :
- Apprentissage en ligne (online learning).
- Systèmes capables de s’adapter progressivement aux changements.

⚠️ Risques si non gérée

Chute de la qualité des prédictions.
Répercussions sur les utilisateurs (ex : recommandations absurdes).
Biais involontaires ou discriminations émergentes.
Perte de confiance dans le système.

En résumé

La dérive de données est inévitable dans tout système IA en production. Une surveillance proactive, combinée à une stratégie de réponse automatisée ou semi-automatisée, permet de maintenir la robustesse, la pertinence et la qualité des modèles d’apprentissage automatique face à un monde en constante évolution.