Dérive de données, détection et réponse
Lorsqu’un modèle IA est mis en production, il est confronté à des données réelles, souvent très différentes de celles utilisées lors de son entraînement. Ces différences peuvent entraîner une baisse des performances du modèle — on parle alors de dérive de données (data drift) ou de dérive de concept (concept drift). Il est essentiel de détecter et de réagir rapidement à ces dérives pour maintenir l’efficacité du système.
Types de dérives
-
Dérive de données (data drift)
Le profil statistique des variables d’entrée change au fil du temps.
Exemple : un modèle de détection de fraude bancaire qui voit apparaître de nouveaux comportements utilisateurs non observés à l’entraînement. -
Dérive de concept (concept drift)
La relation entre les données d’entrée et la sortie cible évolue.
Exemple : un modèle de prédiction des achats qui ne détecte plus correctement les comportements d’achat à cause d’un changement de tendance saisonnière ou de politique marketing.
Comment détecter la dérive ?
Plusieurs méthodes existent pour surveiller les données entrantes et détecter les dérives :
-
Comparaison de distributions statistiques :
-
Distance de Kolmogorov-Smirnov (KS), Earth Mover Distance (EMD), Jensen-Shannon divergence…
-
Histogrammes, moyennes glissantes, écarts-types des features.
-
-
Suivi des performances du modèle :
-
Une chute des scores (précision, F1, etc.) peut indiquer une dérive.
-
-
Modèle sentinelle (drift detector) :
-
Algorithmes comme ADWIN, DDM (Drift Detection Method), ou EDDM qui détectent automatiquement les changements dans la distribution des données ou dans les performances.
-
-
Outils spécialisés :
-
Evidently AI, River, Alibi Detect permettent une détection avancée de dérive.
-
Exemples de métriques surveillées
Type de dérive | Exemple de métrique utilisée |
---|---|
Dérive de données | Jensen-Shannon divergence |
Dérive de concept | Précision / F1-score décroissante |
Dérive catégorielle | Chi² sur les distributions de catégories |
Dérive temporelle | Moyennes glissantes sur les fenêtres temporelles |
Réponse à une dérive
-
Alerter les équipes IA / MLOps : déclenchement d’un message via un dashboard ou une alerte automatique (ex : Slack, email).
-
Collecte de nouvelles données : annoter manuellement ou automatiquement de nouveaux exemples représentatifs.
-
Réentraînement du modèle :
-
Ajout des nouvelles données dans le dataset.
-
Réentraînement total ou partiel (fine-tuning).
-
Comparaison avec le modèle précédent avant mise en production.
-
-
Mise en place de modèles adaptatifs :
-
Apprentissage en ligne (online learning).
-
Systèmes capables de s’adapter progressivement aux changements.
-
⚠️ Risques si non gérée
-
Chute de la qualité des prédictions.
-
Répercussions sur les utilisateurs (ex : recommandations absurdes).
-
Biais involontaires ou discriminations émergentes.
-
Perte de confiance dans le système.
En résumé
La dérive de données est inévitable dans tout système IA en production. Une surveillance proactive, combinée à une stratégie de réponse automatisée ou semi-automatisée, permet de maintenir la robustesse, la pertinence et la qualité des modèles d’apprentissage automatique face à un monde en constante évolution.