Validation croisée (K-fold, stratifiée)
La validation croisée est une technique essentielle pour évaluer la robustesse d’un modèle d’apprentissage supervisé, en limitant les biais liés à un unique découpage des données. Elle permet de tester un modèle sur plusieurs sous-ensembles du jeu de données pour mieux estimer sa capacité à généraliser.
Types principaux de validation croisée :
-
K-fold cross-validation
Le jeu de données est divisé en K sous-ensembles égaux. À chaque itération, un pli est utilisé pour la validation, les autres pour l’entraînement. Le processus est répété K fois, et les résultats sont moyennés. -
Stratified K-fold
Variante de K-fold où chaque pli préserve la proportion des classes (utile en classification déséquilibrée). -
Leave-One-Out (LOO)
Cas extrême de K-fold où K = n (le nombre total d’échantillons). Très coûteux mais utilisé quand peu de données. -
ShuffleSplit ou GroupKFold
Autres variantes, selon les contraintes spécifiques (groupes, dépendance temporelle, etc.).