Validation croisée (K-fold, stratifiée)
La validation croisée est une technique essentielle pour évaluer la robustesse d’un modèle d’apprentissage supervisé, en limitant les biais liés à un unique découpage des données. Elle permet de tester un modèle sur plusieurs sous-ensembles du jeu de données pour mieux estimer sa capacité à généraliser.
Types principaux de validation croisée :
K-fold cross-validation
La fonction KFold() de la bibliothèque sklearn.model_selection permet de diviser un jeu de données en plusieurs sous-ensembles (ou « folds ») pour effectuer une validation croisée.
Stratified K-fold
La fonction StratifiedKFold() de la bibliothèque sklearn.model_selection est une variante de la fonction KFold() qui effectue la division des données en sous-ensembles (ou « folds ») tout en maintenant la proportion des classes dans chaque fold.
Leave-One-Out (LOO)
La fonction LeaveOneOut() (LOO) de sklearn.model_selection est une méthode de validation croisée où chaque observation du jeu de données sert tour à tour de jeu de test, tandis que toutes les autres observations servent de jeu d’entraînement.
ShuffleSplit ou GroupKFold
La fonction ShuffleSplit() de sklearn.model_selection génère des splits aléatoires de votre jeu de données en un ensemble d’entraînement et un ensemble de test. À chaque itération, une portion du jeu de données est utilisée pour l’entraînement et une autre portion est utilisée pour le test.