Validation croisée (K-fold, stratifiée)

La validation croisée est une technique essentielle pour évaluer la robustesse d’un modèle d’apprentissage supervisé, en limitant les biais liés à un unique découpage des données. Elle permet de tester un modèle sur plusieurs sous-ensembles du jeu de données pour mieux estimer sa capacité à généraliser.

Types principaux de validation croisée :

K-fold cross-validation

La fonction KFold() de la bibliothèque sklearn.model_selection permet de diviser un jeu de données en plusieurs sous-ensembles (ou « folds ») pour effectuer une validation croisée.

Stratified K-fold

La fonction StratifiedKFold() de la bibliothèque sklearn.model_selection est une variante de la fonction KFold() qui effectue la division des données en sous-ensembles (ou « folds ») tout en maintenant la proportion des classes dans chaque fold.

Leave-One-Out (LOO)

La fonction LeaveOneOut() (LOO) de sklearn.model_selection est une méthode de validation croisée où chaque observation du jeu de données sert tour à tour de jeu de test, tandis que toutes les autres observations servent de jeu d’entraînement.

ShuffleSplit ou GroupKFold

La fonction ShuffleSplit() de sklearn.model_selection génère des splits aléatoires de votre jeu de données en un ensemble d’entraînement et un ensemble de test. À chaque itération, une portion du jeu de données est utilisée pour l’entraînement et une autre portion est utilisée pour le test.