Standardisation et normalisation
La standardisation et la normalisation sont des techniques de mise à l’échelle des données utilisées pour garantir que les variables sont sur des échelles comparables. Ces méthodes sont cruciales lorsque vous travaillez avec des modèles de machine learning sensibles à l’échelle des données. Cette section vous présente les principales techniques pour appliquer ces transformations et leur impact sur vos modèles.
Vous découvrirez comment normaliser et standardiser vos données afin de rendre vos modèles plus efficaces et plus performants.
Ce que vous allez apprendre dans cette section :
Différence entre standardisation et normalisation
Comprenez la distinction : la normalisation met les données dans une plage fixe, la standardisation les centre autour de la moyenne avec un écart-type de 1.
Normalisation des données avec MinMaxScaler
Utilisez MinMaxScaler
pour ramener les données dans une plage définie, généralement entre 0 et 1, utile pour une échelle uniforme.
Standardisation des données avec StandardScaler
Appliquez StandardScaler
pour centrer les données autour de 0 et les normaliser avec un écart-type de 1, idéal pour les modèles sensibles aux distributions.
Appliquer une transformation uniquement sur certaines colonnes
Ciblez précisément les colonnes à transformer sans affecter les autres, utile pour les jeux de données hétérogènes.
Inverser la transformation pour retrouver les valeurs originales
Restaurez les données originales après transformation grâce aux méthodes inverse_transform
de Scikit-learn.
Standardisation et normalisation avec Pipeline
Enchaînez vos étapes de prétraitement, dont la mise à l’échelle, grâce à Pipeline
pour un processus plus structuré et reproductible.
Utilisation de RobustScaler pour les données avec outliers
Utilisez RobustScaler
pour réduire l’impact des valeurs extrêmes lors de la standardisation des données.
💡 Standardiser et normaliser, c’est assurer que vos modèles comprennent vos données de manière équitable.