Standardisation et normalisation
La standardisation et la normalisation sont des techniques de mise à l’échelle des données utilisées pour garantir que les variables sont sur des échelles comparables. Ces méthodes sont cruciales lorsque vous travaillez avec des modèles de machine learning sensibles à l’échelle des données. Cette section vous présente les principales techniques pour appliquer ces transformations et leur impact sur vos modèles.
Vous découvrirez comment normaliser et standardiser vos données afin de rendre vos modèles plus efficaces et plus performants.
Ce que vous allez apprendre dans cette section :
-
Différence entre standardisation et normalisation
Apprenez à différencier la standardisation et la normalisation. La normalisation consiste à resserrer les valeurs dans une plage définie (généralement entre 0 et 1), tandis que la standardisation ajuste les données en les centrant autour de la moyenne avec un écart-type égal à 1. -
Normalisation des données avec
MinMaxScaler
Découvrez comment utiliserMinMaxScaler
pour normaliser vos données et les ramener dans une plage spécifique, typiquement entre 0 et 1. Cette méthode est idéale lorsque vous avez besoin d’une échelle uniforme pour toutes les variables. -
Standardisation des données avec
StandardScaler
Apprenez à utiliserStandardScaler
pour standardiser vos données en leur attribuant une moyenne de 0 et un écart-type de 1. Ce processus est souvent préférable pour les modèles qui supposent que les données suivent une distribution normale. -
Appliquer une transformation uniquement sur certaines colonnes
Découvrez comment appliquer des transformations de mise à l’échelle à des colonnes spécifiques de votre DataFrame, tout en laissant les autres colonnes inchangées. Cela est utile lorsque vous avez différentes types de données nécessitant des traitements distincts. -
Inverser la transformation pour retrouver les valeurs originales
Apprenez à inverser la normalisation ou la standardisation afin de retrouver les valeurs d’origine. Cela est particulièrement utile lorsque vous souhaitez interpréter ou présenter les résultats sur l’échelle d’origine. -
Standardisation et normalisation avec
Pipeline
Découvrez comment utiliserPipeline
de Scikit-learn pour enchaîner plusieurs étapes de traitement des données, y compris la standardisation ou la normalisation, afin de rendre le processus de prétraitement plus propre et plus cohérent. -
Utilisation de
RobustScaler
pour les données avec outliers
Apprenez à utiliserRobustScaler
pour standardiser les données tout en réduisant l’impact des valeurs aberrantes. Cette méthode est plus robuste queStandardScaler
lorsqu’il existe des valeurs extrêmes dans votre dataset.
💡 Standardiser et normaliser, c’est assurer que vos modèles comprennent vos données de manière équitable.
Sous-sections du Chapitre
- Différence entre standardisation et normalisation
- Normalisation des données avec MinMaxScaler
- Standardisation des données avec StandardScaler
- Appliquer une transformation uniquement sur certaines colonnes
- Inverser la transformation pour retrouver les valeurs originales
- Standardisation et normalisation avec Pipeline
- Utilisation de RobustScaler pour les données avec outliers