Encodage des variables catégorielles
L’encodage des variables catégorielles est essentielle dans la préparation des données, notamment pour les modèles de machine learning qui ne peuvent pas traiter directement des variables de type chaîne de caractères. Cette section explore les différentes méthodes d’encodage pour convertir les variables catégorielles en formats numériques tout en conservant l’information cruciale.
Vous découvrirez comment utiliser différentes techniques d’encodage selon le type de données et les besoins spécifiques de votre modèle.
Ce que vous allez apprendre dans cette section :
-
Encodage avec
LabelEncoder
Apprenez à utiliserLabelEncoder
pour convertir des catégories en valeurs numériques. Cette méthode est idéale pour les variables ordinales ou lorsque l’ordre des catégories n’a pas d’importance. -
Encodage avec
map()
pour un mapping manuel
Découvrez comment utilisermap()
pour créer un encodage personnalisé en mappant manuellement chaque catégorie à une valeur numérique. Cela vous permet un contrôle total sur le processus d’encodage. -
Encodage avec
pd.Categorical().codes
Apprenez à utiliserpd.Categorical().codes
pour convertir directement les catégories en codes numériques. Cette méthode est rapide et pratique pour des variables avec un grand nombre de catégories. -
Encodage One-Hot avec
pd.get_dummies()
Découvrez comment utiliserpd.get_dummies()
pour effectuer un encodage One-Hot. Cette méthode crée une colonne binaire pour chaque catégorie, ce qui permet de représenter chaque catégorie par une colonne distincte. -
Encodage One-Hot avec
OneHotEncoder
Apprenez à utiliserOneHotEncoder
de Scikit-learn pour effectuer un encodage One-Hot. Cette méthode offre plus de flexibilité, notamment pour travailler avec des variables catégorielles complexes ou des ensembles de données volumineux. -
Encodage des variables ordinales avec
OrdinalEncoder
Découvrez comment utiliserOrdinalEncoder
pour encoder des variables ordinales, où l’ordre des catégories est important. Cette méthode attribue des entiers aux catégories en respectant leur ordre.
💡 Un bon encodage, c’est transformer les données catégorielles en informations exploitables pour vos modèles.