Feature Engineering
Le Feature Engineering est une étape cruciale dans la préparation des données, où l’on transforme et crée de nouvelles variables afin de rendre les modèles de machine learning plus performants. Cette section vous guide à travers différentes techniques pour extraire, transformer et créer des caractéristiques utiles à partir de vos données brutes.
Vous découvrirez comment générer de nouvelles variables à partir de vos données existantes, ainsi que des techniques avancées pour enrichir votre dataset.
Ce que vous allez apprendre dans cette section :
-
Gestion des valeurs inconnues avec
handle_unknown
dansOneHotEncoder
Apprenez à gérer les valeurs inconnues lors de l’encodage One-Hot avec l’optionhandle_unknown
dansOneHotEncoder
. Cette méthode permet de spécifier comment traiter les catégories qui n’étaient pas présentes dans le jeu de données d’entraînement. -
Extraction de l’année, du mois, du jour à partir d’une date
Découvrez comment extraire des informations temporelles pertinentes à partir de dates (comme l’année, le mois, et le jour) pour créer de nouvelles variables, souvent très utiles dans les modèles prédictifs. -
Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)
Apprenez à transformer des données textuelles en caractéristiques numériques. Par exemple, vous pouvez extraire la longueur d’un texte ou la présence de mots-clés spécifiques pour enrichir vos données et améliorer les performances du modèle. -
Création de variables binaires basées sur une condition
Découvrez comment créer des variables binaires (0 ou 1) en fonction de certaines conditions sur vos données. Cela permet de convertir des informations qualitatives en informations quantitatives. -
Utilisation de
PolynomialFeatures
pour générer des interactions
Apprenez à utiliserPolynomialFeatures
pour générer de nouvelles caractéristiques en créant des interactions entre les variables existantes. Cela peut aider à capturer des relations non linéaires entre les variables. -
Discrétisation des valeurs continues (
pd.cut
,pd.qcut
)
Découvrez comment discrétiser des variables continues en les transformant en catégories à l’aide depd.cut
oupd.qcut
. Cela peut être utile lorsque vous souhaitez regrouper les valeurs en classes pour simplifier l’analyse. -
Encodage des variables temporelles (sinus et cosinus pour les cycles)
Apprenez à encoder des variables temporelles cycliques (comme l’heure, le mois, ou le jour de la semaine) en utilisant des transformations trigonométriques (sinus et cosinus). Cela permet de capturer la nature cyclique de ces variables tout en évitant des distorsions dans les modèles. -
Feature Selection (sélection des variables pertinentes)
Découvrez les méthodes de sélection des variables pertinentes (comme la sélection par filtre, la méthode Recursive Feature Elimination, ou les modèles d’arbre) afin de réduire la dimensionnalité de vos données tout en conservant les informations les plus importantes.
💡 Le Feature Engineering, c’est transformer vos données brutes en informations clés qui boostent les performances de vos modèles.
Sous-sections du Chapitre
- Gestion des valeurs inconnues avec handle_unknown dans OneHotEncoder
- Extraction de l’année, du mois, du jour à partir d’une date
- Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)
- Création de variables binaires basées sur une condition
- Utilisation de PolynomialFeatures pour générer des interactions
- Discrétisation des valeurs continues (pd.cut, pd.qcut)
- Encodage des variables temporelles (sinus et cosinus pour les cycles)
- Feature Selection (sélection des variables pertinentes)