Feature Engineering

Le Feature Engineering est une étape cruciale dans la préparation des données, où l’on transforme et crée de nouvelles variables afin de rendre les modèles de machine learning plus performants. Cette section vous guide à travers différentes techniques pour extraire, transformer et créer des caractéristiques utiles à partir de vos données brutes.

Vous découvrirez comment générer de nouvelles variables à partir de vos données existantes, ainsi que des techniques avancées pour enrichir votre dataset.

Ce que vous allez apprendre dans cette section :

Gestion des valeurs inconnues avec handle_unknown dans OneHotEncoder

Gérez les catégories inattendues lors de l’encodage avec handle_unknown dans OneHotEncoder, évitant ainsi les erreurs lors de la prédiction.

Extraction de l’année, du mois, du jour à partir d’une date

Transformez vos colonnes de date en variables exploitables comme l’année, le mois ou le jour, utiles pour les modèles temporels.

Extraction des caractéristiques textuelles

Enrichissez vos données en extrayant des caractéristiques telles que la longueur des textes ou la présence de mots-clés pertinents.

Création de variables binaires basées sur une condition

Créez facilement des colonnes 0/1 selon des critères logiques pour transformer des informations qualitatives en quantitatives.

Utilisation de PolynomialFeatures pour générer des interactions

Utilisez PolynomialFeatures pour créer automatiquement des interactions non linéaires entre les variables.

Discrétisation des valeurs continues (pd.cut, pd.qcut)

Simplifiez vos données en transformant des variables continues en catégories grâce à pd.cut ou pd.qcut.

Encodage des variables temporelles (sinus et cosinus pour les cycles)

Représentez les cycles temporels (comme les heures ou jours de semaine) par des fonctions sin et cos pour conserver leur nature cyclique.

Feature Selection (sélection des variables pertinentes)

Améliorez vos modèles en ne gardant que les variables les plus utiles à l’aide de méthodes comme RFE, les arbres de décision ou les scores statistiques.

💡 Le Feature Engineering, c’est transformer vos données brutes en informations clés qui boostent les performances de vos modèles.