Génération de nouvelles variables à partir des données existantes
La génération de nouvelles variables à partir des données existantes est une technique de feature engineering qui consiste à créer de nouvelles caractéristiques (ou variables) en manipulant ou combinant les données déjà disponibles. Cela peut inclure des opérations mathématiques sur les colonnes existantes, des transformations de variables (comme l’extraction de parties d’une date), ou encore des agrégations basées sur les regroupements de données. L’objectif est d’enrichir le modèle avec des informations supplémentaires susceptibles d’améliorer la prédiction ou l’analyse.
Fonctions :
-
Création d'une nouvelle colonne
Cette technique permet de créer une nouvelle colonne à partir de colonnes existantes en appliquant une opération mathématique ou une transformation.
Importation :
import pandas as pd
Exemple de code :
import pandas as pd # Création d'un DataFrame df = pd.DataFrame({ 'prix': [10, 15, 20], 'quantité': [2, 3, 4] }) # Création d'une nouvelle colonne 'total' en multipliant 'prix' et 'quantité' df['total'] = df['prix'] * df['quantité'] print(df)
Explication du code :
- Création du DataFrame : Un DataFrame avec deux colonnes (
prix
etquantité
) est créé. - Ajout d'une nouvelle colonne : La colonne
'total'
est créée en multipliantprix
parquantité
. - Affichage du résultat : La nouvelle colonne est ajoutée au DataFrame, permettant de voir les valeurs calculées.
- Création du DataFrame : Un DataFrame avec deux colonnes (
Warning: Trying to access array offset on value of type bool in /home/datacrt/www/wp-content/themes/knowledge-base-lite/single-sous-section.php on line 59