Génération de nouvelles variables à partir des données existantes

La génération de nouvelles variables à partir des données existantes est une technique de feature engineering qui consiste à créer de nouvelles caractéristiques (ou variables) en manipulant ou combinant les données déjà disponibles. Cela peut inclure des opérations mathématiques sur les colonnes existantes, des transformations de variables (comme l’extraction de parties d’une date), ou encore des agrégations basées sur les regroupements de données. L’objectif est d’enrichir le modèle avec des informations supplémentaires susceptibles d’améliorer la prédiction ou l’analyse.

Fonctions :


    Warning: Trying to access array offset on value of type bool in /home/datacrt/www/wp-content/themes/knowledge-base-lite/single-sous-section.php on line 59
  • Création d'une nouvelle colonne

    Cette technique permet de créer une nouvelle colonne à partir de colonnes existantes en appliquant une opération mathématique ou une transformation.

    Importation :

    import pandas as pd

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame
    df = pd.DataFrame({
        'prix': [10, 15, 20],
        'quantité': [2, 3, 4]
    })
    
    # Création d'une nouvelle colonne 'total' en multipliant 'prix' et 'quantité'
    df['total'] = df['prix'] * df['quantité']
    
    print(df)
    Résultat du code

    Explication du code :

    1. Création du DataFrame : Un DataFrame avec deux colonnes (prix et quantité) est créé.
    2. Ajout d'une nouvelle colonne : La colonne 'total' est créée en multipliant prix par quantité.
    3. Affichage du résultat : La nouvelle colonne est ajoutée au DataFrame, permettant de voir les valeurs calculées.