Création de variables binaires basées sur une condition

La création de variables binaires basées sur une condition consiste à transformer une colonne de données en une nouvelle colonne où les valeurs sont représentées sous forme binaire (0 ou 1) en fonction d’une condition spécifique. Cela est souvent utilisé pour représenter des critères catégoriques ou pour effectuer des analyses conditionnelles. Par exemple, on peut créer une variable binaire pour indiquer si une valeur dépasse un certain seuil ou si une condition spécifique est remplie. Les valeurs de la nouvelle colonne seront alors 1 si la condition est vraie et 0 si elle est fausse. Cela permet de simplifier l’analyse et de préparer les données pour des modèles de machine learning qui nécessitent des entrées numériques.

Fonctions :

  • Création de variables binaires basées sur une condition

    Cette technique permet de créer une colonne contenant des valeurs binaires (0 ou 1) selon qu’une condition soit remplie ou non.

    Importation :

    import pandas as pd

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame avec une colonne 'taille'
    df = pd.DataFrame({
        'nom': ['Alice', 'Bob', 'Charlie', 'David'],
        'taille': [165, 182, 175, 190]
    })
    
    # Création d'une variable binaire : 1 si taille > 180, sinon 0
    df['est_grand'] = (df['taille'] > 180).astype(int)
    
    print(df)

    Explication du code :

    1. Définition de la condition : (df['taille'] > 180) crée une série de valeurs booléennes (True ou False).
    2. Conversion en binaire : .astype(int) transforme True en 1 et False en 0.
    3. Ajout de la colonne : df['est_grand'] est ajoutée au DataFrame avec 1 pour les personnes de plus de 180 cm et 0 sinon.