Création de variables binaires basées sur une condition

La création de variables binaires basées sur une condition consiste à transformer une colonne de données en une nouvelle colonne où les valeurs sont représentées sous forme binaire (0 ou 1) en fonction d’une condition spécifique. Cela est souvent utilisé pour représenter des critères catégoriques ou pour effectuer des analyses conditionnelles. Par exemple, on peut créer une variable binaire pour indiquer si une valeur dépasse un certain seuil ou si une condition spécifique est remplie. Les valeurs de la nouvelle colonne seront alors 1 si la condition est vraie et 0 si elle est fausse. Cela permet de simplifier l’analyse et de préparer les données pour des modèles de machine learning qui nécessitent des entrées numériques.

Fonctions :

  • Création de variables binaires basées sur une condition

    Cette technique permet de créer une colonne contenant des valeurs binaires (0 ou 1) selon qu’une condition soit remplie ou non.

    Importation :

    import pandas as pd

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame avec une colonne 'taille'
    df = pd.DataFrame({
        'nom': ['Alice', 'Bob', 'Charlie', 'David'],
        'taille': [165, 182, 175, 190]
    })
    
    # Création d'une variable binaire : 1 si taille > 180, sinon 0
    df['est_grand'] = (df['taille'] > 180).astype(int)
    
    print(df)
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas, renommée ici en pd pour simplifier son utilisation dans le code.

    Création d'un DataFrame avec une colonne de texte

    Un DataFrame df est créé avec une colonne 'texte' contenant une liste de chaînes de caractères. Ces chaînes représentent des phrases qui seront analysées pour extraire certaines caractéristiques textuelles.

    Extraction des caractéristiques textuelles
    • Nombre de caractères : La méthode apply(len) est utilisée pour calculer le nombre de caractères de chaque texte dans la colonne 'texte'. Le résultat est stocké dans la nouvelle colonne 'longueur_texte'.
    • Nombre de mots : La méthode str.split() découpe chaque texte en mots, et apply(len) calcule le nombre de mots dans chaque texte. Le résultat est assigné à la colonne 'nombre_mots'.
    • Présence du mot 'machine' : La méthode str.contains('machine') vérifie si le mot 'machine' est présent dans chaque texte. Cela renvoie True si le mot est présent et False sinon. Le résultat est stocké dans la colonne 'contient_machine'.
    • Nombre d’occurrences de 'learning' : La méthode str.count('learning') compte le nombre d’occurrences du mot 'learning' dans chaque texte. Le résultat est assigné à la colonne 'occurence_learning'.
    Affichage du DataFrame

    La fonction print(df) affiche le DataFrame df, qui contient désormais les caractéristiques extraites pour chaque texte : le nombre de caractères, le nombre de mots, la présence du mot 'machine', et le nombre d'occurrences de 'learning'.