Création de variables binaires basées sur une condition
La création de variables binaires basées sur une condition consiste à transformer une colonne de données en une nouvelle colonne où les valeurs sont représentées sous forme binaire (0 ou 1) en fonction d’une condition spécifique. Cela est souvent utilisé pour représenter des critères catégoriques ou pour effectuer des analyses conditionnelles. Par exemple, on peut créer une variable binaire pour indiquer si une valeur dépasse un certain seuil ou si une condition spécifique est remplie. Les valeurs de la nouvelle colonne seront alors 1 si la condition est vraie et 0 si elle est fausse. Cela permet de simplifier l’analyse et de préparer les données pour des modèles de machine learning qui nécessitent des entrées numériques.
Fonctions :
-
Création de variables binaires basées sur une condition
Cette technique permet de créer une colonne contenant des valeurs binaires (0 ou 1) selon qu’une condition soit remplie ou non.
Importation :
import pandas as pd
Exemple de code :
import pandas as pd # Création d'un DataFrame avec une colonne 'taille' df = pd.DataFrame({ 'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'taille': [165, 182, 175, 190] }) # Création d'une variable binaire : 1 si taille > 180, sinon 0 df['est_grand'] = (df['taille'] > 180).astype(int) print(df)
Explication du code :
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
pour simplifier son utilisation dans le code.Création d'un DataFrame avec une colonne de texte
Un DataFrame
df
est créé avec une colonne'texte'
contenant une liste de chaînes de caractères. Ces chaînes représentent des phrases qui seront analysées pour extraire certaines caractéristiques textuelles.Extraction des caractéristiques textuelles
- Nombre de caractères : La méthode
apply(len)
est utilisée pour calculer le nombre de caractères de chaque texte dans la colonne'texte'
. Le résultat est stocké dans la nouvelle colonne'longueur_texte'
. - Nombre de mots : La méthode
str.split()
découpe chaque texte en mots, etapply(len)
calcule le nombre de mots dans chaque texte. Le résultat est assigné à la colonne'nombre_mots'
. - Présence du mot 'machine' : La méthode
str.contains('machine')
vérifie si le mot 'machine' est présent dans chaque texte. Cela renvoieTrue
si le mot est présent etFalse
sinon. Le résultat est stocké dans la colonne'contient_machine'
. - Nombre d’occurrences de 'learning' : La méthode
str.count('learning')
compte le nombre d’occurrences du mot 'learning' dans chaque texte. Le résultat est assigné à la colonne'occurence_learning'
.
Affichage du DataFrame
La fonction
print(df)
affiche le DataFramedf
, qui contient désormais les caractéristiques extraites pour chaque texte : le nombre de caractères, le nombre de mots, la présence du mot 'machine', et le nombre d'occurrences de 'learning'. - Nombre de caractères : La méthode