Création de variables binaires basées sur une condition
La création de variables binaires basées sur une condition consiste à transformer une colonne de données en une nouvelle colonne où les valeurs sont représentées sous forme binaire (0 ou 1) en fonction d’une condition spécifique. Cela est souvent utilisé pour représenter des critères catégoriques ou pour effectuer des analyses conditionnelles. Par exemple, on peut créer une variable binaire pour indiquer si une valeur dépasse un certain seuil ou si une condition spécifique est remplie. Les valeurs de la nouvelle colonne seront alors 1 si la condition est vraie et 0 si elle est fausse. Cela permet de simplifier l’analyse et de préparer les données pour des modèles de machine learning qui nécessitent des entrées numériques.
Fonctions :
-
Création de variables binaires basées sur une condition
Cette technique permet de créer une colonne contenant des valeurs binaires (0 ou 1) selon qu’une condition soit remplie ou non.
Importation :
import pandas as pd
Exemple de code :
import pandas as pd # Création d'un DataFrame avec une colonne 'taille' df = pd.DataFrame({ 'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'taille': [165, 182, 175, 190] }) # Création d'une variable binaire : 1 si taille > 180, sinon 0 df['est_grand'] = (df['taille'] > 180).astype(int) print(df)
Explication du code :
- Définition de la condition :
(df['taille'] > 180)
crée une série de valeurs booléennes (True
ouFalse
). - Conversion en binaire :
.astype(int)
transformeTrue
en1
etFalse
en0
. - Ajout de la colonne :
df['est_grand']
est ajoutée au DataFrame avec1
pour les personnes de plus de 180 cm et0
sinon.
- Définition de la condition :