Détecter les doublons (duplicated())
La fonction duplicated() de Pandas permet d’identifier les lignes du DataFrame qui sont des doublons, c’est-à-dire celles qui ont exactement les mêmes valeurs que d’autres lignes. Elle retourne un tableau booléen où chaque valeur indique si la ligne correspondante est un doublon (True) ou non (False). Par défaut, duplicated() compare toutes les colonnes, mais il est possible de spécifier un sous-ensemble de colonnes à analyser avec l’argument subset. Cela permet de détecter et de gérer efficacement les doublons dans les données, ce qui est essentiel pour garantir l’intégrité des jeux de données avant de les utiliser pour des analyses ou des modèles de machine learning.
Fonctions :
-
duplicated()
La fonction duplicated() permet de détecter les lignes du DataFrame qui sont des doublons (c'est-à-dire identiques aux lignes précédentes). Elle renvoie une série booléenne, où True indique que la ligne est un doublon et False indique que la ligne est unique.
Importation :
import pandas as pd
Attributs :
Paramètre Type Description Valeur par défaut subset
str, list Liste de colonnes à considérer pour détecter les doublons. Si non spécifié, toutes les colonnes sont utilisées. -
keep
str Détermine quelle occurrence des doublons garder : 'first'
,'last'
,'False'
-
Exemple de code :
import pandas as pd # Création d'un DataFrame exemple avec des doublons data = { 'Nom': ['Alice', 'Bob', 'Charlie', 'Bob', 'Alice'], 'Âge': [24, 27, 35, 27, 24], 'Ville': ['Paris', 'Lyon', 'Paris', 'Lyon', 'Paris'] } df = pd.DataFrame(data) # Détecter les doublons uniquement sur la colonne 'Nom' et garder la dernière occurrence doublons_nom = df.duplicated(subset=['Nom'], keep='last') # Afficher les doublons détectés print(doublons_nom)
Explication du code :
- Un DataFrame est créé avec des doublons dans les colonnes
Nom
etÂge
. - La méthode
duplicated()
renvoie une série booléenne oùTrue
indique les lignes du DataFrame qui sont des doublons par rapport à la ligne précédente. - Le paramètre
subset
permet de spécifier une ou plusieurs colonnes à vérifier pour les doublons. Si ce paramètre n'est pas fourni, toutes les colonnes sont utilisées. - Le paramètre
keep
permet de définir quelle occurrence des doublons doit être gardée :'first'
(par défaut) garde la première occurrence et marque les suivantes comme doublons.'last'
garde la dernière occurrence et marque les précédentes comme doublons.False
marque toutes les occurrences comme doublons.
- Le résultat de
duplicated()
peut être utilisé pour filtrer les doublons ou les supprimer avec la méthodedrop_duplicates()
.
- Un DataFrame est créé avec des doublons dans les colonnes