Gérer les doublons après une fusion (drop_duplicates())
Après une fusion de DataFrames, il est possible que des doublons apparaissent, surtout si plusieurs lignes de chaque DataFrame partagent des valeurs communes. La méthode drop_duplicates() permet de supprimer ces doublons dans le DataFrame résultant. Elle peut être utilisée pour conserver uniquement les lignes uniques en fonction de toutes les colonnes ou de certaines colonnes spécifiques.
Fonctions :
-
df.drop_duplicates()
Supprime les lignes en double dans un DataFrame, en se basant sur les colonnes spécifiées ou l’ensemble des colonnes par défaut. Très utile après une fusion de DataFrames pour éviter les doublons.
Importation :
import pandas as pd
Attributs :
Paramètre Type Description Valeur par défaut subset
list ou str Colonnes sur lesquelles vérifier les doublons. Par défaut, toutes les colonnes sont utilisées. None
keep
{'first', 'last', False} Quel doublon garder : 'first' (premier), 'last' (dernier), ou False
(aucun).'first'
inplace
bool Si True
, modifie le DataFrame directement sans retourner de copie.False
ignore_index
bool Si True
, réinitialise l'index dans le DataFrame retourné.False
Exemple de code :
import pandas as pd # Exemple de DataFrame après une fusion df = pd.DataFrame({ 'id': [1, 2, 2, 3, 4, 4], 'valeur': ['A', 'B', 'B', 'C', 'D', 'D'] }) # Supprimer les doublons sur toutes les colonnes df_sans_doublons = df.drop_duplicates() print(df_sans_doublons)
Explication du code :
Importation de la bibliothèque
import pandas as pd
Cette ligne importe la bibliothèque pandas, utilisée pour manipuler des structures de données tabulaires.
Création d’un DataFrame avec des doublons
df = pd.DataFrame({'id': [1, 2, 2, 3, 4, 4], 'valeur': ['A', 'B', 'B', 'C', 'D', 'D']})
On crée un DataFrame contenant des lignes en double, notamment pour les paires
(2, 'B')
et(4, 'D')
.Suppression des doublons
df_sans_doublons = df.drop_duplicates()
La méthode
drop_duplicates()
supprime les lignes dupliquées sur toutes les colonnes du DataFrame.Affichage du DataFrame sans doublons
print(df_sans_doublons)
Cette instruction affiche le résultat final, dans lequel chaque ligne est unique.