Gérer les doublons après une fusion (drop_duplicates())

Après une fusion de DataFrames, il est possible que des doublons apparaissent, surtout si plusieurs lignes de chaque DataFrame partagent des valeurs communes. La méthode drop_duplicates() permet de supprimer ces doublons dans le DataFrame résultant. Elle peut être utilisée pour conserver uniquement les lignes uniques en fonction de toutes les colonnes ou de certaines colonnes spécifiques.

Fonctions :

df.drop_duplicates()

Supprime les lignes en double dans un DataFrame, en se basant sur les colonnes spécifiées ou l’ensemble des colonnes par défaut. Très utile après une fusion de DataFrames pour éviter les doublons.

Importation :

import pandas as pd

Attributs :

Paramètre	Type	Description	Valeur par défaut
`subset`	list ou str	Colonnes sur lesquelles vérifier les doublons. Par défaut, toutes les colonnes sont utilisées.	`None`
`keep`	{'first', 'last', False}	Quel doublon garder : 'first' (premier), 'last' (dernier), ou `False` (aucun).	`'first'`
`inplace`	bool	Si `True`, modifie le DataFrame directement sans retourner de copie.	`False`
`ignore_index`	bool	Si `True`, réinitialise l'index dans le DataFrame retourné.	`False`

Exemple de code :

import pandas as pd

# Exemple de DataFrame après une fusion
df = pd.DataFrame({
    'id': [1, 2, 2, 3, 4, 4],
    'valeur': ['A', 'B', 'B', 'C', 'D', 'D']
})

# Supprimer les doublons sur toutes les colonnes
df_sans_doublons = df.drop_duplicates()

print(df_sans_doublons)

Explication du code :

Importation de la bibliothèque

import pandas as pd

Cette ligne importe la bibliothèque pandas, utilisée pour manipuler des structures de données tabulaires.

Création d’un DataFrame avec des doublons

df = pd.DataFrame({'id': [1, 2, 2, 3, 4, 4], 'valeur': ['A', 'B', 'B', 'C', 'D', 'D']})

On crée un DataFrame contenant des lignes en double, notamment pour les paires (2, 'B') et (4, 'D').

Suppression des doublons

df_sans_doublons = df.drop_duplicates()

La méthode drop_duplicates() supprime les lignes dupliquées sur toutes les colonnes du DataFrame.

Affichage du DataFrame sans doublons

print(df_sans_doublons)

Cette instruction affiche le résultat final, dans lequel chaque ligne est unique.