Gérer les doublons après une fusion (drop_duplicates())

Après une fusion de DataFrames, il est possible que des doublons apparaissent, surtout si plusieurs lignes de chaque DataFrame partagent des valeurs communes. La méthode drop_duplicates() permet de supprimer ces doublons dans le DataFrame résultant. Elle peut être utilisée pour conserver uniquement les lignes uniques en fonction de toutes les colonnes ou de certaines colonnes spécifiques.

Fonctions :

  • df.drop_duplicates()

    Supprime les lignes en double dans un DataFrame, en se basant sur les colonnes spécifiées ou l’ensemble des colonnes par défaut. Très utile après une fusion de DataFrames pour éviter les doublons.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    subset list ou str Colonnes sur lesquelles vérifier les doublons. Par défaut, toutes les colonnes sont utilisées. None
    keep {'first', 'last', False} Quel doublon garder : 'first' (premier), 'last' (dernier), ou False (aucun). 'first'
    inplace bool Si True, modifie le DataFrame directement sans retourner de copie. False
    ignore_index bool Si True, réinitialise l'index dans le DataFrame retourné. False

    Exemple de code :

    import pandas as pd
    
    # Exemple de DataFrame après une fusion
    df = pd.DataFrame({
        'id': [1, 2, 2, 3, 4, 4],
        'valeur': ['A', 'B', 'B', 'C', 'D', 'D']
    })
    
    # Supprimer les doublons sur toutes les colonnes
    df_sans_doublons = df.drop_duplicates()
    
    print(df_sans_doublons)
    Résultat du code

    Explication du code :

    Importation de la bibliothèque

    import pandas as pd

    Cette ligne importe la bibliothèque pandas, utilisée pour manipuler des structures de données tabulaires.

    Création d’un DataFrame avec des doublons

    df = pd.DataFrame({'id': [1, 2, 2, 3, 4, 4], 'valeur': ['A', 'B', 'B', 'C', 'D', 'D']})

    On crée un DataFrame contenant des lignes en double, notamment pour les paires (2, 'B') et (4, 'D').

    Suppression des doublons

    df_sans_doublons = df.drop_duplicates()

    La méthode drop_duplicates() supprime les lignes dupliquées sur toutes les colonnes du DataFrame.

    Affichage du DataFrame sans doublons

    print(df_sans_doublons)

    Cette instruction affiche le résultat final, dans lequel chaque ligne est unique.