Détecter les doublons (duplicated())

La fonction duplicated() de Pandas permet d’identifier les lignes du DataFrame qui sont des doublons, c’est-à-dire celles qui ont exactement les mêmes valeurs que d’autres lignes. Elle retourne un tableau booléen où chaque valeur indique si la ligne correspondante est un doublon (True) ou non (False). Par défaut, duplicated() compare toutes les colonnes, mais il est possible de spécifier un sous-ensemble de colonnes à analyser avec l’argument subset. Cela permet de détecter et de gérer efficacement les doublons dans les données, ce qui est essentiel pour garantir l’intégrité des jeux de données avant de les utiliser pour des analyses ou des modèles de machine learning.

Fonctions :

  • duplicated()

    La fonction duplicated() permet de détecter les lignes du DataFrame qui sont des doublons (c'est-à-dire identiques aux lignes précédentes). Elle renvoie une série booléenne, où True indique que la ligne est un doublon et False indique que la ligne est unique.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    subset str, list Liste de colonnes à considérer pour détecter les doublons. Si non spécifié, toutes les colonnes sont utilisées. -
    keep str Détermine quelle occurrence des doublons garder : 'first', 'last', 'False' -

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame exemple avec des doublons
    data = {
        'Nom': ['Alice', 'Bob', 'Charlie', 'Bob', 'Alice'],
        'Âge': [24, 27, 35, 27, 24],
        'Ville': ['Paris', 'Lyon', 'Paris', 'Lyon', 'Paris']
    }
    
    df = pd.DataFrame(data)
    
    # Détecter les doublons uniquement sur la colonne 'Nom' et garder la dernière occurrence
    doublons_nom = df.duplicated(subset=['Nom'], keep='last')
    
    # Afficher les doublons détectés
    print(doublons_nom)

    Explication du code :

    • Un DataFrame est créé avec des doublons dans les colonnes Nom et Âge.
    • La méthode duplicated() renvoie une série booléenne où True indique les lignes du DataFrame qui sont des doublons par rapport à la ligne précédente.
    • Le paramètre subset permet de spécifier une ou plusieurs colonnes à vérifier pour les doublons. Si ce paramètre n'est pas fourni, toutes les colonnes sont utilisées.
    • Le paramètre keep permet de définir quelle occurrence des doublons doit être gardée :
      • 'first' (par défaut) garde la première occurrence et marque les suivantes comme doublons.
      • 'last' garde la dernière occurrence et marque les précédentes comme doublons.
      • False marque toutes les occurrences comme doublons.
    • Le résultat de duplicated() peut être utilisé pour filtrer les doublons ou les supprimer avec la méthode drop_duplicates().