Détecter les valeurs manquantes

Les fonctions isnull() et notnull() de Pandas sont utilisées pour détecter la présence de valeurs manquantes dans un DataFrame. La fonction isnull() renvoie un DataFrame de la même forme, mais avec des valeurs booléennes indiquant True là où les valeurs sont manquantes (NaN) et False là où il y a des valeurs non manquantes. En revanche, notnull() renvoie l’inverse, avec True pour les valeurs non manquantes et False pour les valeurs manquantes. Ces fonctions sont essentielles pour effectuer un nettoyage de données en identifiant et traitant les valeurs manquantes dans un jeu de données.

Fonctions :

  • isnull() et notnull()

    Les fonctions isnull() et notnull() permettent de détecter les valeurs manquantes dans un DataFrame. isnull() renvoie un DataFrame de la même forme que l'original, mais avec des valeurs True là où des valeurs manquantes (NaN) sont présentes. notnull() fait l'opposé, en renvoyant True là où il n'y a pas de valeurs manquantes.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    subset str ou list Liste ou nom des colonnes à examiner. Si omis, toutes les colonnes sont prises en compte. None

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame exemple avec des valeurs manquantes
    data = {
        'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'],
        'Âge': [24, None, 35, 40, None],
        'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux']
    }
    
    df = pd.DataFrame(data)
    
    # Détecter les valeurs manquantes dans le DataFrame
    print("Is null:", df.isnull())
    
    # Détecter les valeurs non manquantes dans le DataFrame
    print("Is not null:", df.notnull())
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas, qui permet de manipuler des données sous forme de DataFrame en Python.

    Création d'un DataFrame exemple avec des valeurs manquantes

    Le dictionnaire data contient trois clés : 'Nom', 'Âge' et 'Ville', chacune associée à une liste de valeurs. Certaines de ces valeurs sont manquantes, représentées par None.

    df = pd.DataFrame(data) crée un DataFrame df à partir du dictionnaire data.

    Détecter les valeurs manquantes dans le DataFrame

    df.isnull() renvoie un DataFrame de même forme que df, mais avec True pour les cellules contenant des valeurs manquantes et False pour celles qui en contiennent pas.

    print("Is null:", df.isnull()) affiche donc la détection des valeurs manquantes dans le DataFrame.

    Détecter les valeurs non manquantes dans le DataFrame

    df.notnull() renvoie un DataFrame similaire, mais avec True pour les cellules qui ne contiennent pas de valeurs manquantes et False pour celles qui en contiennent.

    print("Is not null:", df.notnull()) affiche la détection des valeurs non manquantes dans le DataFrame.