Compter les valeurs manquantes (isnull().sum())

La combinaison des fonctions isnull() et sum() permet de compter le nombre de valeurs manquantes dans chaque colonne d’un DataFrame. La fonction isnull() génère un DataFrame booléen, où chaque cellule contient True si la valeur est manquante (NaN) et False sinon. Ensuite, en appliquant sum() sur cet objet, Pandas additionne les True (considérés comme 1) pour chaque colonne, donnant ainsi le nombre total de valeurs manquantes dans chaque colonne. Cela permet d’obtenir une vue d’ensemble rapide de la répartition des valeurs manquantes dans les données.

Fonctions :

  • isnull().sum()

    La fonction isnull().sum() permet de compter le nombre de valeurs manquantes dans un DataFrame. isnull() identifie les valeurs manquantes en renvoyant un DataFrame avec des valeurs booléennes (True pour les valeurs manquantes et False pour les autres). sum() permet ensuite de totaliser ces valeurs booléennes pour chaque colonne, où True est compté comme 1 et False comme 0.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    axis int ou None Permet de spécifier l'axe sur lequel effectuer la somme. 0 pour les lignes, 1 pour les colonnes. None
    skipna bool Si True, ignore les valeurs NaN lors de la somme. True

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame exemple avec des valeurs manquantes
    data = {
        'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'],
        'Âge': [24, None, 35, 40, None],
        'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux']
    }
    
    df = pd.DataFrame(data)
    
    # Compter les valeurs manquantes dans chaque colonne
    missing_values = df.isnull().sum()
    
    # Afficher le nombre de valeurs manquantes par colonne
    print(missing_values)

    Explication du code :

    • Un DataFrame est créé avec des valeurs manquantes représentées par None ou NaN.
    • La fonction isnull() détecte les valeurs manquantes, et la fonction sum() additionne les valeurs True (valeurs manquantes) pour chaque colonne.
    • Le résultat est un objet pandas de type Series qui montre le nombre de valeurs manquantes pour chaque colonne.