Compter les valeurs manquantes (isnull().sum())
La combinaison des fonctions isnull() et sum() permet de compter le nombre de valeurs manquantes dans chaque colonne d’un DataFrame. La fonction isnull() génère un DataFrame booléen, où chaque cellule contient True si la valeur est manquante (NaN) et False sinon. Ensuite, en appliquant sum() sur cet objet, Pandas additionne les True (considérés comme 1) pour chaque colonne, donnant ainsi le nombre total de valeurs manquantes dans chaque colonne. Cela permet d’obtenir une vue d’ensemble rapide de la répartition des valeurs manquantes dans les données.
Fonctions :
-
isnull().sum()
La fonction isnull().sum() permet de compter le nombre de valeurs manquantes dans un DataFrame. isnull() identifie les valeurs manquantes en renvoyant un DataFrame avec des valeurs booléennes (True pour les valeurs manquantes et False pour les autres). sum() permet ensuite de totaliser ces valeurs booléennes pour chaque colonne, où True est compté comme 1 et False comme 0.
Importation :
import pandas as pdAttributs :
Paramètre Type Description Valeur par défaut axisintouNonePermet de spécifier l'axe sur lequel effectuer la somme. 0pour les lignes,1pour les colonnes.NoneskipnaboolSi True, ignore les valeursNaNlors de la somme.TrueExemple de code :
import pandas as pd # Création d'un DataFrame exemple avec des valeurs manquantes data = { 'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'], 'Âge': [24, None, 35, 40, None], 'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux'] } df = pd.DataFrame(data) # Compter les valeurs manquantes dans chaque colonne missing_values = df.isnull().sum() # Afficher le nombre de valeurs manquantes par colonne print(missing_values)
Explication du code :
import pandas as pdimporte la bibliothèque pandas, qui permet de manipuler facilement des tableaux de données en Python.Création d'un DataFrame avec des valeurs manquantes
Un dictionnaire
dataest défini avec trois colonnes :'Nom','Âge'et'Ville'. Certaines valeurs sontNone, ce qui correspond à une donnée manquante.df = pd.DataFrame(data)crée un DataFrame à partir du dictionnaire.Comptage des valeurs manquantes
df.isnull()crée un DataFrame booléen indiquant les cellules vides..sum()additionne lesTruepar colonne, ce qui donne le nombre de valeurs manquantes par colonne.Le résultat est stocké dans la variable
missing_valueset affiché avecprint().