Détecter les valeurs manquantes (isnull(), notnull())
Les fonctions isnull() et notnull() de Pandas sont utilisées pour détecter la présence de valeurs manquantes dans un DataFrame. La fonction isnull() renvoie un DataFrame de la même forme, mais avec des valeurs booléennes indiquant True là où les valeurs sont manquantes (NaN) et False là où il y a des valeurs non manquantes. En revanche, notnull() renvoie l’inverse, avec True pour les valeurs non manquantes et False pour les valeurs manquantes. Ces fonctions sont essentielles pour effectuer un nettoyage de données en identifiant et traitant les valeurs manquantes dans un jeu de données.
Fonctions :
-
isnull() et notnull()
Les fonctions isnull() et notnull() permettent de détecter les valeurs manquantes dans un DataFrame. isnull() renvoie un DataFrame de la même forme que l'original, mais avec des valeurs True là où des valeurs manquantes (NaN) sont présentes. notnull() fait l'opposé, en renvoyant True là où il n'y a pas de valeurs manquantes.
Importation :
import pandas as pd
Attributs :
Paramètre Type Description Valeur par défaut subset
str
oulist
Liste ou nom des colonnes à examiner. Si omis, toutes les colonnes sont prises en compte. None
Exemple de code :
import pandas as pd # Création d'un DataFrame exemple avec des valeurs manquantes data = { 'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'], 'Âge': [24, None, 35, 40, None], 'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux'] } df = pd.DataFrame(data) # Détecter les valeurs manquantes dans le DataFrame print(df.isnull()) # Détecter les valeurs non manquantes dans le DataFrame print(df.notnull())
Explication du code :
- Un DataFrame est créé avec des valeurs manquantes représentées par
None
ouNaN
. - La fonction
isnull()
est utilisée pour détecter les valeurs manquantes dans le DataFramedf
. Elle renvoie un DataFrame de la même forme, mais avecTrue
aux emplacements où les valeurs sont manquantes. - La fonction
notnull()
fonctionne de la même manière, mais elle renvoieTrue
pour les valeurs non manquantes.
- Un DataFrame est créé avec des valeurs manquantes représentées par