Filtrer les données non nulles
Dans l’analyse de données, il est courant de devoir exclure les valeurs manquantes afin de se concentrer uniquement sur les observations complètes. Filtrer les données non nulles permet de s’assurer que les analyses, calculs ou visualisations se basent uniquement sur des données valides et exploitables.
Les valeurs nulles (souvent représentées par NaN
, None
, ou des cellules vides) peuvent perturber les traitements statistiques, générer des erreurs dans les algorithmes d’apprentissage automatique, ou fausser les agrégations. Il est donc parfois nécessaire de supprimer temporairement ou définitivement ces lignes ou colonnes incomplètes.
En Python, la bibliothèque pandas
propose des méthodes simples et puissantes telles que notnull()
ou dropna()
pour filtrer les données non nulles dans un DataFrame. Ces outils permettent un nettoyage rapide et précis selon vos besoins d’analyse.
Dans cette page, vous découvrirez les différentes techniques pour filtrer les données non nulles, leurs avantages, et comment les appliquer à vos jeux de données avec des exemples concrets.
Fonctions :
-
isnull() et notnull()
Les fonctions isnull() et notnull() permettent de détecter les valeurs manquantes dans un DataFrame. isnull() renvoie un DataFrame de la même forme que l'original, mais avec des valeurs True là où des valeurs manquantes (NaN) sont présentes. notnull() fait l'opposé, en renvoyant True là où il n'y a pas de valeurs manquantes.
Importation :
import pandas as pd
Attributs :
Paramètre Type Description Valeur par défaut Aucun paramètre requis Exemple de code :
import pandas as pd # Création d'un DataFrame avec des valeurs manquantes data = { 'Nom': ['Alice', None, 'Charlie'], 'Âge': [25, 30, None] } df = pd.DataFrame(data) # Détection des valeurs manquantes valeurs_nulles = df.isnull() # Détection des valeurs non manquantes valeurs_non_nulles = df.notnull() print("Valeurs nulles :\n", valeurs_nulles) print("\nValeurs non nulles :\n", valeurs_non_nulles)
Explication du code :
importe la bibliothèque pandas.
Création du DataFrame
Le dictionnairedata
contient des valeurs manquantes (None
) dans les colonnes'Nom'
et'Âge'
.df = pd.DataFrame(data)
transforme ce dictionnaire en DataFrame.Détection des valeurs manquantes
df.isnull()
renvoie un DataFrame de booléens avecTrue
aux emplacements des valeurs manquantes.Détection des valeurs non manquantes
df.notnull()
retourne un DataFrame de booléens avecTrue
pour les valeurs présentes.Affichage
print(valeurs_nulles)
affiche les emplacements des valeurs manquantes.print(valeurs_non_nulles)
affiche les emplacements des valeurs non manquantes.