Supprimer les valeurs manquantes (dropna())
La fonction dropna() de Pandas permet de supprimer les lignes ou les colonnes contenant des valeurs manquantes (NaN) d’un DataFrame. Par défaut, elle supprime les lignes où au moins une valeur est manquante, mais il est possible de la configurer pour supprimer des colonnes avec des valeurs manquantes en utilisant l’argument axis=1. De plus, des options supplémentaires permettent de contrôler le seuil de suppression, comme par exemple l’argument thresh pour spécifier le nombre minimal de valeurs non manquantes qu’une ligne ou une colonne doit avoir pour être conservée. Cela permet de nettoyer rapidement un jeu de données tout en ajustant le niveau de rigueur dans le traitement des valeurs manquantes.
Fonctions :
-
dropna()
La fonction dropna() permet de supprimer les lignes ou les colonnes contenant des valeurs manquantes dans un DataFrame. Elle est utile pour nettoyer les données avant de procéder à une analyse ou une modélisation.
Importation :
import pandas as pd
Attributs :
Paramètre Type Description Valeur par défaut axis
int
ouNone
Spécifie si les lignes ( axis=0
) ou les colonnes (axis=1
) doivent être supprimées.0
(lignes)how
str
Détermine comment supprimer les valeurs manquantes : - Exemple de code :
import pandas as pd # Création d'un DataFrame exemple avec des valeurs manquantes data = { 'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'], 'Âge': [24, None, 35, 40, None], 'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux'] } df = pd.DataFrame(data) # Supprimer les lignes contenant des valeurs manquantes df_cleaned = df.dropna() # Afficher le DataFrame après suppression print(df_cleaned)
Explication du code :
Un DataFrame est créé avec des valeurs manquantes représentées par
None
ouNaN
. La fonctiondropna()
est utilisée pour supprimer toutes les lignes contenant au moins une valeur manquante. Le paramètreinplace=False
crée un nouveau DataFrame sans modifier l'original. Siinplace=True
avait été utilisé, les modifications auraient été appliquées directement àdf
. Par défaut,dropna()
supprime les lignes (axis=0
) contenant des valeurs manquantes, mais il est possible de spécifier la suppression des colonnes en utilisantaxis=1
.