Détection et traitement des valeurs manquantes
Des valeurs manquantes non traitées peuvent fausser les résultats, perturber les algorithmes de machine learning et fausser les décisions basées sur les données. Cette section vous présente les principales méthodes de détection et de traitement des valeurs manquantes dans un DataFrame avec pandas.
Vous découvrirez comment identifier les valeurs manquantes, les supprimer ou les remplacer de manière adaptée. Nous verrons également comment utiliser des techniques avancées comme l’imputation, en fonction de la nature des données et du contexte.
Ce que vous allez apprendre dans cette section :
-
Détecter les valeurs manquantes : Utilisez
isnull()
etnotnull()
pour identifier rapidement les valeurs manquantes dans vos données. -
Compter les valeurs manquantes : Avec
isnull().sum()
, apprenez à quantifier le nombre de valeurs manquantes par colonne. -
Supprimer les valeurs manquantes : Apprenez à utiliser
dropna()
pour supprimer les lignes ou les colonnes contenant des valeurs manquantes. -
Remplacer les valeurs manquantes : Utilisez
fillna()
pour remplir les valeurs manquantes avec des valeurs spécifiques ou calculées, comme la moyenne ou la médiane. -
Imputation avancée des valeurs manquantes : Découvrez comment utiliser
SimpleImputer
de Scikit-learn pour effectuer une imputation plus avancée et efficace.