Détection et traitement des valeurs manquantes

Des valeurs manquantes non traitées peuvent fausser les résultats, perturber les algorithmes de machine learning et fausser les décisions basées sur les données. Cette section vous présente les principales méthodes de détection et de traitement des valeurs manquantes dans un DataFrame avec pandas.

Vous découvrirez comment identifier les valeurs manquantes, les supprimer ou les remplacer de manière adaptée. Nous verrons également comment utiliser des techniques avancées comme l’imputation, en fonction de la nature des données et du contexte.

Ce que vous allez apprendre dans cette section :

Détecter les valeurs manquantes

Utilisez isnull() et notnull() pour identifier rapidement les valeurs manquantes dans vos données.

Compter les valeurs manquantes

Avec isnull().sum(), apprenez à quantifier le nombre de valeurs manquantes par colonne.

Supprimer les valeurs manquantes

Apprenez à utiliser dropna() pour supprimer les lignes ou les colonnes contenant des valeurs manquantes.

Remplacer les valeurs manquantes

Utilisez fillna() pour remplir les valeurs manquantes avec des valeurs spécifiques ou calculées, comme la moyenne ou la médiane.

Imputation avancée des valeurs manquantes

Découvrez comment utiliser SimpleImputer de Scikit-learn pour effectuer une imputation plus avancée et efficace.