Traitement des valeurs manquantes
Les valeurs manquantes sont l’un des problèmes les plus fréquents lors de l’analyse de données. Elles peuvent survenir pour de nombreuses raisons : erreurs de collecte, réponses non fournies, incompatibilités de format, ou encore fusions de sources hétérogènes. Ignorer leur présence peut fausser les analyses statistiques, dégrader les performances des modèles, ou même provoquer des erreurs d’exécution.
Le traitement des valeurs manquantes est donc une étape critique dans tout processus de préparation des données.
Dans cette section, vous découvrirez les différentes stratégies pour gérer ces valeurs absentes de manière rigoureuse :
Supprimer les valeurs manquantes avec dropna() quand elles sont peu nombreuses ou non essentielles.
Remplir les valeurs manquantes avec fillna() en utilisant des méthodes comme la moyenne, la médiane, des constantes, ou la propagation.
Analyser leur distribution pour comprendre les causes et décider de la stratégie la plus adaptée.
Évaluer l’impact des données manquantes sur vos modèles.
Il n’existe pas de solution unique : le bon choix dépend du contexte métier, de la nature des données et des objectifs de l’analyse. Cette section vous guidera pour prendre des décisions éclairées, en évitant les pièges classiques du traitement naïf.
Détecter les valeurs manquantes
Détectez rapidement les valeurs manquantes dans votre DataFrame grâce à isnull(), et comptez-les par colonne avec isnull().sum().
Filtrer les données non nulles
Filtrez les données sans valeurs manquantes en utilisant notnull(), pour travailler uniquement sur des données complètes.
Propager les valeurs pour remplir les NaN
Remplissez les valeurs manquantes en propageant les dernières valeurs valides avec la méthode forward fill (ffill).
Imputer les valeurs manquantes par la moyenne
Imputez les valeurs manquantes par la moyenne des colonnes correspondantes avec fillna(df.mean()), une technique simple et efficace.