Détecter les valeurs manquantes

Dans tout projet d’analyse de données, la présence de valeurs manquantes est un problème fréquent qui peut influencer la qualité et la fiabilité des résultats. Les valeurs manquantes correspondent à des données absentes ou non renseignées dans un jeu de données, que ce soit pour des raisons techniques, humaines ou liées à la nature même des données collectées.

La détection efficace de ces valeurs est essentielle pour choisir la meilleure stratégie de traitement, qu’il s’agisse de suppression, d’imputation ou d’autres méthodes plus avancées. Ignorer ou mal gérer les valeurs manquantes peut biaiser les analyses, fausser les modèles prédictifs et conduire à des conclusions erronées.

Dans cette page, vous apprendrez comment identifier rapidement et précisément les valeurs manquantes dans vos données, à l’aide d’outils et de techniques adaptés, notamment en Python avec la bibliothèque pandas. Vous découvrirez également les différentes formes que peuvent prendre ces valeurs (nulles, NaN, vides) et comment les visualiser pour mieux comprendre leur impact.

Fonctions :

  • isnull().sum()

    La fonction isnull().sum() permet de compter le nombre de valeurs manquantes dans un DataFrame. isnull() identifie les valeurs manquantes en renvoyant un DataFrame avec des valeurs booléennes (True pour les valeurs manquantes et False pour les autres). sum() permet ensuite de totaliser ces valeurs booléennes pour chaque colonne, où True est compté comme 1 et False comme 0.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    axis int ou None Permet de spécifier l'axe sur lequel effectuer la somme. 0 pour les lignes, 1 pour les colonnes. None
    skipna bool Si True, ignore les valeurs NaN lors de la somme. True

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame exemple avec des valeurs manquantes
    data = {
        'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'],
        'Âge': [24, None, 35, 40, None],
        'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux']
    }
    
    df = pd.DataFrame(data)
    
    # Compter les valeurs manquantes dans chaque colonne
    missing_values = df.isnull().sum()
    
    # Afficher le nombre de valeurs manquantes par colonne
    print(missing_values)
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas,
    qui permet de manipuler facilement des tableaux de données en Python.
    
    Création d'un DataFrame avec des valeurs manquantes
    Un dictionnaire data est défini avec trois colonnes : 'Nom', 'Âge' et 'Ville'. Certaines valeurs sont None, ce qui correspond à une donnée manquante. df = pd.DataFrame(data) crée un DataFrame à partir du dictionnaire.
    Comptage des valeurs manquantes
    df.isnull() crée un DataFrame booléen indiquant les cellules vides. .sum() additionne les True par colonne, ce qui donne le nombre de valeurs manquantes par colonne. Le résultat est stocké dans la variable missing_values et affiché avec print().