Supprimer les valeurs manquantes (dropna())

La fonction dropna() de Pandas permet de supprimer les lignes ou les colonnes contenant des valeurs manquantes (NaN) d’un DataFrame. Par défaut, elle supprime les lignes où au moins une valeur est manquante, mais il est possible de la configurer pour supprimer des colonnes avec des valeurs manquantes en utilisant l’argument axis=1. De plus, des options supplémentaires permettent de contrôler le seuil de suppression, comme par exemple l’argument thresh pour spécifier le nombre minimal de valeurs non manquantes qu’une ligne ou une colonne doit avoir pour être conservée. Cela permet de nettoyer rapidement un jeu de données tout en ajustant le niveau de rigueur dans le traitement des valeurs manquantes.

Fonctions :

  • dropna()

    La fonction dropna() permet de supprimer les lignes ou les colonnes contenant des valeurs manquantes dans un DataFrame. Elle est utile pour nettoyer les données avant de procéder à une analyse ou une modélisation.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    axis int ou None Spécifie si les lignes (axis=0) ou les colonnes (axis=1) doivent être supprimées. 0 (lignes)
    how str Détermine comment supprimer les valeurs manquantes : -

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame exemple avec des valeurs manquantes
    data = {
        'Nom': ['Alice', 'Bob', 'Charlie', None, 'Eva'],
        'Âge': [24, None, 35, 40, None],
        'Ville': ['Paris', 'Lyon', None, 'Nice', 'Bordeaux']
    }
    
    df = pd.DataFrame(data)
    
    # Supprimer les lignes contenant des valeurs manquantes
    df_cleaned = df.dropna()
    
    # Afficher le DataFrame après suppression
    print(df_cleaned)

    Explication du code :

    Un DataFrame est créé avec des valeurs manquantes représentées par None ou NaN.
    
    La fonction dropna() est utilisée pour supprimer toutes les lignes contenant au moins une valeur manquante.
    
    Le paramètre inplace=False crée un nouveau DataFrame sans modifier l'original. Si inplace=True avait été utilisé, les modifications auraient été appliquées directement à df.
    
    Par défaut, dropna() supprime les lignes (axis=0) contenant des valeurs manquantes, mais il est possible de spécifier la suppression des colonnes en utilisant axis=1.