Exporter un DataFrame en Parquet avec compression (compression='snappy')

Exporter un DataFrame en Parquet avec compression permet de sauvegarder les données dans un format optimisé, tout en réduisant leur taille à l’aide de la compression. Cela facilite le stockage et accélère les opérations d’entrée/sortie, particulièrement dans des environnements de Big Data.

Fonctions :

  • to_parquet(compression='snappy')

    La méthode to_parquet() permet d'exporter un DataFrame en format Parquet, tout en appliquant une compression pour réduire la taille du fichier. Dans cet exemple, la compression utilisée est snappy, qui est rapide et optimisée pour les lectures et écritures rapides de grandes quantités de données tout en offrant une taille de fichier raisonnable. compression='snappy' : La compression snappy est l'option par défaut et offre un bon compromis entre vitesse de compression et de décompression tout en réduisant significativement la taille du fichier. 'fichier.parquet' : C'est le nom du fichier dans lequel les données seront enregistrées. Le format .parquet doit être spécifié.

    Attributs :

    Paramètre Type Description Valeur par défaut
    compression str Type de compression à appliquer au fichier Parquet (par exemple, 'snappy', 'gzip', 'brotli', etc.). 'snappy' est l'option par défaut. 'snappy'
    engine str Moteur utilisé pour l'exportation, comme 'pyarrow' ou 'fastparquet'. 'pyarrow'
    index bool Si True, l'index du DataFrame sera exporté. Par défaut, True. True
    partition_cols list Colonnes sur lesquelles partitionner les données (utile pour les grands ensembles de données). None

    Exemple de code :

    import pandas as pd
    
    # Exemple de DataFrame
    data = {'Nom': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
    df = pd.DataFrame(data)
    
    # Exporter le DataFrame en format Parquet avec compression snappy
    df.to_parquet('fichier.parquet', compression='snappy')

    Explication du code :

    1. Un DataFrame simple avec les colonnes Nom et Age est créé.
    2. Ce DataFrame est exporté au format Parquet avec la compression snappy.
    3. Le fichier Parquet résultant sera enregistré sous le nom fichier.parquet dans le répertoire courant.

    Remarque :

    • La compression snappy est utilisée pour compresser les données de manière rapide sans entraîner une perte de performance significative lors de la lecture et de l'écriture.

    • pyarrow ou fastparquet doivent être installés pour utiliser la fonctionnalité Parquet dans pandas.

      • La compression est particulièrement utile pour les jeux de données volumineux, car elle réduit la taille des fichiers tout en maintenant une vitesse acceptable pour les lectures et écritures.


      Conseils supplémentaires :

      • Test de Compression : Vous pouvez tester différentes méthodes de compression (comme 'gzip', 'brotli') pour voir lequel offre le meilleur compromis entre la taille du fichier et la vitesse de lecture/écriture dans votre cas d'usage.