Exporter un DataFrame en Parquet avec to_parquet()

La méthode to_parquet() permet d’exporter un DataFrame vers un fichier au format Parquet, qui est un format de stockage colonne optimisé pour les grandes quantités de données. Ce format est particulièrement efficace pour les analyses de données distribuées. Vous pouvez spécifier le chemin du fichier de sortie et éventuellement des options comme la compression. Parquet est un format utilisé couramment dans le traitement de données Big Data.

Fonctions :

  • to_parquet()

    La méthode to_parquet() permet d'exporter un DataFrame en format Parquet, qui est un format de fichier de stockage de données en colonnes, très efficace pour la compression et l'optimisation des performances lors de la lecture et de l'écriture de données volumineuses. Parquet est largement utilisé dans le big data et les applications de traitement de données massives. 'fichier.parquet' : Nom du fichier où le DataFrame sera exporté. Le format .parquet est requis pour l'extension du fichier. engine : Vous pouvez spécifier le moteur à utiliser pour l'exportation (ex. pyarrow ou fastparquet). compression : Le type de compression (ex. snappy, gzip, brotli, etc.) à appliquer au fichier Parquet.

    Attributs :

    Paramètre Type Description Valeur par défaut
    compression str Le type de compression à utiliser (par exemple, 'snappy', 'gzip', 'brotli'). Par défaut, la compression 'snappy' est utilisée. 'snappy'
    engine str Le moteur utilisé pour l'écriture. Les options courantes sont 'pyarrow' et 'fastparquet'. 'pyarrow'
    index bool Si True, l'index du DataFrame sera exporté. True
    partition_cols list Une ou plusieurs colonnes sur lesquelles partitionner les données. Cela peut être utile pour de gros volumes de données. None

    Exemple de code :

    import pandas as pd
    
    # Exemple de DataFrame
    data = {'Nom': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
    df = pd.DataFrame(data)
    
    # Exporter le DataFrame en format Parquet
    df.to_parquet('fichier.parquet', compression='snappy')

    Explication du code :

    1. Un DataFrame est créé avec des colonnes Nom et Age.
    2. Le DataFrame est exporté au format Parquet avec la compression snappy.
    3. Le fichier fichier.parquet sera généré dans le répertoire courant, et il contiendra les données de df.

    Remarque :

    • Parquet est particulièrement utile pour les tâches de big data ou lorsque vous devez effectuer des lectures/écritures rapides sur de grandes quantités de données. Il est largement utilisé dans les frameworks de données distribuées comme Apache Spark et Dask.

    • Si vous utilisez pyarrow comme moteur, il peut être nécessaire de l'installer en utilisant la commande pip install pyarrow.


    🟢 Conseils supplémentaires :

    • Partitionnement des données : Vous pouvez partitionner vos données en fonction d'une ou plusieurs colonnes pour optimiser les performances de lecture dans les systèmes distribués.

    • Compression : Utilisez la compression pour réduire la taille du fichier Parquet. Par exemple, 'gzip' pour une compression plus forte mais plus lente, ou 'snappy' pour un bon compromis entre vitesse et taille de fichier.