Exporter un DataFrame en Parquet avec to_parquet()

La méthode to_parquet() permet d’exporter un DataFrame vers un fichier au format Parquet, qui est un format de stockage colonne optimisé pour les grandes quantités de données. Ce format est particulièrement efficace pour les analyses de données distribuées. Vous pouvez spécifier le chemin du fichier de sortie et éventuellement des options comme la compression. Parquet est un format utilisé couramment dans le traitement de données Big Data.

Fonctions :

to_parquet()

La méthode to_parquet() permet d'exporter un DataFrame en format Parquet, qui est un format de fichier de stockage de données en colonnes, très efficace pour la compression et l'optimisation des performances lors de la lecture et de l'écriture de données volumineuses. Parquet est largement utilisé dans le big data et les applications de traitement de données massives. 'fichier.parquet' : Nom du fichier où le DataFrame sera exporté. Le format .parquet est requis pour l'extension du fichier. engine : Vous pouvez spécifier le moteur à utiliser pour l'exportation (ex. pyarrow ou fastparquet). compression : Le type de compression (ex. snappy, gzip, brotli, etc.) à appliquer au fichier Parquet.

Attributs :

Paramètre	Type	Description	Valeur par défaut
`compression`	str	Le type de compression à utiliser (par exemple, `'snappy'`, `'gzip'`, `'brotli'`). Par défaut, la compression `'snappy'` est utilisée.	`'snappy'`
`engine`	str	Le moteur utilisé pour l'écriture. Les options courantes sont `'pyarrow'` et `'fastparquet'`.	`'pyarrow'`
`index`	bool	Si `True`, l'index du DataFrame sera exporté.	`True`
`partition_cols`	list	Une ou plusieurs colonnes sur lesquelles partitionner les données. Cela peut être utile pour de gros volumes de données.	`None`

Exemple de code :

import pandas as pd

# Exemple de DataFrame
data = {'Nom': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

# Exporter le DataFrame en format Parquet
df.to_parquet('fichier.parquet', compression='snappy')
print('Fichier parquet enregistré')

Explication du code :

Un DataFrame est créé avec des colonnes Nom et Age.
Le DataFrame est exporté au format Parquet avec la compression snappy.
Le fichier fichier.parquet sera généré dans le répertoire courant, et il contiendra les données de df.

Remarque :

Parquet est particulièrement utile pour les tâches de big data ou lorsque vous devez effectuer des lectures/écritures rapides sur de grandes quantités de données. Il est largement utilisé dans les frameworks de données distribuées comme Apache Spark et Dask.
Si vous utilisez pyarrow comme moteur, il peut être nécessaire de l'installer en utilisant la commande pip install pyarrow.

🟢 Conseils supplémentaires :

Partitionnement des données : Vous pouvez partitionner vos données en fonction d'une ou plusieurs colonnes pour optimiser les performances de lecture dans les systèmes distribués.
Compression : Utilisez la compression pour réduire la taille du fichier Parquet. Par exemple, 'gzip' pour une compression plus forte mais plus lente, ou 'snappy' pour un bon compromis entre vitesse et taille de fichier.