Exporter un DataFrame en Parquet avec compression (compression='snappy')

Exporter un DataFrame en Parquet avec compression permet de sauvegarder les données dans un format optimisé, tout en réduisant leur taille à l’aide de la compression. Cela facilite le stockage et accélère les opérations d’entrée/sortie, particulièrement dans des environnements de Big Data.

Fonctions :

to_parquet(compression='snappy')

La méthode to_parquet() permet d'exporter un DataFrame en format Parquet, tout en appliquant une compression pour réduire la taille du fichier. Dans cet exemple, la compression utilisée est snappy, qui est rapide et optimisée pour les lectures et écritures rapides de grandes quantités de données tout en offrant une taille de fichier raisonnable. compression='snappy' : La compression snappy est l'option par défaut et offre un bon compromis entre vitesse de compression et de décompression tout en réduisant significativement la taille du fichier. 'fichier.parquet' : C'est le nom du fichier dans lequel les données seront enregistrées. Le format .parquet doit être spécifié.

Attributs :

Paramètre	Type	Description	Valeur par défaut
`compression`	str	Type de compression à appliquer au fichier Parquet (par exemple, `'snappy'`, `'gzip'`, `'brotli'`, etc.). `'snappy'` est l'option par défaut.	`'snappy'`
`engine`	str	Moteur utilisé pour l'exportation, comme `'pyarrow'` ou `'fastparquet'`.	`'pyarrow'`
`index`	bool	Si `True`, l'index du DataFrame sera exporté. Par défaut, `True`.	`True`
`partition_cols`	list	Colonnes sur lesquelles partitionner les données (utile pour les grands ensembles de données).	`None`

Exemple de code :

import pandas as pd

# Exemple de DataFrame
data = {'Nom': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

# Exporter le DataFrame en format Parquet avec compression snappy
df.to_parquet('fichier.parquet', compression='snappy')
print('Fichier parquet enregistré')

Explication du code :

Un DataFrame simple avec les colonnes Nom et Age est créé.
Ce DataFrame est exporté au format Parquet avec la compression snappy.
Le fichier Parquet résultant sera enregistré sous le nom fichier.parquet dans le répertoire courant.

Remarque :

La compression snappy est utilisée pour compresser les données de manière rapide sans entraîner une perte de performance significative lors de la lecture et de l'écriture.
pyarrow ou fastparquet doivent être installés pour utiliser la fonctionnalité Parquet dans pandas.
- La compression est particulièrement utile pour les jeux de données volumineux, car elle réduit la taille des fichiers tout en maintenant une vitesse acceptable pour les lectures et écritures.
Conseils supplémentaires :
- Test de Compression : Vous pouvez tester différentes méthodes de compression (comme 'gzip', 'brotli') pour voir lequel offre le meilleur compromis entre la taille du fichier et la vitesse de lecture/écriture dans votre cas d'usage.