Exporter un DataFrame en Parquet avec compression (compression='snappy')
Exporter un DataFrame en Parquet avec compression permet de sauvegarder les données dans un format optimisé, tout en réduisant leur taille à l’aide de la compression. Cela facilite le stockage et accélère les opérations d’entrée/sortie, particulièrement dans des environnements de Big Data.
Fonctions :
-
to_parquet(compression='snappy')
La méthode to_parquet() permet d'exporter un DataFrame en format Parquet, tout en appliquant une compression pour réduire la taille du fichier. Dans cet exemple, la compression utilisée est snappy, qui est rapide et optimisée pour les lectures et écritures rapides de grandes quantités de données tout en offrant une taille de fichier raisonnable. compression='snappy' : La compression snappy est l'option par défaut et offre un bon compromis entre vitesse de compression et de décompression tout en réduisant significativement la taille du fichier. 'fichier.parquet' : C'est le nom du fichier dans lequel les données seront enregistrées. Le format .parquet doit être spécifié.
Attributs :
Paramètre Type Description Valeur par défaut compression
str Type de compression à appliquer au fichier Parquet (par exemple, 'snappy'
,'gzip'
,'brotli'
, etc.).'snappy'
est l'option par défaut.'snappy'
engine
str Moteur utilisé pour l'exportation, comme 'pyarrow'
ou'fastparquet'
.'pyarrow'
index
bool Si True
, l'index du DataFrame sera exporté. Par défaut,True
.True
partition_cols
list Colonnes sur lesquelles partitionner les données (utile pour les grands ensembles de données). None
Exemple de code :
import pandas as pd # Exemple de DataFrame data = {'Nom': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]} df = pd.DataFrame(data) # Exporter le DataFrame en format Parquet avec compression snappy df.to_parquet('fichier.parquet', compression='snappy')
Explication du code :
- Un DataFrame simple avec les colonnes
Nom
etAge
est créé. - Ce DataFrame est exporté au format Parquet avec la compression
snappy
. - Le fichier Parquet résultant sera enregistré sous le nom
fichier.parquet
dans le répertoire courant.
Remarque :
-
La compression
snappy
est utilisée pour compresser les données de manière rapide sans entraîner une perte de performance significative lors de la lecture et de l'écriture. -
pyarrow
oufastparquet
doivent être installés pour utiliser la fonctionnalité Parquet dans pandas. -
-
La compression est particulièrement utile pour les jeux de données volumineux, car elle réduit la taille des fichiers tout en maintenant une vitesse acceptable pour les lectures et écritures.
Conseils supplémentaires :
- Test de Compression : Vous pouvez tester différentes méthodes de compression (comme
'gzip'
,'brotli'
) pour voir lequel offre le meilleur compromis entre la taille du fichier et la vitesse de lecture/écriture dans votre cas d'usage.
-
- Un DataFrame simple avec les colonnes