Lire un fichier Parquet
La lecture d’un fichier Parquet permet d’importer des données à partir de ce format de stockage optimisé pour les grandes quantités de données. Parquet est un format de fichier colonne qui permet de réduire la taille des données tout en maintenant des performances élevées pour les requêtes analytiques. La fonction pd.read_parquet() de Pandas permet de charger facilement des fichiers Parquet dans un DataFrame, tout en offrant un traitement efficace des données volumineuses. Ce format est souvent utilisé dans des environnements big data ou dans des systèmes de stockage distribués.
Fonctions :
-
pandas.read_parquet()
Cette fonction permet de lire un fichier Parquet (format de données columnaires) et de le convertir en un DataFrame pandas. Le format Parquet est particulièrement efficace pour le stockage et le traitement de grandes quantités de données.
Importation :
import pandas as pd
Attributs :
Paramètre
Description
path
Le chemin vers le fichier Parquet à lire. Il peut s'agir d'un fichier local ou d'un fichier sur un stockage distant comme S3. engine
Spécifie le moteur à utiliser pour lire le fichier. Les moteurs disponibles sont pyarrow
(par défaut) etfastparquet
.columns
Liste des colonnes à lire depuis le fichier Parquet. Si non spécifié, toutes les colonnes seront lues. filters
Liste de filtres sous forme de tuples pour filtrer les données au moment de la lecture. Par exemple, [('col1', '>', 5)]
.use_nullable_dtypes
Si True
, utilise des types de données nullable pour les colonnes. Par défaut,False
.filesystem
Permet de spécifier un système de fichiers personnalisé. Cela peut être utile pour accéder à des fichiers stockés sur S3, HDFS, etc. Exemple de code :
import pandas as pd # Lecture d'un fichier Parquet local df = pd.read_parquet('data.parquet') # Lecture d'un fichier Parquet en spécifiant le moteur à utiliser df_pyarrow = pd.read_parquet('data.parquet', engine='pyarrow') df_fastparquet = pd.read_parquet('data.parquet', engine='fastparquet') # Lecture d'un fichier Parquet avec des colonnes spécifiques df_cols = pd.read_parquet('data.parquet', columns=['col1', 'col2']) # Affichage du DataFrame print(df.head()) print(df_pyarrow.head()) print(df_fastparquet.head()) print(df_cols.head())