Lire un fichier Parquet
La lecture d’un fichier Parquet permet d’importer des données à partir de ce format de stockage optimisé pour les grandes quantités de données. Parquet est un format de fichier colonne qui permet de réduire la taille des données tout en maintenant des performances élevées pour les requêtes analytiques. La fonction pd.read_parquet() de Pandas permet de charger facilement des fichiers Parquet dans un DataFrame, tout en offrant un traitement efficace des données volumineuses. Ce format est souvent utilisé dans des environnements big data ou dans des systèmes de stockage distribués.
Fonctions :
-
pandas.read_parquet()
Cette fonction permet de lire un fichier Parquet (format de données columnaires) et de le convertir en un DataFrame pandas. Le format Parquet est particulièrement efficace pour le stockage et le traitement de grandes quantités de données.
Importation :
import pandas as pd
Attributs :
Paramètre
Description
path
Le chemin vers le fichier Parquet à lire. Il peut s'agir d'un fichier local ou d'un fichier sur un stockage distant comme S3. engine
Spécifie le moteur à utiliser pour lire le fichier. Les moteurs disponibles sont pyarrow
(par défaut) etfastparquet
.columns
Liste des colonnes à lire depuis le fichier Parquet. Si non spécifié, toutes les colonnes seront lues. filters
Liste de filtres sous forme de tuples pour filtrer les données au moment de la lecture. Par exemple, [('col1', '>', 5)]
.use_nullable_dtypes
Si True
, utilise des types de données nullable pour les colonnes. Par défaut,False
.filesystem
Permet de spécifier un système de fichiers personnalisé. Cela peut être utile pour accéder à des fichiers stockés sur S3, HDFS, etc. Exemple de code :
import pandas as pd import seaborn as sns # Charger le dataset Titanic titanic = sns.load_dataset('titanic') # Enregistrement en Parquet titanic.to_parquet('titanic_dataset.parquet', index=False) # Lecture du fichier Parquet df_parquet = pd.read_parquet('titanic_dataset.parquet') # Affichage des premières lignes print(df_parquet.head())
Explication du code :
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
, qui est couramment utilisée pour la manipulation et l’analyse de données.import seaborn as sns
importe la bibliothèque seaborn, renommée ici ensns
, qui fournit des jeux de données intégrés utiles à des fins d'analyse et d'exemples.Charger le dataset Titanic
La fonction
sns.load_dataset('titanic')
charge le jeu de données Titanic intégré à seaborn et l’assigne à la variabletitanic
, sous la forme d'un DataFrame.Enregistrer le dataset Titanic en format Parquet
La méthode
to_parquet()
permet d’enregistrer un DataFrame dans un fichier au format Parquet, un format de stockage optimisé pour les données volumineuses. Le paramètreindex=False
empêche l'écriture de la colonne d’index dans le fichier.titanic.to_parquet('titanic_dataset.parquet', index=False)
enregistre donc les données du DataFrametitanic
dans un fichier'titanic_dataset.parquet'
en omettant la colonne d'index.Lecture du fichier Parquet
La fonction
pd.read_parquet()
permet de lire un fichier Parquet et de le charger dans un DataFrame. Le fichier'titanic_dataset.parquet'
est ainsi chargé dans une nouvelle variabledf_parquet
.Afficher les premières lignes du DataFrame
La méthode
head()
affiche les premières lignes du DataFrame, ce qui permet de vérifier la structure et le contenu des données lues à partir du fichier Parquet.print(df_parquet.head())
affiche donc les premières lignes du DataFramedf_parquet
.