Lire un fichier Parquet

La lecture d’un fichier Parquet permet d’importer des données à partir de ce format de stockage optimisé pour les grandes quantités de données. Parquet est un format de fichier colonne qui permet de réduire la taille des données tout en maintenant des performances élevées pour les requêtes analytiques. La fonction pd.read_parquet() de Pandas permet de charger facilement des fichiers Parquet dans un DataFrame, tout en offrant un traitement efficace des données volumineuses. Ce format est souvent utilisé dans des environnements big data ou dans des systèmes de stockage distribués.

Fonctions :

pandas.read_parquet()

Cette fonction permet de lire un fichier Parquet (format de données columnaires) et de le convertir en un DataFrame pandas. Le format Parquet est particulièrement efficace pour le stockage et le traitement de grandes quantités de données.

Importation :

import pandas as pd

Attributs :

Paramètre	Description
`path`	Le chemin vers le fichier Parquet à lire. Il peut s'agir d'un fichier local ou d'un fichier sur un stockage distant comme S3.
`engine`	Spécifie le moteur à utiliser pour lire le fichier. Les moteurs disponibles sont `pyarrow` (par défaut) et `fastparquet`.
`columns`	Liste des colonnes à lire depuis le fichier Parquet. Si non spécifié, toutes les colonnes seront lues.
`filters`	Liste de filtres sous forme de tuples pour filtrer les données au moment de la lecture. Par exemple, `[('col1', '>', 5)]`.
`use_nullable_dtypes`	Si `True`, utilise des types de données nullable pour les colonnes. Par défaut, `False`.
`filesystem`	Permet de spécifier un système de fichiers personnalisé. Cela peut être utile pour accéder à des fichiers stockés sur S3, HDFS, etc.

Exemple de code :

import pandas as pd
import seaborn as sns

# Charger le dataset Titanic
titanic = sns.load_dataset('titanic')

# Enregistrement en Parquet
titanic.to_parquet('titanic_dataset.parquet', index=False)

# Lecture du fichier Parquet
df_parquet = pd.read_parquet('titanic_dataset.parquet')

# Affichage des premières lignes
print(df_parquet.head())

Explication du code :

import pandas as pd importe la bibliothèque pandas, renommée ici en pd, qui est couramment utilisée pour la manipulation et l’analyse de données. import seaborn as sns importe la bibliothèque seaborn, renommée ici en sns, qui fournit des jeux de données intégrés utiles à des fins d'analyse et d'exemples.

Charger le dataset Titanic

La fonction sns.load_dataset('titanic') charge le jeu de données Titanic intégré à seaborn et l’assigne à la variable titanic, sous la forme d'un DataFrame.

Enregistrer le dataset Titanic en format Parquet

La méthode to_parquet() permet d’enregistrer un DataFrame dans un fichier au format Parquet, un format de stockage optimisé pour les données volumineuses. Le paramètre index=False empêche l'écriture de la colonne d’index dans le fichier.

titanic.to_parquet('titanic_dataset.parquet', index=False) enregistre donc les données du DataFrame titanic dans un fichier 'titanic_dataset.parquet' en omettant la colonne d'index.

Lecture du fichier Parquet

La fonction pd.read_parquet() permet de lire un fichier Parquet et de le charger dans un DataFrame. Le fichier 'titanic_dataset.parquet' est ainsi chargé dans une nouvelle variable df_parquet.

Afficher les premières lignes du DataFrame

La méthode head() affiche les premières lignes du DataFrame, ce qui permet de vérifier la structure et le contenu des données lues à partir du fichier Parquet.

print(df_parquet.head()) affiche donc les premières lignes du DataFrame df_parquet.