Lire un fichier Parquet

La lecture d’un fichier Parquet permet d’importer des données à partir de ce format de stockage optimisé pour les grandes quantités de données. Parquet est un format de fichier colonne qui permet de réduire la taille des données tout en maintenant des performances élevées pour les requêtes analytiques. La fonction pd.read_parquet() de Pandas permet de charger facilement des fichiers Parquet dans un DataFrame, tout en offrant un traitement efficace des données volumineuses. Ce format est souvent utilisé dans des environnements big data ou dans des systèmes de stockage distribués.

Fonctions :

  • pandas.read_parquet()

    Cette fonction permet de lire un fichier Parquet (format de données columnaires) et de le convertir en un DataFrame pandas. Le format Parquet est particulièrement efficace pour le stockage et le traitement de grandes quantités de données.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre
    Description
    path Le chemin vers le fichier Parquet à lire. Il peut s'agir d'un fichier local ou d'un fichier sur un stockage distant comme S3.
    engine Spécifie le moteur à utiliser pour lire le fichier. Les moteurs disponibles sont pyarrow (par défaut) et fastparquet.
    columns Liste des colonnes à lire depuis le fichier Parquet. Si non spécifié, toutes les colonnes seront lues.
    filters Liste de filtres sous forme de tuples pour filtrer les données au moment de la lecture. Par exemple, [('col1', '>', 5)].
    use_nullable_dtypes Si True, utilise des types de données nullable pour les colonnes. Par défaut, False.
    filesystem Permet de spécifier un système de fichiers personnalisé. Cela peut être utile pour accéder à des fichiers stockés sur S3, HDFS, etc.

    Exemple de code :

    import pandas as pd
    
    # Lecture d'un fichier Parquet local
    df = pd.read_parquet('data.parquet')
    
    # Lecture d'un fichier Parquet en spécifiant le moteur à utiliser
    df_pyarrow = pd.read_parquet('data.parquet', engine='pyarrow')
    df_fastparquet = pd.read_parquet('data.parquet', engine='fastparquet')
    
    # Lecture d'un fichier Parquet avec des colonnes spécifiques
    df_cols = pd.read_parquet('data.parquet', columns=['col1', 'col2'])
    
    # Affichage du DataFrame
    print(df.head())
    print(df_pyarrow.head())
    print(df_fastparquet.head())
    print(df_cols.head())