Lire un fichier Parquet

La lecture d’un fichier Parquet permet d’importer des données à partir de ce format de stockage optimisé pour les grandes quantités de données. Parquet est un format de fichier colonne qui permet de réduire la taille des données tout en maintenant des performances élevées pour les requêtes analytiques. La fonction pd.read_parquet() de Pandas permet de charger facilement des fichiers Parquet dans un DataFrame, tout en offrant un traitement efficace des données volumineuses. Ce format est souvent utilisé dans des environnements big data ou dans des systèmes de stockage distribués.

Fonctions :

  • pandas.read_parquet()

    Cette fonction permet de lire un fichier Parquet (format de données columnaires) et de le convertir en un DataFrame pandas. Le format Parquet est particulièrement efficace pour le stockage et le traitement de grandes quantités de données.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre
    Description
    path Le chemin vers le fichier Parquet à lire. Il peut s'agir d'un fichier local ou d'un fichier sur un stockage distant comme S3.
    engine Spécifie le moteur à utiliser pour lire le fichier. Les moteurs disponibles sont pyarrow (par défaut) et fastparquet.
    columns Liste des colonnes à lire depuis le fichier Parquet. Si non spécifié, toutes les colonnes seront lues.
    filters Liste de filtres sous forme de tuples pour filtrer les données au moment de la lecture. Par exemple, [('col1', '>', 5)].
    use_nullable_dtypes Si True, utilise des types de données nullable pour les colonnes. Par défaut, False.
    filesystem Permet de spécifier un système de fichiers personnalisé. Cela peut être utile pour accéder à des fichiers stockés sur S3, HDFS, etc.

    Exemple de code :

    import pandas as pd
    import seaborn as sns
    
    # Charger le dataset Titanic
    titanic = sns.load_dataset('titanic')
    
    # Enregistrement en Parquet
    titanic.to_parquet('titanic_dataset.parquet', index=False)
    
    # Lecture du fichier Parquet
    df_parquet = pd.read_parquet('titanic_dataset.parquet')
    
    # Affichage des premières lignes
    print(df_parquet.head())
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas, renommée ici en pd, qui est couramment utilisée pour la manipulation et l’analyse de données. import seaborn as sns importe la bibliothèque seaborn, renommée ici en sns, qui fournit des jeux de données intégrés utiles à des fins d'analyse et d'exemples.

    Charger le dataset Titanic

    La fonction sns.load_dataset('titanic') charge le jeu de données Titanic intégré à seaborn et l’assigne à la variable titanic, sous la forme d'un DataFrame.

    Enregistrer le dataset Titanic en format Parquet

    La méthode to_parquet() permet d’enregistrer un DataFrame dans un fichier au format Parquet, un format de stockage optimisé pour les données volumineuses. Le paramètre index=False empêche l'écriture de la colonne d’index dans le fichier.

    titanic.to_parquet('titanic_dataset.parquet', index=False) enregistre donc les données du DataFrame titanic dans un fichier 'titanic_dataset.parquet' en omettant la colonne d'index.

    Lecture du fichier Parquet

    La fonction pd.read_parquet() permet de lire un fichier Parquet et de le charger dans un DataFrame. Le fichier 'titanic_dataset.parquet' est ainsi chargé dans une nouvelle variable df_parquet.

    Afficher les premières lignes du DataFrame

    La méthode head() affiche les premières lignes du DataFrame, ce qui permet de vérifier la structure et le contenu des données lues à partir du fichier Parquet.

    print(df_parquet.head()) affiche donc les premières lignes du DataFrame df_parquet.