Lire un fichier XML

La lecture d’un fichier XML consiste à extraire des données structurées à partir d’un fichier au format XML et à les convertir en un format utilisable, comme un DataFrame. La fonction pd.read_xml() permet de charger un fichier XML dans Pandas, en l’interprétant comme une structure tabulaire. Elle permet de gérer des fichiers XML complexes, y compris ceux avec des éléments imbriqués, et de les transformer en un format plus adapté à l’analyse de données. Ce format est souvent utilisé pour l’échange de données entre différents systèmes et applications.

Fonctions :

  • pandas.read_xml()

    Cette fonction permet de lire un fichier XML et de le convertir en un DataFrame pandas. Elle est utile pour traiter des données structurées au format XML et peut gérer des fichiers contenant plusieurs niveaux de balises.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Description
    path_or_buffer Le chemin vers le fichier XML ou l'URL du fichier XML à lire.
    xpath Expression XPath pour extraire un sous-ensemble spécifique du XML. Si non spécifié, le document entier est utilisé.
    namespaces Dictionnaire des espaces de noms XML à utiliser lors de la lecture.
    attrs Liste des attributs à extraire du fichier XML. Si None, les attributs ne sont pas inclus.
    parser Le moteur de parsing à utiliser pour analyser le fichier XML. Par défaut, lxml. D'autres moteurs comme xml.etree.ElementTree peuvent être utilisés.
    xpath Expression XPath pour extraire les données spécifiques du fichier XML.

    Exemple de code :

    import pandas as pd
    import seaborn as sns
    
    # Charger le dataset Titanic
    titanic = sns.load_dataset('titanic')
    
    # Enregistrement en XML
    titanic.to_xml('titanic_dataset.xml', index=False)
    
    # Lecture du fichier XML
    df_xml = pd.read_xml('titanic_dataset.xml')
    
    # Affichage des premières lignes
    print(df_xml.head())
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas, renommée ici en pd, qui est couramment utilisée pour la manipulation et l’analyse de données. import seaborn as sns importe la bibliothèque seaborn, renommée ici en sns, qui fournit des jeux de données intégrés utiles à des fins d'analyse et d'exemples.

    Charger le dataset Titanic

    La fonction sns.load_dataset('titanic') charge le jeu de données Titanic intégré à seaborn et l’assigne à la variable titanic, sous la forme d'un DataFrame.

    Enregistrer le dataset Titanic en format Parquet

    La méthode to_parquet() permet d’enregistrer un DataFrame dans un fichier au format Parquet, un format de stockage optimisé pour les données volumineuses. Le paramètre index=False empêche l'écriture de la colonne d’index dans le fichier.

    titanic.to_parquet('titanic_dataset.parquet', index=False) enregistre donc les données du DataFrame titanic dans un fichier 'titanic_dataset.parquet' en omettant la colonne d'index.

    Lecture du fichier Parquet

    La fonction pd.read_parquet() permet de lire un fichier Parquet et de le charger dans un DataFrame. Le fichier 'titanic_dataset.parquet' est ainsi chargé dans une nouvelle variable df_parquet.

    Afficher les premières lignes du DataFrame

    La méthode head() affiche les premières lignes du DataFrame, ce qui permet de vérifier la structure et le contenu des données lues à partir du fichier Parquet.

    print(df_parquet.head()) affiche donc les premières lignes du DataFrame df_parquet.