Lire un fichier XML

La lecture d’un fichier XML consiste à extraire des données structurées à partir d’un fichier au format XML et à les convertir en un format utilisable, comme un DataFrame. La fonction pd.read_xml() permet de charger un fichier XML dans Pandas, en l’interprétant comme une structure tabulaire. Elle permet de gérer des fichiers XML complexes, y compris ceux avec des éléments imbriqués, et de les transformer en un format plus adapté à l’analyse de données. Ce format est souvent utilisé pour l’échange de données entre différents systèmes et applications.

Fonctions :

pandas.read_xml()

Cette fonction permet de lire un fichier XML et de le convertir en un DataFrame pandas. Elle est utile pour traiter des données structurées au format XML et peut gérer des fichiers contenant plusieurs niveaux de balises.

Importation :

import pandas as pd

Attributs :

Paramètre	Description
`path_or_buffer`	Le chemin vers le fichier XML ou l'URL du fichier XML à lire.
`xpath`	Expression XPath pour extraire un sous-ensemble spécifique du XML. Si non spécifié, le document entier est utilisé.
`namespaces`	Dictionnaire des espaces de noms XML à utiliser lors de la lecture.
`attrs`	Liste des attributs à extraire du fichier XML. Si `None`, les attributs ne sont pas inclus.
`parser`	Le moteur de parsing à utiliser pour analyser le fichier XML. Par défaut, `lxml`. D'autres moteurs comme `xml.etree.ElementTree` peuvent être utilisés.
`xpath`	Expression XPath pour extraire les données spécifiques du fichier XML.

Exemple de code :

import pandas as pd
import seaborn as sns

# Charger le dataset Titanic
titanic = sns.load_dataset('titanic')

# Enregistrement en XML
titanic.to_xml('titanic_dataset.xml', index=False)

# Lecture du fichier XML
df_xml = pd.read_xml('titanic_dataset.xml')

# Affichage des premières lignes
print(df_xml.head())

Explication du code :

import pandas as pd importe la bibliothèque pandas, renommée ici en pd, qui est couramment utilisée pour la manipulation et l’analyse de données. import seaborn as sns importe la bibliothèque seaborn, renommée ici en sns, qui fournit des jeux de données intégrés utiles à des fins d'analyse et d'exemples.

Charger le dataset Titanic

La fonction sns.load_dataset('titanic') charge le jeu de données Titanic intégré à seaborn et l’assigne à la variable titanic, sous la forme d'un DataFrame.

Enregistrer le dataset Titanic en format Parquet

La méthode to_parquet() permet d’enregistrer un DataFrame dans un fichier au format Parquet, un format de stockage optimisé pour les données volumineuses. Le paramètre index=False empêche l'écriture de la colonne d’index dans le fichier.

titanic.to_parquet('titanic_dataset.parquet', index=False) enregistre donc les données du DataFrame titanic dans un fichier 'titanic_dataset.parquet' en omettant la colonne d'index.

Lecture du fichier Parquet

La fonction pd.read_parquet() permet de lire un fichier Parquet et de le charger dans un DataFrame. Le fichier 'titanic_dataset.parquet' est ainsi chargé dans une nouvelle variable df_parquet.

Afficher les premières lignes du DataFrame

La méthode head() affiche les premières lignes du DataFrame, ce qui permet de vérifier la structure et le contenu des données lues à partir du fichier Parquet.

print(df_parquet.head()) affiche donc les premières lignes du DataFrame df_parquet.