Lire un fichier XML
La lecture d’un fichier XML consiste à extraire des données structurées à partir d’un fichier au format XML et à les convertir en un format utilisable, comme un DataFrame. La fonction pd.read_xml() permet de charger un fichier XML dans Pandas, en l’interprétant comme une structure tabulaire. Elle permet de gérer des fichiers XML complexes, y compris ceux avec des éléments imbriqués, et de les transformer en un format plus adapté à l’analyse de données. Ce format est souvent utilisé pour l’échange de données entre différents systèmes et applications.
Fonctions :
-
pandas.read_xml()
Cette fonction permet de lire un fichier XML et de le convertir en un DataFrame pandas. Elle est utile pour traiter des données structurées au format XML et peut gérer des fichiers contenant plusieurs niveaux de balises.
Importation :
import pandas as pd
Attributs :
Paramètre Description path_or_buffer
Le chemin vers le fichier XML ou l'URL du fichier XML à lire. xpath
Expression XPath pour extraire un sous-ensemble spécifique du XML. Si non spécifié, le document entier est utilisé. namespaces
Dictionnaire des espaces de noms XML à utiliser lors de la lecture. attrs
Liste des attributs à extraire du fichier XML. Si None
, les attributs ne sont pas inclus.parser
Le moteur de parsing à utiliser pour analyser le fichier XML. Par défaut, lxml
. D'autres moteurs commexml.etree.ElementTree
peuvent être utilisés.xpath
Expression XPath pour extraire les données spécifiques du fichier XML. Exemple de code :
import pandas as pd # Lecture d'un fichier XML simple df = pd.read_xml('data.xml') # Lecture d'un fichier XML avec un XPath spécifique df_xpath = pd.read_xml('data.xml', xpath="//row") # Lecture d'un fichier XML avec des attributs spécifiques df_attrs = pd.read_xml('data.xml', attrs=['id', 'name']) # Affichage du DataFrame print(df.head()) print(df_xpath.head()) print(df_attrs.head())