Lire un fichier XML
La lecture d’un fichier XML consiste à extraire des données structurées à partir d’un fichier au format XML et à les convertir en un format utilisable, comme un DataFrame. La fonction pd.read_xml() permet de charger un fichier XML dans Pandas, en l’interprétant comme une structure tabulaire. Elle permet de gérer des fichiers XML complexes, y compris ceux avec des éléments imbriqués, et de les transformer en un format plus adapté à l’analyse de données. Ce format est souvent utilisé pour l’échange de données entre différents systèmes et applications.
Fonctions :
-
pandas.read_xml()
Cette fonction permet de lire un fichier XML et de le convertir en un DataFrame pandas. Elle est utile pour traiter des données structurées au format XML et peut gérer des fichiers contenant plusieurs niveaux de balises.
Importation :
import pandas as pd
Attributs :
Paramètre Description path_or_buffer
Le chemin vers le fichier XML ou l'URL du fichier XML à lire. xpath
Expression XPath pour extraire un sous-ensemble spécifique du XML. Si non spécifié, le document entier est utilisé. namespaces
Dictionnaire des espaces de noms XML à utiliser lors de la lecture. attrs
Liste des attributs à extraire du fichier XML. Si None
, les attributs ne sont pas inclus.parser
Le moteur de parsing à utiliser pour analyser le fichier XML. Par défaut, lxml
. D'autres moteurs commexml.etree.ElementTree
peuvent être utilisés.xpath
Expression XPath pour extraire les données spécifiques du fichier XML. Exemple de code :
import pandas as pd import seaborn as sns # Charger le dataset Titanic titanic = sns.load_dataset('titanic') # Enregistrement en XML titanic.to_xml('titanic_dataset.xml', index=False) # Lecture du fichier XML df_xml = pd.read_xml('titanic_dataset.xml') # Affichage des premières lignes print(df_xml.head())
Explication du code :
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
, qui est couramment utilisée pour la manipulation et l’analyse de données.import seaborn as sns
importe la bibliothèque seaborn, renommée ici ensns
, qui fournit des jeux de données intégrés utiles à des fins d'analyse et d'exemples.Charger le dataset Titanic
La fonction
sns.load_dataset('titanic')
charge le jeu de données Titanic intégré à seaborn et l’assigne à la variabletitanic
, sous la forme d'un DataFrame.Enregistrer le dataset Titanic en format Parquet
La méthode
to_parquet()
permet d’enregistrer un DataFrame dans un fichier au format Parquet, un format de stockage optimisé pour les données volumineuses. Le paramètreindex=False
empêche l'écriture de la colonne d’index dans le fichier.titanic.to_parquet('titanic_dataset.parquet', index=False)
enregistre donc les données du DataFrametitanic
dans un fichier'titanic_dataset.parquet'
en omettant la colonne d'index.Lecture du fichier Parquet
La fonction
pd.read_parquet()
permet de lire un fichier Parquet et de le charger dans un DataFrame. Le fichier'titanic_dataset.parquet'
est ainsi chargé dans une nouvelle variabledf_parquet
.Afficher les premières lignes du DataFrame
La méthode
head()
affiche les premières lignes du DataFrame, ce qui permet de vérifier la structure et le contenu des données lues à partir du fichier Parquet.print(df_parquet.head())
affiche donc les premières lignes du DataFramedf_parquet
.