Lire un fichier Excel
La lecture d’un fichier Excel permet d’importer des données contenues dans des feuilles de calcul dans un DataFrame. La fonction pd.read_excel() de Pandas facilite cette tâche en permettant de lire des fichiers .xls et .xlsx directement. Elle offre des options pour spécifier quelle feuille importer, traiter les en-têtes, et ajuster les types de données des colonnes. Cette fonctionnalité est particulièrement utile pour travailler avec des données provenant de sources courantes dans des environnements professionnels ou académiques.
Fonctions :
-
pandas.read_excel()
Cette fonction permet de lire un fichier Excel (au format .xls ou .xlsx) et de le convertir en un DataFrame pandas. Elle supporte également la lecture de plusieurs feuilles dans un même fichier Excel.
Importation :
import pandas as pd
Attributs :
Paramètre
Description
io
Le chemin du fichier Excel ou l'URL vers le fichier à lire. sheet_name
Le nom de la feuille à lire. Par défaut, la première feuille est lue. On peut spécifier le nom de la feuille ou l'indice de la feuille (0 pour la première feuille, 1 pour la deuxième, etc.). header
Indice de la ligne qui contient les noms de colonnes. Par défaut, c'est la première ligne (0). index_col
Colonne(s) à utiliser comme index du DataFrame. Par défaut, None
.usecols
Colonnes à lire. Si spécifié, seul un sous-ensemble de colonnes est chargé. dtype
Dictionnaire de types de données à appliquer aux colonnes. skiprows
Nombre de lignes à ignorer au début du fichier ou liste d'indices de lignes à ignorer. nrows
Nombre de lignes à lire à partir du début du fichier. engine
</tdMoteur à utiliser pour lire le fichier, soit xlrd
(par défaut), soitopenpyxl
.Exemple de code :
import pandas as pd import seaborn as sns # Charger le dataset Titanic titanic = sns.load_dataset('titanic') # Enregistrer le dataset en fichier Excel titanic.to_excel('titanic_dataset.xlsx', index=False) # Lire le fichier Excel df = pd.read_excel('titanic_dataset.xlsx') # Afficher les 5 premières lignes print(df.head())
Explication du code :
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
, utilisée pour la manipulation et l’analyse de données.import seaborn as sns
importe la bibliothèque seaborn, renommée ici ensns
, qui fournit des jeux de données intégrés comme Titanic.Charger le dataset Titanic
La fonction
sns.load_dataset('titanic')
charge le jeu de données Titanic intégré à seaborn. Les données sont chargées dans un DataFrame nommétitanic
.Enregistrer le dataset Titanic au format Excel
La méthode
to_excel()
permet d’enregistrer un DataFrame dans un fichier Excel (.xlsx). Le paramètreindex=False
indique que la colonne d’index du DataFrame ne doit pas être incluse dans le fichier.titanic.to_excel('titanic_dataset.xlsx', index=False)
crée donc un fichier Excel contenant les données du Titanic, sans la colonne d’index.Lecture du fichier Excel
La fonction
pd.read_excel()
lit un fichier Excel et retourne son contenu sous forme de DataFrame. Le fichier'titanic_dataset.xlsx'
est ainsi rechargé dans une nouvelle variabledf
.Afficher les 5 premières lignes
La méthode
head()
affiche les 5 premières lignes du DataFramedf
. Cela permet de vérifier le bon chargement des données à partir du fichier Excel.print(df.head())
affiche donc un aperçu des données contenues dans le fichier Excel.