Lire un fichier Excel

La lecture d’un fichier Excel permet d’importer des données contenues dans des feuilles de calcul dans un DataFrame. La fonction pd.read_excel() de Pandas facilite cette tâche en permettant de lire des fichiers .xls et .xlsx directement. Elle offre des options pour spécifier quelle feuille importer, traiter les en-têtes, et ajuster les types de données des colonnes. Cette fonctionnalité est particulièrement utile pour travailler avec des données provenant de sources courantes dans des environnements professionnels ou académiques.

Fonctions :

pandas.read_excel()

Cette fonction permet de lire un fichier Excel (au format .xls ou .xlsx) et de le convertir en un DataFrame pandas. Elle supporte également la lecture de plusieurs feuilles dans un même fichier Excel.

Importation :

import pandas as pd

Attributs :

Paramètre	Description
`io`	Le chemin du fichier Excel ou l'URL vers le fichier à lire.
`sheet_name`	Le nom de la feuille à lire. Par défaut, la première feuille est lue. On peut spécifier le nom de la feuille ou l'indice de la feuille (0 pour la première feuille, 1 pour la deuxième, etc.).
`header`	Indice de la ligne qui contient les noms de colonnes. Par défaut, c'est la première ligne (0).
`index_col`	Colonne(s) à utiliser comme index du DataFrame. Par défaut, `None`.
`usecols`	Colonnes à lire. Si spécifié, seul un sous-ensemble de colonnes est chargé.
`dtype`	Dictionnaire de types de données à appliquer aux colonnes.
`skiprows`	Nombre de lignes à ignorer au début du fichier ou liste d'indices de lignes à ignorer.
`nrows`	Nombre de lignes à lire à partir du début du fichier.
`engine`</td	Moteur à utiliser pour lire le fichier, soit `xlrd` (par défaut), soit `openpyxl`.

Exemple de code :

import pandas as pd
import seaborn as sns

# Charger le dataset Titanic
titanic = sns.load_dataset('titanic')

# Enregistrer le dataset en fichier Excel
titanic.to_excel('titanic_dataset.xlsx', index=False)

# Lire le fichier Excel
df = pd.read_excel('titanic_dataset.xlsx')

# Afficher les 5 premières lignes
print(df.head())

Explication du code :

import pandas as pd importe la bibliothèque pandas, renommée ici en pd, utilisée pour la manipulation et l’analyse de données. import seaborn as sns importe la bibliothèque seaborn, renommée ici en sns, qui fournit des jeux de données intégrés comme Titanic.

Charger le dataset Titanic

La fonction sns.load_dataset('titanic') charge le jeu de données Titanic intégré à seaborn. Les données sont chargées dans un DataFrame nommé titanic.

Enregistrer le dataset Titanic au format Excel

La méthode to_excel() permet d’enregistrer un DataFrame dans un fichier Excel (.xlsx). Le paramètre index=False indique que la colonne d’index du DataFrame ne doit pas être incluse dans le fichier.

titanic.to_excel('titanic_dataset.xlsx', index=False) crée donc un fichier Excel contenant les données du Titanic, sans la colonne d’index.

Lecture du fichier Excel

La fonction pd.read_excel() lit un fichier Excel et retourne son contenu sous forme de DataFrame. Le fichier 'titanic_dataset.xlsx' est ainsi rechargé dans une nouvelle variable df.

Afficher les 5 premières lignes

La méthode head() affiche les 5 premières lignes du DataFrame df. Cela permet de vérifier le bon chargement des données à partir du fichier Excel.

print(df.head()) affiche donc un aperçu des données contenues dans le fichier Excel.