Lire un fichier Excel

La lecture d’un fichier Excel permet d’importer des données contenues dans des feuilles de calcul dans un DataFrame. La fonction pd.read_excel() de Pandas facilite cette tâche en permettant de lire des fichiers .xls et .xlsx directement. Elle offre des options pour spécifier quelle feuille importer, traiter les en-têtes, et ajuster les types de données des colonnes. Cette fonctionnalité est particulièrement utile pour travailler avec des données provenant de sources courantes dans des environnements professionnels ou académiques.

Fonctions :

  • pandas.read_excel()

    Cette fonction permet de lire un fichier Excel (au format .xls ou .xlsx) et de le convertir en un DataFrame pandas. Elle supporte également la lecture de plusieurs feuilles dans un même fichier Excel.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre
    Description
    io Le chemin du fichier Excel ou l'URL vers le fichier à lire.
    sheet_name Le nom de la feuille à lire. Par défaut, la première feuille est lue. On peut spécifier le nom de la feuille ou l'indice de la feuille (0 pour la première feuille, 1 pour la deuxième, etc.).
    header Indice de la ligne qui contient les noms de colonnes. Par défaut, c'est la première ligne (0).
    index_col Colonne(s) à utiliser comme index du DataFrame. Par défaut, None.
    usecols Colonnes à lire. Si spécifié, seul un sous-ensemble de colonnes est chargé.
    dtype Dictionnaire de types de données à appliquer aux colonnes.
    skiprows Nombre de lignes à ignorer au début du fichier ou liste d'indices de lignes à ignorer.
    nrows Nombre de lignes à lire à partir du début du fichier.
    engine</td Moteur à utiliser pour lire le fichier, soit xlrd (par défaut), soit openpyxl.

    Exemple de code :

    import pandas as pd
    
    # Lecture d'un fichier Excel avec une seule feuille
    df = pd.read_excel('data.xlsx')
    
    # Lecture d'un fichier Excel avec une feuille spécifique
    df_sheet = pd.read_excel('data.xlsx', sheet_name='Sheet1')
    
    # Lecture d'un fichier Excel avec une colonne comme index
    df_indexed = pd.read_excel('data.xlsx', index_col=0)
    
    # Lecture d'un fichier Excel avec un sous-ensemble de colonnes
    df_cols = pd.read_excel('data.xlsx', usecols=['A', 'B', 'C'])
    
    # Affichage du DataFrame
    print(df.head())
    print(df_sheet.head())
    print(df_indexed.head())
    print(df_cols.head())