Lire un fichier Excel

La lecture d’un fichier Excel permet d’importer des données contenues dans des feuilles de calcul dans un DataFrame. La fonction pd.read_excel() de Pandas facilite cette tâche en permettant de lire des fichiers .xls et .xlsx directement. Elle offre des options pour spécifier quelle feuille importer, traiter les en-têtes, et ajuster les types de données des colonnes. Cette fonctionnalité est particulièrement utile pour travailler avec des données provenant de sources courantes dans des environnements professionnels ou académiques.

Fonctions :

  • pandas.read_excel()

    Cette fonction permet de lire un fichier Excel (au format .xls ou .xlsx) et de le convertir en un DataFrame pandas. Elle supporte également la lecture de plusieurs feuilles dans un même fichier Excel.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre
    Description
    io Le chemin du fichier Excel ou l'URL vers le fichier à lire.
    sheet_name Le nom de la feuille à lire. Par défaut, la première feuille est lue. On peut spécifier le nom de la feuille ou l'indice de la feuille (0 pour la première feuille, 1 pour la deuxième, etc.).
    header Indice de la ligne qui contient les noms de colonnes. Par défaut, c'est la première ligne (0).
    index_col Colonne(s) à utiliser comme index du DataFrame. Par défaut, None.
    usecols Colonnes à lire. Si spécifié, seul un sous-ensemble de colonnes est chargé.
    dtype Dictionnaire de types de données à appliquer aux colonnes.
    skiprows Nombre de lignes à ignorer au début du fichier ou liste d'indices de lignes à ignorer.
    nrows Nombre de lignes à lire à partir du début du fichier.
    engine</td Moteur à utiliser pour lire le fichier, soit xlrd (par défaut), soit openpyxl.

    Exemple de code :

    import pandas as pd
    import seaborn as sns
    
    # Charger le dataset Titanic
    titanic = sns.load_dataset('titanic')
    
    # Enregistrer le dataset en fichier Excel
    titanic.to_excel('titanic_dataset.xlsx', index=False)
    
    # Lire le fichier Excel
    df = pd.read_excel('titanic_dataset.xlsx')
    
    # Afficher les 5 premières lignes
    print(df.head())
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas, renommée ici en pd, utilisée pour la manipulation et l’analyse de données. import seaborn as sns importe la bibliothèque seaborn, renommée ici en sns, qui fournit des jeux de données intégrés comme Titanic.

    Charger le dataset Titanic

    La fonction sns.load_dataset('titanic') charge le jeu de données Titanic intégré à seaborn. Les données sont chargées dans un DataFrame nommé titanic.

    Enregistrer le dataset Titanic au format Excel

    La méthode to_excel() permet d’enregistrer un DataFrame dans un fichier Excel (.xlsx). Le paramètre index=False indique que la colonne d’index du DataFrame ne doit pas être incluse dans le fichier.

    titanic.to_excel('titanic_dataset.xlsx', index=False) crée donc un fichier Excel contenant les données du Titanic, sans la colonne d’index.

    Lecture du fichier Excel

    La fonction pd.read_excel() lit un fichier Excel et retourne son contenu sous forme de DataFrame. Le fichier 'titanic_dataset.xlsx' est ainsi rechargé dans une nouvelle variable df.

    Afficher les 5 premières lignes

    La méthode head() affiche les 5 premières lignes du DataFrame df. Cela permet de vérifier le bon chargement des données à partir du fichier Excel.

    print(df.head()) affiche donc un aperçu des données contenues dans le fichier Excel.