Lire un fichier CSV

La lecture d’un fichier CSV permet d’importer des données tabulaires depuis un fichier texte séparé par des virgules (ou d’autres délimiteurs) dans un DataFrame. En utilisant la fonction pd.read_csv() de Pandas, il est possible de charger rapidement des fichiers CSV dans un format structuré pour les analyser et les manipuler. Ce format est couramment utilisé pour stocker des données et est compatible avec de nombreux outils d’analyse et de traitement de données.

Fonctions :

  • pd.read_csv()

    Cette fonction permet de lire un fichier CSV et de le convertir en un DataFrame, facilitant ainsi l'analyse et le traitement des données. Elle offre de nombreuses options pour personnaliser l'importation, telles que le choix du délimiteur, la gestion des en-têtes, la sélection de colonnes spécifiques, la conversion des types de données et la gestion des dates.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Type Description Valeur par défaut
    filepath_or_buffer str ou buffer Chemin du fichier CSV ou objet similaire (ex : URL). None
    sep str Caractère délimitant les champs dans le fichier. ','
    header int, list ou None Indique la ou les lignes à utiliser pour les noms de colonnes. infer
    names list ou None Liste de noms à utiliser pour les colonnes, utile si le fichier ne possède pas d’en-tête. None
    index_col int, str, list ou None Colonne(s) à utiliser comme index du DataFrame. None
    usecols list ou callable Sélectionne un sous-ensemble des colonnes à lire. None
    dtype dict ou None Dictionnaire permettant de forcer le type des colonnes. None
    parse_dates list, dict ou bool Liste ou dictionnaire indiquant les colonnes à convertir en format datetime. False

    Exemple de code :

    import pandas as pd
    
    # Lecture d'un fichier CSV avec le délimiteur par défaut (virgule) et la première ligne comme en-tête
    df = pd.read_csv('chemin/vers/mon_fichier.csv', sep=',', header=0)
    
    # Affichage des 5 premières lignes du DataFrame
    print(df.head())