Lire un fichier CSV

La lecture d’un fichier CSV permet d’importer des données tabulaires depuis un fichier texte séparé par des virgules (ou d’autres délimiteurs) dans un DataFrame. En utilisant la fonction pd.read_csv() de Pandas, il est possible de charger rapidement des fichiers CSV dans un format structuré pour les analyser et les manipuler. Ce format est couramment utilisé pour stocker des données et est compatible avec de nombreux outils d’analyse et de traitement de données.

Fonctions :

pd.read_csv()

Cette fonction permet de lire un fichier CSV et de le convertir en un DataFrame, facilitant ainsi l'analyse et le traitement des données. Elle offre de nombreuses options pour personnaliser l'importation, telles que le choix du délimiteur, la gestion des en-têtes, la sélection de colonnes spécifiques, la conversion des types de données et la gestion des dates.

Importation :

import pandas as pd

Attributs :

Paramètre	Type	Description	Valeur par défaut
`filepath_or_buffer`	str ou buffer	Chemin du fichier CSV ou objet similaire (ex : URL).	`None`
`sep`	str	Caractère délimitant les champs dans le fichier.	`','`
`header`	int, list ou None	Indique la ou les lignes à utiliser pour les noms de colonnes.	`infer`
`names`	list ou None	Liste de noms à utiliser pour les colonnes, utile si le fichier ne possède pas d’en-tête.	`None`
`index_col`	int, str, list ou None	Colonne(s) à utiliser comme index du DataFrame.	`None`
`usecols`	list ou callable	Sélectionne un sous-ensemble des colonnes à lire.	`None`
`dtype`	dict ou None	Dictionnaire permettant de forcer le type des colonnes.	`None`
`parse_dates`	list, dict ou bool	Liste ou dictionnaire indiquant les colonnes à convertir en format datetime.	`False`

Exemple de code :

import pandas as pd
import seaborn as sns

# Charger le dataset Titanic
titanic = sns.load_dataset('titanic')
# Enregistrer le dataset Titanic en fichier CSV
titanic.to_csv('titanic_dataset.csv', index=False)


# Lecture d'un fichier CSV avec le délimiteur par défaut (virgule) et la première ligne comme en-tête
df = pd.read_csv('titanic_dataset.csv', sep=',', header=0)

# Affichage des 5 premières lignes du DataFrame
print(df.head())

Explication du code :

import pandas as pd importe la bibliothèque pandas, renommée ici en pd pour simplifier son utilisation dans le code. import seaborn as sns importe la bibliothèque seaborn, renommée en sns, qui permet de charger des jeux de données intégrés, comme celui du Titanic.

Charger le dataset Titanic

La fonction sns.load_dataset('titanic') charge le jeu de données Titanic sous forme d’un DataFrame pandas. titanic = sns.load_dataset('titanic') crée une variable titanic qui contient ce DataFrame.

Enregistrer le dataset Titanic en fichier CSV

La méthode to_csv() de pandas permet d’enregistrer un DataFrame sous forme de fichier CSV. titanic.to_csv('titanic_dataset.csv', index=False) crée un fichier nommé titanic_dataset.csv sans enregistrer les index des lignes (index=False).

Lire un fichier CSV dans un DataFrame

La fonction pd.read_csv() lit un fichier CSV et le convertit en DataFrame. df = pd.read_csv('titanic_dataset.csv', sep=',', header=0) lit le fichier CSV avec la virgule comme séparateur (par défaut) et considère la première ligne comme en-tête (header=0).

Afficher les premières lignes du DataFrame

La méthode head() affiche les 5 premières lignes du DataFrame pour avoir un aperçu rapide des données. print(df.head()) affiche donc ces premières lignes dans la console.