Utiliser loc[] pour accéder à un sous-ensemble de données
Fonctions :
-
Accès à un sous-ensemble de données avec loc[]
La méthode loc[] de Pandas permet d'accéder à un sous-ensemble d'un DataFrame en sélectionnant des lignes et des colonnes par leurs étiquettes. Cette méthode est très flexible et permet de filtrer ou de découper des données de manière intuitive.
Importation :
import pandas as pd
Attributs :
Paramètre Description row_label
L'étiquette de la ligne à sélectionner. Peut être une valeur unique, un intervalle, ou une liste d'étiquettes. column_label
L'étiquette de la ou des colonnes à sélectionner. Peut être une valeur unique ou une liste d'étiquettes. Exemple de code :
import pandas as pd # Exemple de DataFrame data = { 'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'âge': [24, 30, 35, 40], 'score': [88, 92, 75, 85], 'ville': ['Paris', 'Lyon', 'Marseille', 'Paris'] } df = pd.DataFrame(data) # Accéder à une ligne et une colonne spécifique avec loc[] resultat_1 = df.loc[1, 'nom'] # Récupère la valeur de la colonne 'nom' à la ligne d'index 1 print("Nom à la ligne 1 :", resultat_1) # Accéder à un sous-ensemble de lignes et de colonnes avec loc[] resultat_2 = df.loc[0:2, ['nom', 'âge']] # Sélectionne les lignes 0 à 2 et les colonnes 'nom' et 'âge' print("\nSous-ensemble des lignes 0 à 2 et des colonnes 'nom' et 'âge' :") print(resultat_2) # Accéder à des lignes selon une condition avec loc[] resultat_3 = df.loc[df['âge'] > 30, ['nom', 'score']] # Sélectionne les lignes où l'âge est > 30 et les colonnes 'nom' et 'score' print("\nSous-ensemble des lignes où l'âge est supérieur à 30 et des colonnes 'nom' et 'score' :") print(resultat_3)
Explication du code :
- DataFrame : Le DataFrame est créé avec des informations fictives, comprenant des colonnes telles que le nom, l'âge, le score et la ville.
- Accès à une ligne et une colonne spécifique : La première opération utilise
loc[]
pour accéder à la valeur de la colonne'nom'
pour la ligne d'index 1. - Accès à un sous-ensemble de lignes et de colonnes : La deuxième opération utilise
loc[]
pour accéder aux lignes allant de l'index 0 à 2, et aux colonnes'nom'
et'âge'
. - Accès conditionnel : La troisième opération utilise une condition pour sélectionner les lignes où l'âge est supérieur à 30, et elle choisit les colonnes
'nom'
et'score'
.
Remarque :
- Slicing : Lorsque vous utilisez un intervalle de lignes, comme dans
loc[0:2]
, toutes les lignes spécifiées dans l'intervalle sont incluses (contrairement àiloc[]
qui exclut la ligne finale dans l'intervalle). - Accès à plusieurs colonnes : Vous pouvez sélectionner plusieurs colonnes en les passant sous forme de liste, comme
['nom', 'âge']
. - Conditions logiques : Vous pouvez également utiliser des conditions logiques pour filtrer les lignes, ce qui permet de créer des sous-ensembles dynamiques basés sur des critères spécifiques.