Supprimer les espaces inutiles dans les chaînes
Dans l’analyse de données, les chaînes de caractères contenant des espaces superflus peuvent poser problème lors du traitement, de la comparaison ou de la modélisation. Ces espaces inutiles peuvent être présents en début, en fin, ou même au milieu des chaînes, et peuvent fausser les résultats ou entraîner des erreurs.
Supprimer ces espaces permet de normaliser les données textuelles, d’améliorer la qualité des analyses, et de faciliter les opérations telles que la recherche, le regroupement ou la fusion de données. Par exemple, une colonne contenant des noms avec des espaces en trop peut empêcher la reconnaissance correcte de doublons ou l’association avec d’autres bases de données.
Les techniques pour enlever ces espaces varient selon le contexte : suppression des espaces en début et fin (trim), réduction des espaces multiples au sein des chaînes, ou suppression totale des espaces. Ces opérations sont simples mais essentielles dans le nettoyage des données.
Cette page vous expliquera les différentes méthodes pour supprimer les espaces inutiles dans les chaînes de caractères, avec des exemples concrets en Python utilisant la bibliothèque pandas
ou les fonctions natives de manipulation de chaînes.
Fonctions :
-
str.strip()
La méthode str.strip() est utilisée pour supprimer les espaces (ou d'autres caractères spécifiés) au début et à la fin de chaque chaîne dans une Series de type chaîne. Elle est particulièrement utile pour nettoyer des données textuelles.
Importation :
import pandas as pd
Attributs :
Paramètre Type Description Valeur par défaut to_strip
str ou None Chaîne de caractères à supprimer des bords gauche et droit de chaque élément. Si None
, supprime les espaces blancs.None
Exemple de code :
import pandas as pd # Création d'un DataFrame data = { 'Nom': [' Alice ', ' Bob', 'Charlie '], 'Âge': [25, 30, 35] } df = pd.DataFrame(data) # Suppression des espaces autour des noms df['Nom'] = df['Nom'].str.strip() print(df)
Explication du code :
importe la bibliothèque pandas.
Création du DataFrame
Le dictionnairedata
contient des noms avec des espaces superflus au début ou à la fin des chaînes de la colonne'Nom'
.df = pd.DataFrame(data)
transforme ce dictionnaire en tableau de données.Nettoyage des chaînes de caractères
df['Nom'] = df['Nom'].str.strip()
utilise la méthodestr.strip()
pour supprimer les espaces au début et à la fin de chaque chaîne de la colonne'Nom'
.Affichage
print(df)
affiche le DataFrame avec les noms corrigés, sans espaces superflus.