Tokenization avec split() (approche basique)

La tokenization avec split() est une méthode simple pour diviser un texte en tokens, généralement des mots ou des sous-parties de mots. Elle repose sur la séparation d’une chaîne de caractères en fonction d’un délimiteur, comme un espace, une virgule ou tout autre caractère spécifique. Cette approche est basique et est souvent utilisée pour des tâches simples, mais elle peut ne pas gérer correctement des cas plus complexes, comme les contractions ou les ponctuations.

Fonctions :

split()

La fonction split() permet de diviser une chaîne de texte en une liste de mots (tokens) en fonction d'un séparateur, généralement un espace. C’est une méthode basique mais efficace pour des cas simples de tokenisation.

Importation :

import pandas as pd

Attributs :

Paramètre	Description
`sep`	Séparateur utilisé pour couper la chaîne (par défaut, un espace)
`maxsplit`	Nombre maximal de divisions (facultatif)
`expand`	Si `True`, retourne un DataFrame au lieu d'une liste

Exemple de code :

import pandas as pd

# Création d'un DataFrame avec un texte
df = pd.DataFrame({'texte': ['Bonjour tout le monde', 'Tokenisation est importante', 'Python est génial']})

# Tokenisation basique avec split()
df['tokens'] = df['texte'].str.split()
print(df)

Explication du code :

Importation de la bibliothèque

import pandas as pd

Cette ligne importe la bibliothèque pandas, renommée ici en pd pour simplifier son utilisation dans le code.

Création d'un DataFrame avec un texte

df = pd.DataFrame({'texte': ['Bonjour tout le monde', 'Tokenisation est importante', 'Python est génial']})

Cette instruction crée un objet DataFrame contenant une colonne nommée texte, composée de trois chaînes de caractères.

Tokenisation basique avec split()

df['tokens'] = df['texte'].str.split()

Cette ligne applique la méthode split() sur chaque chaîne de la colonne texte, découpant les phrases en listes de mots (tokens) en se basant sur les espaces.

Une nouvelle colonne tokens est ainsi créée dans le DataFrame, contenant les listes de mots résultantes.

Affichage du DataFrame

print(df)

Cette instruction affiche le contenu du DataFrame, permettant de visualiser à la fois les phrases originales et leur version tokenisée.