Tokenization avec nltk.word_tokenize()
La tokenization avec nltk.word_tokenize() utilise la bibliothèque NLTK pour découper un texte en mots, en prenant en compte la ponctuation et les contractions, offrant ainsi une approche plus sophistiquée que la méthode basique split(). Elle permet de mieux gérer les particularités du langage naturel.
Fonctions :
-
nltk.word_tokenize()
nltk.word_tokenize() est une méthode plus sophistiquée que split() pour effectuer la tokenisation. Elle prend en compte la ponctuation et les mots composés, permettant une séparation plus précise du texte en tokens. Cette fonction fait partie de la bibliothèque nltk (Natural Language Toolkit).
Importation :
import nltk from nltk.tokenize import word_tokenize
Attributs :
Paramètre Description texte
La chaîne de texte à tokeniser language
Langue de traitement (facultatif, par défaut 'english') Exemple de code :
import nltk from nltk.tokenize import word_tokenize # Si vous n'avez pas encore téléchargé les ressources nécessaires nltk.download('punkt') # Exemple de texte texte = "Bonjour, comment allez-vous ? J'espère que tout va bien." # Tokenisation avec nltk.word_tokenize() tokens = word_tokenize(texte) print(tokens)
Explication du code :
- Téléchargement des ressources :
nltk.download('punkt')
télécharge les ressources nécessaires pour la tokenisation. - Tokenisation avec
word_tokenize()
:- Cette fonction découpe le texte en mots et ponctuation de manière plus précise que
split()
. - Elle gère aussi les abréviations, les contractions et la ponctuation correctement.
- Cette fonction découpe le texte en mots et ponctuation de manière plus précise que
🔎 Remarques
word_tokenize()
prend en compte les ponctuations et divise le texte en tokens de manière plus intelligente, par exemple, elle séparera correctement "J'espère" en "J" et "espère".- C’est une fonction idéale pour des textes naturels où la séparation simple par espace ne suffit pas.
- Pour utiliser cette fonction, vous devez installer la bibliothèque
nltk
et télécharger le modulepunkt
.
- Téléchargement des ressources :