Tokenization avec nltk.word_tokenize()
La tokenization avec nltk.word_tokenize() utilise la bibliothèque NLTK pour découper un texte en mots, en prenant en compte la ponctuation et les contractions, offrant ainsi une approche plus sophistiquée que la méthode basique split(). Elle permet de mieux gérer les particularités du langage naturel.
Fonctions :
-
nltk.word_tokenize()
nltk.word_tokenize() est une méthode plus sophistiquée que split() pour effectuer la tokenisation. Elle prend en compte la ponctuation et les mots composés, permettant une séparation plus précise du texte en tokens. Cette fonction fait partie de la bibliothèque nltk (Natural Language Toolkit).
Importation :
from nltk.tokenize import TreebankWordTokenizer
Attributs :
Paramètre Description texte
La chaîne de texte à tokeniser language
Langue de traitement (facultatif, par défaut 'english') Exemple de code :
import nltk nltk.download('punkt_tab') from nltk.tokenize import word_tokenize texte = "Bonjour! Comment ça va aujourd'hui?" tokens = word_tokenize(texte)
Explication du code :
- import nltk : Cette ligne importe la bibliothèque nltk (Natural Language Toolkit), qui est une bibliothèque Python utilisée pour le traitement du langage naturel.
- nltk.download('punkt_tab') : Cette commande télécharge le paquet
punkt_tab
nécessaire pour la tokenisation des phrases et des mots. Ce paquet contient les modèles et règles permettant de segmenter le texte en tokens (mots, ponctuations). - from nltk.tokenize import word_tokenize : Cette ligne importe la fonction
word_tokenize
depuis le modulenltk.tokenize
. Cette fonction permet de découper un texte en une liste de mots et de ponctuations. - texte = "Bonjour! Comment ça va aujourd'hui?" : Cette ligne crée une variable
texte
qui contient une chaîne de caractères, ici une phrase en français. - tokens = word_tokenize(texte) : Cette ligne utilise la fonction
word_tokenize
pour découper la chaînetexte
en une liste de tokens (mots et signes de ponctuation). Le résultat est stocké dans la variabletokens
.