Tokenization avec nltk.word_tokenize()

La tokenization avec nltk.word_tokenize() utilise la bibliothèque NLTK pour découper un texte en mots, en prenant en compte la ponctuation et les contractions, offrant ainsi une approche plus sophistiquée que la méthode basique split(). Elle permet de mieux gérer les particularités du langage naturel.

Fonctions :

  • nltk.word_tokenize()

    nltk.word_tokenize() est une méthode plus sophistiquée que split() pour effectuer la tokenisation. Elle prend en compte la ponctuation et les mots composés, permettant une séparation plus précise du texte en tokens. Cette fonction fait partie de la bibliothèque nltk (Natural Language Toolkit).

    Importation :

    from nltk.tokenize import TreebankWordTokenizer

    Attributs :

    Paramètre Description
    texte La chaîne de texte à tokeniser
    language Langue de traitement (facultatif, par défaut 'english')

    Exemple de code :

    import nltk
    nltk.download('punkt_tab')
    
    from nltk.tokenize import word_tokenize
    
    texte = "Bonjour! Comment ça va aujourd'hui?"
    tokens = word_tokenize(texte)
    Résultat du code

    Explication du code :

    • import nltk : Cette ligne importe la bibliothèque nltk (Natural Language Toolkit), qui est une bibliothèque Python utilisée pour le traitement du langage naturel.
    • nltk.download('punkt_tab') : Cette commande télécharge le paquet punkt_tab nécessaire pour la tokenisation des phrases et des mots. Ce paquet contient les modèles et règles permettant de segmenter le texte en tokens (mots, ponctuations).
    • from nltk.tokenize import word_tokenize : Cette ligne importe la fonction word_tokenize depuis le module nltk.tokenize. Cette fonction permet de découper un texte en une liste de mots et de ponctuations.
    • texte = "Bonjour! Comment ça va aujourd'hui?" : Cette ligne crée une variable texte qui contient une chaîne de caractères, ici une phrase en français.
    • tokens = word_tokenize(texte) : Cette ligne utilise la fonction word_tokenize pour découper la chaîne texte en une liste de tokens (mots et signes de ponctuation). Le résultat est stocké dans la variable tokens.