Tokenization avec split() (approche basique)

La tokenization avec split() est une méthode simple pour diviser un texte en tokens, généralement des mots ou des sous-parties de mots. Elle repose sur la séparation d’une chaîne de caractères en fonction d’un délimiteur, comme un espace, une virgule ou tout autre caractère spécifique. Cette approche est basique et est souvent utilisée pour des tâches simples, mais elle peut ne pas gérer correctement des cas plus complexes, comme les contractions ou les ponctuations.

Fonctions :

  • split()

    La fonction split() permet de diviser une chaîne de texte en une liste de mots (tokens) en fonction d'un séparateur, généralement un espace. C’est une méthode basique mais efficace pour des cas simples de tokenisation.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Description
    sep Séparateur utilisé pour couper la chaîne (par défaut, un espace)
    maxsplit Nombre maximal de divisions (facultatif)
    expand Si True, retourne un DataFrame au lieu d'une liste

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame avec un texte
    df = pd.DataFrame({'texte': ['Bonjour tout le monde', 'Tokenisation est importante', 'Python est génial']})
    
    # Tokenisation basique avec split()
    df['tokens'] = df['texte'].str.split()
    print(df)

    Explication du code :

    1. Données : Le DataFrame df contient une colonne de textes à tokeniser.
    2. Tokenisation :
      • str.split() divise chaque chaîne de texte en fonction des espaces par défaut.
      • Le résultat est une liste de mots pour chaque ligne.

    🔎 Remarques

    • split() fonctionne très bien pour des textes simples où les tokens sont séparés par des espaces.
    • Pour des textes plus complexes (comme ceux avec des signes de ponctuation ou des mots composés), des bibliothèques spécialisées comme nltk ou spaCy peuvent être plus adaptées.