Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)

L’extraction des caractéristiques textuelles consiste à transformer un texte brut en informations structurées pouvant être utilisées dans des modèles d’analyse ou de machine learning. Cela peut inclure la mesure de la longueur du texte, l’extraction de mots-clés spécifiques, ou l’identification de la fréquence de certains termes. Ces caractéristiques peuvent aider à catégoriser, étiqueter ou classer des textes en fonction de leur contenu, de leur structure ou de leur style. Par exemple, on peut calculer le nombre de mots, vérifier la présence de mots-clés spécifiques ou utiliser des techniques comme la vectorisation pour analyser plus en profondeur les textes.

Fonctions :

  • Extraction des caractéristiques textuelles

    import pandas as pd

    Importation :

    import pandas as pd

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame avec une colonne de texte
    df = pd.DataFrame({
        'texte': ["L'analyse des données est essentielle.",
                  "Le machine learning transforme l'industrie.",
                  "Les modèles de deep learning sont puissants."]
    })
    
    # Extraction des caractéristiques textuelles
    df['longueur_texte'] = df['texte'].apply(len)  # Nombre de caractères
    df['nombre_mots'] = df['texte'].str.split().apply(len)  # Nombre de mots
    df['contient_machine'] = df['texte'].str.contains('machine')  # Présence du mot 'machine'
    df['occurence_learning'] = df['texte'].str.count('learning')  # Nombre d’occurrences de 'learning'
    
    print(df)

    Explication du code :

    1. Extraction de la longueur : .apply(len) compte le nombre total de caractères du texte.
    2. Nombre de mots : .str.split().apply(len) divise le texte en mots et compte leur nombre.
    3. Détection d'un mot-clé : .str.contains('mot') renvoie True si le texte contient un mot spécifique.
    4. Fréquence d’un mot : .str.count('mot') compte le nombre d’apparitions d’un mot donné.