Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)

L’extraction des caractéristiques textuelles consiste à transformer un texte brut en informations structurées pouvant être utilisées dans des modèles d’analyse ou de machine learning. Cela peut inclure la mesure de la longueur du texte, l’extraction de mots-clés spécifiques, ou l’identification de la fréquence de certains termes. Ces caractéristiques peuvent aider à catégoriser, étiqueter ou classer des textes en fonction de leur contenu, de leur structure ou de leur style. Par exemple, on peut calculer le nombre de mots, vérifier la présence de mots-clés spécifiques ou utiliser des techniques comme la vectorisation pour analyser plus en profondeur les textes.

Fonctions :

  • Extraction des caractéristiques textuelles

    import pandas as pd

    Importation :

    import pandas as pd

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame avec une colonne de texte
    df = pd.DataFrame({
        'texte': ["L'analyse des données est essentielle.",
                  "Le machine learning transforme l'industrie.",
                  "Les modèles de deep learning sont puissants."]
    })
    
    # Extraction des caractéristiques textuelles
    df['longueur_texte'] = df['texte'].apply(len)  # Nombre de caractères
    df['nombre_mots'] = df['texte'].str.split().apply(len)  # Nombre de mots
    df['contient_machine'] = df['texte'].str.contains('machine')  # Présence du mot 'machine'
    df['occurence_learning'] = df['texte'].str.count('learning')  # Nombre d’occurrences de 'learning'
    
    print(df)
    Résultat du code

    Explication du code :

    import pandas as pd importe la bibliothèque pandas, renommée ici en pd pour simplifier son utilisation dans le code.

    Création d'un DataFrame avec une colonne de texte

    Un DataFrame df est créé avec une colonne 'texte' contenant une liste de chaînes de caractères. Ces chaînes représentent des phrases qui seront analysées pour extraire certaines caractéristiques textuelles.

    Extraction des caractéristiques textuelles
    • Nombre de caractères : La méthode apply(len) est utilisée pour calculer le nombre de caractères de chaque texte dans la colonne 'texte'. Le résultat est stocké dans la nouvelle colonne 'longueur_texte'.
    • Nombre de mots : La méthode str.split() découpe chaque texte en mots, et apply(len) calcule le nombre de mots dans chaque texte. Le résultat est assigné à la colonne 'nombre_mots'.
    • Présence du mot 'machine' : La méthode str.contains('machine') vérifie si le mot 'machine' est présent dans chaque texte. Cela renvoie True si le mot est présent et False sinon. Le résultat est stocké dans la colonne 'contient_machine'.
    • Nombre d’occurrences de 'learning' : La méthode str.count('learning') compte le nombre d’occurrences du mot 'learning' dans chaque texte. Le résultat est assigné à la colonne 'occurence_learning'.
    Affichage du DataFrame

    La fonction print(df) affiche le DataFrame df, qui contient désormais les caractéristiques extraites pour chaque texte : le nombre de caractères, le nombre de mots, la présence du mot 'machine', et le nombre d'occurrences de 'learning'.