Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)
L’extraction des caractéristiques textuelles consiste à transformer un texte brut en informations structurées pouvant être utilisées dans des modèles d’analyse ou de machine learning. Cela peut inclure la mesure de la longueur du texte, l’extraction de mots-clés spécifiques, ou l’identification de la fréquence de certains termes. Ces caractéristiques peuvent aider à catégoriser, étiqueter ou classer des textes en fonction de leur contenu, de leur structure ou de leur style. Par exemple, on peut calculer le nombre de mots, vérifier la présence de mots-clés spécifiques ou utiliser des techniques comme la vectorisation pour analyser plus en profondeur les textes.
Fonctions :
-
Extraction des caractéristiques textuelles
import pandas as pd
Importation :
import pandas as pd
Exemple de code :
import pandas as pd # Création d'un DataFrame avec une colonne de texte df = pd.DataFrame({ 'texte': ["L'analyse des données est essentielle.", "Le machine learning transforme l'industrie.", "Les modèles de deep learning sont puissants."] }) # Extraction des caractéristiques textuelles df['longueur_texte'] = df['texte'].apply(len) # Nombre de caractères df['nombre_mots'] = df['texte'].str.split().apply(len) # Nombre de mots df['contient_machine'] = df['texte'].str.contains('machine') # Présence du mot 'machine' df['occurence_learning'] = df['texte'].str.count('learning') # Nombre d’occurrences de 'learning' print(df)
Explication du code :
- Extraction de la longueur :
.apply(len)
compte le nombre total de caractères du texte. - Nombre de mots :
.str.split().apply(len)
divise le texte en mots et compte leur nombre. - Détection d'un mot-clé :
.str.contains('mot')
renvoieTrue
si le texte contient un mot spécifique. - Fréquence d’un mot :
.str.count('mot')
compte le nombre d’apparitions d’un mot donné.
- Extraction de la longueur :