Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)
L’extraction des caractéristiques textuelles consiste à transformer un texte brut en informations structurées pouvant être utilisées dans des modèles d’analyse ou de machine learning. Cela peut inclure la mesure de la longueur du texte, l’extraction de mots-clés spécifiques, ou l’identification de la fréquence de certains termes. Ces caractéristiques peuvent aider à catégoriser, étiqueter ou classer des textes en fonction de leur contenu, de leur structure ou de leur style. Par exemple, on peut calculer le nombre de mots, vérifier la présence de mots-clés spécifiques ou utiliser des techniques comme la vectorisation pour analyser plus en profondeur les textes.
Fonctions :
-
Extraction des caractéristiques textuelles
import pandas as pd
Importation :
import pandas as pd
Exemple de code :
import pandas as pd # Création d'un DataFrame avec une colonne de texte df = pd.DataFrame({ 'texte': ["L'analyse des données est essentielle.", "Le machine learning transforme l'industrie.", "Les modèles de deep learning sont puissants."] }) # Extraction des caractéristiques textuelles df['longueur_texte'] = df['texte'].apply(len) # Nombre de caractères df['nombre_mots'] = df['texte'].str.split().apply(len) # Nombre de mots df['contient_machine'] = df['texte'].str.contains('machine') # Présence du mot 'machine' df['occurence_learning'] = df['texte'].str.count('learning') # Nombre d’occurrences de 'learning' print(df)
Explication du code :
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
pour simplifier son utilisation dans le code.Création d'un DataFrame avec une colonne de texte
Un DataFrame
df
est créé avec une colonne'texte'
contenant une liste de chaînes de caractères. Ces chaînes représentent des phrases qui seront analysées pour extraire certaines caractéristiques textuelles.Extraction des caractéristiques textuelles
- Nombre de caractères : La méthode
apply(len)
est utilisée pour calculer le nombre de caractères de chaque texte dans la colonne'texte'
. Le résultat est stocké dans la nouvelle colonne'longueur_texte'
. - Nombre de mots : La méthode
str.split()
découpe chaque texte en mots, etapply(len)
calcule le nombre de mots dans chaque texte. Le résultat est assigné à la colonne'nombre_mots'
. - Présence du mot 'machine' : La méthode
str.contains('machine')
vérifie si le mot 'machine' est présent dans chaque texte. Cela renvoieTrue
si le mot est présent etFalse
sinon. Le résultat est stocké dans la colonne'contient_machine'
. - Nombre d’occurrences de 'learning' : La méthode
str.count('learning')
compte le nombre d’occurrences du mot 'learning' dans chaque texte. Le résultat est assigné à la colonne'occurence_learning'
.
Affichage du DataFrame
La fonction
print(df)
affiche le DataFramedf
, qui contient désormais les caractéristiques extraites pour chaque texte : le nombre de caractères, le nombre de mots, la présence du mot 'machine', et le nombre d'occurrences de 'learning'. - Nombre de caractères : La méthode