Tableau de fréquence
Fonctions :
-
Fréquence absolue: value_counts()
: La fonction value_counts() de pandas permet de calculer la fréquence absolue des différentes valeurs dans une colonne ou une série de données. Elle retourne un objet Series contenant le comptage de chaque valeur unique dans l'ordre décroissant. Cette fonction est très utile pour analyser la répartition des catégories ou des valeurs dans un jeu de données.
Importation :
import pandas as pd
Attributs :
Nom Type Description normalize bool, optionnel Si True, retourne les fréquences relatives au lieu des comptes absolus. sort bool, optionnel Si True (par défaut), trie les résultats par fréquence décroissante. Si False, les résultats sont retournés dans l'ordre d'apparition des valeurs dans la série. ascending bool, optionnel Si True, trie les résultats par fréquence croissante. Par défaut, c'est False (tri décroissant). bins int, optionnel Divise les données continues en intervalles (bins) pour calculer les fréquences des intervalles plutôt que des valeurs individuelles. Utile pour les données numériques continues. dropna bool, optionnel Si True (par défaut), les valeurs NaN sont exclues du comptage. Si False, les valeurs NaN sont incluses dans les résultats. Exemple de code :
import pandas as pd # Données d'exemple data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B']) # Calcul de la fréquence absolue freq = data.value_counts() # Affichage des résultats print(freq)
Explication du code :
La ligne
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
, afin de faciliter la manipulation de données sous forme de séries ou de tableaux.Données d’exemple
data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B'])
crée une Série pandas contenant une liste de catégories représentées par les lettres'A'
,'B'
et'C'
.Calcul de la fréquence absolue
freq = data.value_counts()
calcule la fréquence absolue de chaque valeur unique présente dans la série. Cela signifie qu’elle compte combien de fois chaque catégorie apparaît.Affichage des résultats
print(freq)
affiche les fréquences absolues de chaque catégorie, triées par défaut par ordre décroissant. -
Fréquence relative: value_counts(normalize=True)
La fonction value_counts(normalize=True) de pandas calcule la fréquence relative des valeurs dans une série. Contrairement à la fonction de base value_counts(), qui retourne le comptage absolu des occurrences, en passant normalize=True, cette fonction retourne la proportion de chaque valeur dans l'ensemble des données sous forme de pourcentage. Cela permet de comprendre la distribution des données de manière relative.
Importation :
import pandas as pd
Attributs :
Nom Type Description normalize bool, optionnel Si True, retourne les fréquences relatives au lieu des comptes absolus (proportion). Par défaut, False. sort bool, optionnel Si True (par défaut), trie les résultats par fréquence décroissante. Si False, les résultats sont retournés dans l'ordre d'apparition des valeurs dans la série. ascending bool, optionnel Si True, trie les résultats par fréquence croissante. Par défaut, c'est False (tri décroissant). bins int, optionnel Divise les données continues en intervalles (bins) pour calculer les fréquences des intervalles plutôt que des valeurs individuelles. dropna bool, optionnel Si True (par défaut), exclut les valeurs NaN du comptage. Si False, les NaN sont inclus dans les résultats. Exemple de code :
import pandas as pd # Données d'exemple data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B']) # Calcul de la fréquence relative freq_relative = data.value_counts(normalize=True) # Affichage des résultats print(freq_relative)
Explication du code :
La ligne
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
, utilisée pour manipuler facilement des données sous forme de séries ou de tableaux.Données d’exemple
data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B'])
crée une Série pandas contenant une liste de catégories représentées par les lettres'A'
,'B'
et'C'
.Calcul de la fréquence relative
freq_relative = data.value_counts(normalize=True)
calcule la fréquence relative de chaque catégorie, c’est-à-dire la proportion d’occurrences de chaque valeur par rapport au total.Le paramètre
normalize=True
indique que les fréquences doivent être exprimées en pourcentage (sous forme décimale), et non en valeur absolue.Affichage des résultats
print(freq_relative)
affiche les fréquences relatives de chaque catégorie, triées par défaut par ordre décroissant. -
Fréquence cumulée: cumsum()
La fonction cumsum() de pandas calcule la somme cumulative des éléments d'une série ou d'une colonne, c'est-à-dire qu'elle retourne une nouvelle série où chaque élément est la somme de tous les éléments précédents, y compris lui-même. Cette fonction est particulièrement utile pour calculer la fréquence cumulée dans le cadre de l'analyse des données.
Importation :
import pandas as pd
Attributs :
Nom Type Description axis int, optionnel Définit l'axe le long duquel effectuer la somme cumulative. Par défaut, `axis=0` pour les séries. skipna bool, optionnel Si True (par défaut), ignore les valeurs NaN dans le calcul. Si False, les valeurs NaN provoquent la propagation des NaN dans le résultat. dtype type, optionnel Permet de spécifier le type de données du résultat. Par défaut, il est déterminé automatiquement. out ndarray, optionnel Permet de spécifier un tableau dans lequel stocker le résultat de la somme cumulative. Exemple de code :
import pandas as pd # Données d'exemple data = pd.Series([1, 2, 3, 4, 5]) # Calcul de la somme cumulative cumulative_sum = data.cumsum() # Affichage des résultats print(cumulative_sum)
Explication du code :
La ligne
import pandas as pd
importe la bibliothèque pandas, renommée ici enpd
, utilisée pour la manipulation efficace de données structurées.Données d’exemple
data = pd.Series([1, 2, 3, 4, 5])
crée une Série pandas contenant une séquence de nombres entiers allant de 1 à 5.Calcul de la somme cumulative
cumulative_sum = data.cumsum()
calcule la somme cumulative des éléments de la série. Cela signifie que chaque élément de la nouvelle série est la somme de tous les éléments précédents, y compris lui-même.Affichage des résultats
print(cumulative_sum)
affiche les valeurs de la somme cumulative, permettant de visualiser la progression de la somme au fil des éléments.