Tableau de fréquence

Fonctions :

  • Fréquence absolue: value_counts()

    : La fonction value_counts() de pandas permet de calculer la fréquence absolue des différentes valeurs dans une colonne ou une série de données. Elle retourne un objet Series contenant le comptage de chaque valeur unique dans l'ordre décroissant. Cette fonction est très utile pour analyser la répartition des catégories ou des valeurs dans un jeu de données.

    Importation :

    import pandas as pd

    Attributs :

    Nom Type Description
    normalize bool, optionnel Si True, retourne les fréquences relatives au lieu des comptes absolus.
    sort bool, optionnel Si True (par défaut), trie les résultats par fréquence décroissante. Si False, les résultats sont retournés dans l'ordre d'apparition des valeurs dans la série.
    ascending bool, optionnel Si True, trie les résultats par fréquence croissante. Par défaut, c'est False (tri décroissant).
    bins int, optionnel Divise les données continues en intervalles (bins) pour calculer les fréquences des intervalles plutôt que des valeurs individuelles. Utile pour les données numériques continues.
    dropna bool, optionnel Si True (par défaut), les valeurs NaN sont exclues du comptage. Si False, les valeurs NaN sont incluses dans les résultats.

    Exemple de code :

    import pandas as pd
    
    # Données d'exemple
    data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B'])
    
    # Calcul de la fréquence absolue
    freq = data.value_counts()
    
    # Affichage des résultats
    print(freq)
    Résultat du code

    Explication du code :

    La ligne import pandas as pd importe la bibliothèque pandas, renommée ici en pd, afin de faciliter la manipulation de données sous forme de séries ou de tableaux.

    Données d’exemple

    data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B']) crée une Série pandas contenant une liste de catégories représentées par les lettres 'A', 'B' et 'C'.

    Calcul de la fréquence absolue

    freq = data.value_counts() calcule la fréquence absolue de chaque valeur unique présente dans la série. Cela signifie qu’elle compte combien de fois chaque catégorie apparaît.

    Affichage des résultats

    print(freq) affiche les fréquences absolues de chaque catégorie, triées par défaut par ordre décroissant.

  • Fréquence relative: value_counts(normalize=True)

    La fonction value_counts(normalize=True) de pandas calcule la fréquence relative des valeurs dans une série. Contrairement à la fonction de base value_counts(), qui retourne le comptage absolu des occurrences, en passant normalize=True, cette fonction retourne la proportion de chaque valeur dans l'ensemble des données sous forme de pourcentage. Cela permet de comprendre la distribution des données de manière relative.

    Importation :

    import pandas as pd

    Attributs :

    Nom Type Description
    normalize bool, optionnel Si True, retourne les fréquences relatives au lieu des comptes absolus (proportion). Par défaut, False.
    sort bool, optionnel Si True (par défaut), trie les résultats par fréquence décroissante. Si False, les résultats sont retournés dans l'ordre d'apparition des valeurs dans la série.
    ascending bool, optionnel Si True, trie les résultats par fréquence croissante. Par défaut, c'est False (tri décroissant).
    bins int, optionnel Divise les données continues en intervalles (bins) pour calculer les fréquences des intervalles plutôt que des valeurs individuelles.
    dropna bool, optionnel Si True (par défaut), exclut les valeurs NaN du comptage. Si False, les NaN sont inclus dans les résultats.

    Exemple de code :

    import pandas as pd
    
    # Données d'exemple
    data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B'])
    
    # Calcul de la fréquence relative
    freq_relative = data.value_counts(normalize=True)
    
    # Affichage des résultats
    print(freq_relative)
    Résultat du code

    Explication du code :

    La ligne import pandas as pd importe la bibliothèque pandas, renommée ici en pd, utilisée pour manipuler facilement des données sous forme de séries ou de tableaux.

    Données d’exemple

    data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A', 'A', 'C', 'B', 'B']) crée une Série pandas contenant une liste de catégories représentées par les lettres 'A', 'B' et 'C'.

    Calcul de la fréquence relative

    freq_relative = data.value_counts(normalize=True) calcule la fréquence relative de chaque catégorie, c’est-à-dire la proportion d’occurrences de chaque valeur par rapport au total.

    Le paramètre normalize=True indique que les fréquences doivent être exprimées en pourcentage (sous forme décimale), et non en valeur absolue.

    Affichage des résultats

    print(freq_relative) affiche les fréquences relatives de chaque catégorie, triées par défaut par ordre décroissant.

  • Fréquence cumulée: cumsum()

    La fonction cumsum() de pandas calcule la somme cumulative des éléments d'une série ou d'une colonne, c'est-à-dire qu'elle retourne une nouvelle série où chaque élément est la somme de tous les éléments précédents, y compris lui-même. Cette fonction est particulièrement utile pour calculer la fréquence cumulée dans le cadre de l'analyse des données.

    Importation :

    import pandas as pd

    Attributs :

    Nom Type Description
    axis int, optionnel Définit l'axe le long duquel effectuer la somme cumulative. Par défaut, `axis=0` pour les séries.
    skipna bool, optionnel Si True (par défaut), ignore les valeurs NaN dans le calcul. Si False, les valeurs NaN provoquent la propagation des NaN dans le résultat.
    dtype type, optionnel Permet de spécifier le type de données du résultat. Par défaut, il est déterminé automatiquement.
    out ndarray, optionnel Permet de spécifier un tableau dans lequel stocker le résultat de la somme cumulative.

    Exemple de code :

    import pandas as pd
    
    # Données d'exemple
    data = pd.Series([1, 2, 3, 4, 5])
    
    # Calcul de la somme cumulative
    cumulative_sum = data.cumsum()
    
    # Affichage des résultats
    print(cumulative_sum)
    Résultat du code

    Explication du code :

    La ligne import pandas as pd importe la bibliothèque pandas, renommée ici en pd, utilisée pour la manipulation efficace de données structurées.

    Données d’exemple

    data = pd.Series([1, 2, 3, 4, 5]) crée une Série pandas contenant une séquence de nombres entiers allant de 1 à 5.

    Calcul de la somme cumulative

    cumulative_sum = data.cumsum() calcule la somme cumulative des éléments de la série. Cela signifie que chaque élément de la nouvelle série est la somme de tous les éléments précédents, y compris lui-même.

    Affichage des résultats

    print(cumulative_sum) affiche les valeurs de la somme cumulative, permettant de visualiser la progression de la somme au fil des éléments.