Convertir en type catégoriel (astype('category'))

Fonctions :

  • astype('category')

    La conversion d'une colonne en type catégoriel avec astype('category') permet de réduire l'utilisation de mémoire et d'améliorer les performances pour les colonnes ayant un nombre limité de valeurs distinctes. Ce type est particulièrement utile pour les variables qualitatives qui prennent un nombre fixe de catégories, comme les couleurs, les labels de produit, ou les types de villes. En outre, cela permet de bénéficier de certaines optimisations lorsque vous effectuez des opérations comme les regroupements ou les filtrages.

    Importation :

    import pandas as pd

    Attributs :

    Paramètre Description
    astype('category') La méthode permet de convertir une colonne ou une Series en type catégoriel.

    Exemple de code :

    import pandas as pd
    
    # Création d'un DataFrame avec une colonne de données textuelles
    data = pd.DataFrame({
        'produit': ['Pommes', 'Bananes', 'Pommes', 'Oranges', 'Bananes', 'Oranges']
    })
    
    # Conversion de la colonne 'produit' en type catégoriel
    data['produit_cat'] = data['produit'].astype('category')
    
    # Affichage du DataFrame
    print(data)

    Explication du code :

    • Création d'un DataFrame : Un DataFrame est créé avec une colonne 'produit' contenant des chaînes représentant des noms de produits.
    • Conversion en type catégoriel : La méthode astype('category') est utilisée pour convertir la colonne 'produit' en type catégoriel. Cela signifie que pandas va désormais traiter cette colonne comme une série de catégories, ce qui est plus efficace en termes de mémoire et de performance pour des valeurs répétitives.
    • Affichage du résultat : Le DataFrame affiché montre la colonne originale ainsi que la colonne convertie en type catégoriel. Les valeurs uniques de la colonne sont désormais considérées comme des catégories.