Visualisation de relations

  • sns.scatterplot()

    La fonction sns.scatterplot() est utilisée pour créer un graphique de dispersion, idéal pour visualiser la relation entre deux variables quantitatives. Elle permet également de personnaliser l'apparence des points en fonction d'autres variables.

    Importation :
    import seaborn as sns
    Attributs :
    Paramètre Type Description Valeur par défaut
    data DataFrame Le DataFrame contenant les données à visualiser. None
    x str Le nom de la variable à utiliser pour l’axe des x. None
    y str Le nom de la variable à utiliser pour l’axe des y. None
    hue str Nom de la variable dans les données pour colorer les points selon une catégorie. None
    style str Nom de la variable dans les données pour modifier le style des points (par exemple, formes différentes). None
    size str Nom de la variable dans les données pour contrôler la taille des points. None
    markers bool Si True, affiche les marqueurs pour les points sur le graphique. True
    palette str / list Palette de couleurs à utiliser pour colorier les points. None
    legend bool Si True, affiche la légende des catégories. True
    Exemple de code :
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # Création d'un DataFrame exemple
    data = sns.load_dataset("tips")
    
    # Tracer un scatterplot pour visualiser la relation entre total_bill et tip
    sns.scatterplot(x="total_bill", y="tip", data=data, hue="time", style="time", size="size")
    
    plt.show()
    Explication du code :

    Nous utilisons sns.scatterplot() pour tracer un nuage de points représentant la relation entre total_bill et tip à partir du dataset data. Le paramètre hue="time" colorie les points en fonction de la variable time (pour différencier le déjeuner et le dîner), style="time" modifie la forme des points, et size="size" ajuste la taille des points en fonction de la variable size.

    Remarques :

      • Visualisation des relations : sns.scatterplot() est idéal pour explorer visuellement la relation entre deux variables continues, et peut être enrichi avec des dimensions supplémentaires telles que hue, style et size.

      • Palette et personnalisation : En utilisant le paramètre palette, il est possible de personnaliser les couleurs selon les catégories définies dans les variables hue, style, ou size, ce qui améliore la lisibilité et la compréhension des graphiques.

      • Performance et taille des points : Le paramètre size est particulièrement utile pour représenter des informations supplémentaires dans le graphique sans encombrer l’affichage.

  • sns.lineplot()

    La fonction sns.lineplot() trace un graphique linéaire, idéal pour visualiser des tendances ou des relations entre deux variables quantitatives au fil du temps ou d'une autre variable continue.

    Importation :
    import seaborn as sns
    Attributs :
    Paramètre Type Description Valeur par défaut
    data DataFrame Le DataFrame contenant les données à visualiser. None
    x str Le nom de la variable à utiliser pour l’axe des x. None
    y str Le nom de la variable à utiliser pour l’axe des y. None
    hue str Nom de la variable dans les données pour colorer les lignes selon une catégorie. None
    style str Nom de la variable dans les données pour modifier le style des lignes. None
    ci int / str Le niveau de confiance à afficher pour la courbe (par défaut, il montre l’intervalle de confiance de 95 %). 95
    markers bool Si True, marque des points sur la ligne. False
    dashes bool Si True, trace des lignes en tirets. True
    legend bool Si True, affiche la légende du graphique. True
    Exemple de code :
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # Création d'un DataFrame exemple
    data = sns.load_dataset("tips")
    
    # Tracer un lineplot pour visualiser la relation entre total_bill et tip
    sns.lineplot(x="total_bill", y="tip", data=data, hue="time")
    
    plt.show()
    Explication du code :

    Nous utilisons sns.lineplot() pour tracer une courbe qui montre la relation entre total_bill et tip à partir du dataset data. Le paramètre hue="time" permet de colorer les lignes en fonction de la variable time (pour distinguer les repas à « Lunch » et « Dinner »). La fonction crée une courbe qui montre comment le pourboire (tip) évolue par rapport à la facture totale (total_bill).

    Remarques :

      • Visualisation des tendances : sns.lineplot() est particulièrement utile pour analyser les tendances, les relations entre deux variables continues, ou encore l’évolution des données sur le temps.

      • Intervalle de confiance (ci) : Le paramètre ci permet d’ajouter un intervalle de confiance autour de la courbe. Cela permet de visualiser l’incertitude dans les données ou dans la tendance modélisée.

      • Marqueurs et style : Vous pouvez ajouter des marqueurs aux points de la ligne avec le paramètre markers, et changer le style de la ligne avec style pour ajouter plus de distinction visuelle.

  • sns.relplot()

    La fonction sns.relplot() crée un graphique de type relationnel, où des points sont tracés pour deux variables quantitatives, et permet également de définir des relations entre ces points via des facettes, des couleurs, ou des styles.

    Importation :
    import seaborn as sns
    Attributs :
    Paramètre Type Description Valeur par défaut
    data DataFrame Le DataFrame contenant les données à visualiser. None
    x str Le nom de la variable à utiliser pour l’axe des x. None
    y str Le nom de la variable à utiliser pour l’axe des y. None
    hue str Nom de la variable dans les données pour colorer les points selon une catégorie. None
    style str Nom de la variable dans les données pour modifier le style des points. None
    col str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par colonne. None
    row str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par ligne. None
    kind str Type de graphique à utiliser, options possibles : ‘scatter’, ‘line’. 'scatter'
    height float La hauteur de chaque graphique dans la grille de facettes. 5
    aspect float Le rapport d’aspect de chaque graphique, c’est-à-dire la largeur relative par rapport à la hauteur. 1
    Exemple de code :
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # Création d'un DataFrame exemple
    data = sns.load_dataset("tips")
    
    # Tracer un relplot pour visualiser la relation entre total_bill et tip
    sns.relplot(x="total_bill", y="tip", data=data, hue="time", kind="scatter")
    
    plt.show()
    Explication du code :

    Nous utilisons sns.relplot() pour tracer un graphique de type « scatter » (nuage de points) qui montre la relation entre les variables total_bill et tip du dataset data. La couleur des points est déterminée par la variable time, ce qui permet de distinguer les repas pris à « Lunch » et « Dinner ». Le paramètre kind="scatter" indique que nous voulons un nuage de points.

    Remarques :

      • Type de graphique : Le paramètre kind peut être utilisé pour changer le type de graphique. En plus des nuages de points (scatter), vous pouvez également utiliser line pour tracer des courbes de régression.

      • Facettes : Les paramètres col et row permettent de diviser les graphiques en sous-graphiques pour explorer des relations entre les variables à travers différentes catégories, ce qui est très utile pour les données avec plusieurs groupes.

      • Ajustement du style et des couleurs : Vous pouvez ajuster le style des points avec style et leur couleur avec hue pour mieux visualiser des regroupements dans les données.

  • pairplot()

    La fonction sns.pairplot() permet de créer un graphique en paires, où chaque variable d'un DataFrame est tracée contre toutes les autres variables, pour explorer les relations bivariées dans un jeu de données.

    Importation :
    import seaborn as sns
    Attributs :
    Paramètre Type Description Valeur par défaut
    data DataFrame Le DataFrame contenant les données à visualiser. None
    hue str Nom de la variable dans les données pour colorer les points selon une catégorie. None
    palette str / list Palette de couleurs à utiliser pour la variable hue. None
    kind str Type de graphique à utiliser pour la paire (par défaut un nuage de points). Les options sont « scatter », « reg », « resid », « kde », « hex ». 'scatter'
    corner bool Si True, ne trace pas les graphiques redondants (en haut de la diagonale). False
    height float La hauteur de chaque graphique dans la grille. 2.5
    dropna bool Si True, supprime les lignes contenant des valeurs manquantes avant de tracer les graphiques. True
    Exemple de code :
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # Création d'un DataFrame exemple
    data = sns.load_dataset("iris")
    
    # Tracer le pairplot pour le dataset iris
    sns.pairplot(data, hue="species")
    
    plt.show()
    Explication du code :

    Nous utilisons sns.pairplot() pour créer un graphique en paires des variables du DataFrame data (qui est ici le dataset « iris »). La variable species est utilisée pour colorer les points, ce qui permet de visualiser comment les différentes espèces d’iris se séparent en fonction des autres variables du dataset (comme la longueur et la largeur des sépales et pétales).

    Remarques :

      • Exploration des relations : sns.pairplot() est très utile pour explorer visuellement les relations entre toutes les variables d’un dataset et pour identifier d’éventuelles corrélations ou groupes distincts.

      • Optimisation de l’affichage : Le paramètre corner=True permet de ne pas répéter les graphiques dans la partie supérieure de la diagonale, ce qui peut rendre le graphique plus lisible, surtout pour les grands datasets.

      • Utilisation de différents types de graphiques : Le paramètre kind permet de choisir différents types de graphiques pour chaque paire, comme des nuages de points, des régressions, des KDE, etc.

  • sns.lmplot()

    La fonction sns.lmplot() crée un graphique de régression linéaire (ou d'autres types de régressions) en traçant une relation entre deux variables, avec la possibilité de visualiser des courbes de régression sur les données.

    Importation :
    import seaborn as sns
    Attributs :
    Paramètre Type Description Valeur par défaut
    data DataFrame Le DataFrame contenant les données à visualiser. None
    x str Le nom de la variable à utiliser pour l’axe des x. None
    y str Le nom de la variable à utiliser pour l’axe des y. None
    hue str Nom de la variable dans les données qui détermine les couleurs des points. None
    col str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par colonne. None
    row str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par ligne. None
    order int Le degré de la régression polynomiale à utiliser (si > 1 pour régression polynomiale). 1
    ci float Le niveau de confiance pour l’intervalle autour de la régression (par défaut 95%). Si `None`, aucun intervalle de confiance n’est tracé. 95
    Exemple de code :
    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # Création d'un DataFrame exemple
    data = sns.load_dataset("tips")
    
    # Tracer une régression linéaire entre total_bill et tip
    sns.lmplot(x="total_bill", y="tip", data=data)
    
    plt.show()
    Explication du code :

    Nous utilisons sns.lmplot() pour créer un graphique de régression linéaire entre les variables total_bill et tip du DataFrame data (qui est ici le dataset « tips »). Le graphique montre la relation entre ces deux variables, avec une ligne de régression ajustée aux données.

    Remarques :

    • Régression polynomiale : En modifiant le paramètre order, il est possible de créer des régressions polynomiales plutôt que linéaires (par exemple, order=2 pour une régression quadratique).

    • Sous-graphiques : Les paramètres col et row permettent de diviser le graphique en sous-graphiques selon des catégories spécifiques de données, ce qui est utile pour explorer des relations sur plusieurs groupes.

    • Intervalle de confiance : Le paramètre ci contrôle l’affichage de l’intervalle de confiance autour de la ligne de régression. Un ci de 95% est standard, mais il peut être modifié ou supprimé.