Visualisation de relations
-
sns.scatterplot()
La fonction sns.scatterplot() est utilisée pour créer un graphique de dispersion, idéal pour visualiser la relation entre deux variables quantitatives. Elle permet également de personnaliser l'apparence des points en fonction d'autres variables.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Le nom de la variable à utiliser pour l’axe des x. None
y
str Le nom de la variable à utiliser pour l’axe des y. None
hue
str Nom de la variable dans les données pour colorer les points selon une catégorie. None
style
str Nom de la variable dans les données pour modifier le style des points (par exemple, formes différentes). None
size
str Nom de la variable dans les données pour contrôler la taille des points. None
markers
bool Si True, affiche les marqueurs pour les points sur le graphique. True
palette
str / list Palette de couleurs à utiliser pour colorier les points. None
legend
bool Si True, affiche la légende des catégories. True
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("tips") # Tracer un scatterplot pour visualiser la relation entre total_bill et tip sns.scatterplot(x="total_bill", y="tip", data=data, hue="time", style="time", size="size") plt.show()
Explication du code :
Nous utilisons
sns.scatterplot()
pour tracer un nuage de points représentant la relation entretotal_bill
ettip
à partir du datasetdata
. Le paramètrehue="time"
colorie les points en fonction de la variabletime
(pour différencier le déjeuner et le dîner),style="time"
modifie la forme des points, etsize="size"
ajuste la taille des points en fonction de la variablesize
.Remarques :
-
-
Visualisation des relations :
sns.scatterplot()
est idéal pour explorer visuellement la relation entre deux variables continues, et peut être enrichi avec des dimensions supplémentaires telles quehue
,style
etsize
. -
Palette et personnalisation : En utilisant le paramètre
palette
, il est possible de personnaliser les couleurs selon les catégories définies dans les variableshue
,style
, ousize
, ce qui améliore la lisibilité et la compréhension des graphiques. -
Performance et taille des points : Le paramètre
size
est particulièrement utile pour représenter des informations supplémentaires dans le graphique sans encombrer l’affichage.
-
-
-
sns.lineplot()
La fonction sns.lineplot() trace un graphique linéaire, idéal pour visualiser des tendances ou des relations entre deux variables quantitatives au fil du temps ou d'une autre variable continue.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Le nom de la variable à utiliser pour l’axe des x. None
y
str Le nom de la variable à utiliser pour l’axe des y. None
hue
str Nom de la variable dans les données pour colorer les lignes selon une catégorie. None
style
str Nom de la variable dans les données pour modifier le style des lignes. None
ci
int / str Le niveau de confiance à afficher pour la courbe (par défaut, il montre l’intervalle de confiance de 95 %). 95
markers
bool Si True, marque des points sur la ligne. False
dashes
bool Si True, trace des lignes en tirets. True
legend
bool Si True, affiche la légende du graphique. True
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("tips") # Tracer un lineplot pour visualiser la relation entre total_bill et tip sns.lineplot(x="total_bill", y="tip", data=data, hue="time") plt.show()
Explication du code :
Nous utilisons
sns.lineplot()
pour tracer une courbe qui montre la relation entretotal_bill
ettip
à partir du datasetdata
. Le paramètrehue="time"
permet de colorer les lignes en fonction de la variabletime
(pour distinguer les repas à « Lunch » et « Dinner »). La fonction crée une courbe qui montre comment le pourboire (tip
) évolue par rapport à la facture totale (total_bill
).Remarques :
-
-
Visualisation des tendances :
sns.lineplot()
est particulièrement utile pour analyser les tendances, les relations entre deux variables continues, ou encore l’évolution des données sur le temps. -
Intervalle de confiance (ci) : Le paramètre
ci
permet d’ajouter un intervalle de confiance autour de la courbe. Cela permet de visualiser l’incertitude dans les données ou dans la tendance modélisée. -
Marqueurs et style : Vous pouvez ajouter des marqueurs aux points de la ligne avec le paramètre
markers
, et changer le style de la ligne avecstyle
pour ajouter plus de distinction visuelle.
-
-
-
sns.relplot()
La fonction sns.relplot() crée un graphique de type relationnel, où des points sont tracés pour deux variables quantitatives, et permet également de définir des relations entre ces points via des facettes, des couleurs, ou des styles.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Le nom de la variable à utiliser pour l’axe des x. None
y
str Le nom de la variable à utiliser pour l’axe des y. None
hue
str Nom de la variable dans les données pour colorer les points selon une catégorie. None
style
str Nom de la variable dans les données pour modifier le style des points. None
col
str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par colonne. None
row
str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par ligne. None
kind
str Type de graphique à utiliser, options possibles : ‘scatter’, ‘line’. 'scatter'
height
float La hauteur de chaque graphique dans la grille de facettes. 5
aspect
float Le rapport d’aspect de chaque graphique, c’est-à-dire la largeur relative par rapport à la hauteur. 1
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("tips") # Tracer un relplot pour visualiser la relation entre total_bill et tip sns.relplot(x="total_bill", y="tip", data=data, hue="time", kind="scatter") plt.show()
Explication du code :
Nous utilisons
sns.relplot()
pour tracer un graphique de type « scatter » (nuage de points) qui montre la relation entre les variablestotal_bill
ettip
du datasetdata
. La couleur des points est déterminée par la variabletime
, ce qui permet de distinguer les repas pris à « Lunch » et « Dinner ». Le paramètrekind="scatter"
indique que nous voulons un nuage de points.Remarques :
-
-
Type de graphique : Le paramètre
kind
peut être utilisé pour changer le type de graphique. En plus des nuages de points (scatter
), vous pouvez également utiliserline
pour tracer des courbes de régression. -
Facettes : Les paramètres
col
etrow
permettent de diviser les graphiques en sous-graphiques pour explorer des relations entre les variables à travers différentes catégories, ce qui est très utile pour les données avec plusieurs groupes. -
Ajustement du style et des couleurs : Vous pouvez ajuster le style des points avec
style
et leur couleur avechue
pour mieux visualiser des regroupements dans les données.
-
-
-
pairplot()
La fonction sns.pairplot() permet de créer un graphique en paires, où chaque variable d'un DataFrame est tracée contre toutes les autres variables, pour explorer les relations bivariées dans un jeu de données.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
hue
str Nom de la variable dans les données pour colorer les points selon une catégorie. None
palette
str / list Palette de couleurs à utiliser pour la variable hue
.None
kind
str Type de graphique à utiliser pour la paire (par défaut un nuage de points). Les options sont « scatter », « reg », « resid », « kde », « hex ». 'scatter'
corner
bool Si True
, ne trace pas les graphiques redondants (en haut de la diagonale).False
height
float La hauteur de chaque graphique dans la grille. 2.5
dropna
bool Si True
, supprime les lignes contenant des valeurs manquantes avant de tracer les graphiques.True
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("iris") # Tracer le pairplot pour le dataset iris sns.pairplot(data, hue="species") plt.show()
Explication du code :
Nous utilisons
sns.pairplot()
pour créer un graphique en paires des variables du DataFramedata
(qui est ici le dataset « iris »). La variablespecies
est utilisée pour colorer les points, ce qui permet de visualiser comment les différentes espèces d’iris se séparent en fonction des autres variables du dataset (comme la longueur et la largeur des sépales et pétales).Remarques :
-
-
Exploration des relations :
sns.pairplot()
est très utile pour explorer visuellement les relations entre toutes les variables d’un dataset et pour identifier d’éventuelles corrélations ou groupes distincts. -
Optimisation de l’affichage : Le paramètre
corner=True
permet de ne pas répéter les graphiques dans la partie supérieure de la diagonale, ce qui peut rendre le graphique plus lisible, surtout pour les grands datasets. -
Utilisation de différents types de graphiques : Le paramètre
kind
permet de choisir différents types de graphiques pour chaque paire, comme des nuages de points, des régressions, des KDE, etc.
-
-
-
sns.lmplot()
La fonction sns.lmplot() crée un graphique de régression linéaire (ou d'autres types de régressions) en traçant une relation entre deux variables, avec la possibilité de visualiser des courbes de régression sur les données.
Importation :
import seaborn as sns
Attributs :
Paramètre Type Description Valeur par défaut data
DataFrame Le DataFrame contenant les données à visualiser. None
x
str Le nom de la variable à utiliser pour l’axe des x. None
y
str Le nom de la variable à utiliser pour l’axe des y. None
hue
str Nom de la variable dans les données qui détermine les couleurs des points. None
col
str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par colonne. None
row
str Nom de la variable dans les données pour diviser le graphique en sous-graphiques par ligne. None
order
int Le degré de la régression polynomiale à utiliser (si > 1 pour régression polynomiale). 1
ci
float Le niveau de confiance pour l’intervalle autour de la régression (par défaut 95%). Si `None`, aucun intervalle de confiance n’est tracé. 95
Exemple de code :
import seaborn as sns import matplotlib.pyplot as plt # Création d'un DataFrame exemple data = sns.load_dataset("tips") # Tracer une régression linéaire entre total_bill et tip sns.lmplot(x="total_bill", y="tip", data=data) plt.show()
Explication du code :
Nous utilisons
sns.lmplot()
pour créer un graphique de régression linéaire entre les variablestotal_bill
ettip
du DataFramedata
(qui est ici le dataset « tips »). Le graphique montre la relation entre ces deux variables, avec une ligne de régression ajustée aux données.Remarques :
-
Régression polynomiale : En modifiant le paramètre
order
, il est possible de créer des régressions polynomiales plutôt que linéaires (par exemple,order=2
pour une régression quadratique). -
Sous-graphiques : Les paramètres
col
etrow
permettent de diviser le graphique en sous-graphiques selon des catégories spécifiques de données, ce qui est utile pour explorer des relations sur plusieurs groupes. -
Intervalle de confiance : Le paramètre
ci
contrôle l’affichage de l’intervalle de confiance autour de la ligne de régression. Unci
de 95% est standard, mais il peut être modifié ou supprimé.
-