Pair Plot

Le pair plot est un outil incontournable pour explorer rapidement les relations entre plusieurs variables numériques d’un jeu de données. Il génère automatiquement une matrice de graphiques, affichant à la fois les distributions individuelles de chaque variable (sur la diagonale) et les nuages de points (scatter plots) pour toutes les paires possibles.

Cette visualisation permet de :

Avec Seaborn, le pair plot est très simple à créer et offre des options pour colorer les points selon des catégories (hue), facilitant ainsi l’exploration visuelle des interactions complexes.

Fonctions :

  • pairplot()

    La fonction sns.pairplot() permet de créer un graphique en paires, où chaque variable d'un DataFrame est tracée contre toutes les autres variables, pour explorer les relations bivariées dans un jeu de données.

    Importation :

    import seaborn as sns

    Attributs :

    Paramètre Type Description Valeur par défaut
    data DataFrame Le DataFrame contenant les données à visualiser. None
    hue str Nom de la variable dans les données pour colorer les points selon une catégorie. None
    palette str / list Palette de couleurs à utiliser pour la variable hue. None
    kind str Type de graphique à utiliser pour la paire (par défaut un nuage de points). Les options sont "scatter", "reg", "resid", "kde", "hex". 'scatter'
    corner bool Si True, ne trace pas les graphiques redondants (en haut de la diagonale). False
    height float La hauteur de chaque graphique dans la grille. 2.5
    dropna bool Si True, supprime les lignes contenant des valeurs manquantes avant de tracer les graphiques. True

    Exemple de code :

    import seaborn as sns
    import matplotlib.pyplot as plt
    
    # Création d'un DataFrame exemple
    data = sns.load_dataset("iris")
    
    # Tracer le pairplot pour le dataset iris
    sns.pairplot(data, hue="species")
    
    plt.show()
    Résultat du code

    Explication du code :

    import seaborn as sns importe la bibliothèque seaborn, utilisée pour la visualisation de données statistiques en Python.

    import matplotlib.pyplot as plt importe la bibliothèque matplotlib.pyplot pour la création de graphiques.

    Création d'un DataFrame exemple

    data = sns.load_dataset("iris") charge le célèbre dataset "iris", qui contient des mesures de différentes caractéristiques de fleurs d'iris, et l'assigne à la variable data.

    Tracer le pairplot pour le dataset iris

    sns.pairplot(data, hue="species") génère un pairplot, qui est une matrice de graphiques pour examiner les relations entre toutes les paires de variables du dataset. La variable 'species' est utilisée pour colorier les points selon les différentes espèces d'iris, ce qui permet de visualiser les différences entre les espèces pour chaque paire de caractéristiques.

    Afficher le graphique

    plt.show() affiche le graphique généré à l'écran.