Scatter plots
Les scatter plots ou nuages de points sont des graphiques indispensables pour explorer la relation entre deux variables numériques. Chaque point représente une observation avec ses coordonnées sur les axes x et y, ce qui permet de visualiser rapidement des tendances, corrélations, regroupements ou anomalies.
Ils sont particulièrement utiles en analyse exploratoire des données pour détecter des patterns linéaires ou non linéaires, évaluer la force d’une association, ou identifier des sous-groupes dans les données.
Matplotlib et Seaborn offrent des fonctions simples et puissantes pour créer des scatter plots, avec des options de personnalisation avancées telles que la couleur, la taille et la forme des points, afin d’ajouter des dimensions supplémentaires à la visualisation.
Cette section vous guidera dans la création, l’interprétation et la personnalisation des scatter plots pour améliorer la compréhension de vos données.
Fonctions :
-
plt.scatter()
La fonction plt.scatter() permet de créer un diagramme de dispersion (scatter plot), qui est un graphique utilisé pour afficher la relation entre deux variables. Chaque point du graphique représente une observation dans les données.
Importation :
import matplotlib.pyplot as plt
Attributs :
Paramètre Type Description Valeur par défaut x
array-like Les coordonnées des points sur l'axe des x. None
y
array-like Les coordonnées des points sur l'axe des y. None
s
array-like ou scalar Taille des points. Peut être un scalaire (tous les points auront la même taille) ou une liste/array (chaque point aura une taille différente). 20
c
array-like / str Couleur des points. Peut être une couleur unique ou un tableau de valeurs (avec une correspondance de couleur via un colormap). 'b'
(bleu)marker
str Le style du marqueur (le symbole utilisé pour chaque point, par exemple 'o', 's', '^', etc.). 'o'
alpha
float Transparence des points, entre 0 (transparent) et 1 (opaque). 1.0
Exemple de code :
import matplotlib.pyplot as plt # Données à afficher x = [1, 2, 3, 4, 5] y = [10, 20, 25, 30, 40] # Création du graphique de dispersion plt.scatter(x, y, color='green', s=100, alpha=0.6, edgecolor='black') # Ajouter des labels et un titre plt.title("Exemple de graphique de dispersion") plt.xlabel("X") plt.ylabel("Y") # Afficher le graphique plt.show()
Explication du code :
Le code ci-dessus crée un graphique de dispersion (scatter plot) à l'aide de la bibliothèque matplotlib.
1. Données à afficher :
Les données sont définies dans deux listes :
- x = [1, 2, 3, 4, 5] : Les coordonnées sur l'axe des X.
- y = [10, 20, 25, 30, 40] : Les coordonnées sur l'axe des Y.
2. Création du graphique de dispersion :
Le graphique de dispersion est créé avec la fonction plt.scatter(), qui prend plusieurs arguments :
- x, y : Les coordonnées des points à afficher.
- color='green' : La couleur des points, ici verte.
- s=100 : La taille des points du graphique.
- alpha=0.6 : La transparence des points (0 étant complètement transparent et 1 complètement opaque).
- edgecolor='black' : La couleur du bord des points, ici noir.
3. Personnalisation du graphique :
Des éléments supplémentaires sont ajoutés pour améliorer la lisibilité du graphique :
- plt.title('Exemple de graphique de dispersion') : Le titre du graphique.
- plt.xlabel('X') : Le label de l'axe des X, ici 'X'.
- plt.ylabel('Y') : Le label de l'axe des Y, ici 'Y'.
4. Affichage du graphique :
La fonction plt.show() permet d'afficher le graphique à l'écran.