Scatter plots
Le scatter plot, ou diagramme de dispersion, est un outil fondamental en analyse de données permettant de visualiser la relation entre deux variables numériques. Chaque point du graphique représente une observation, positionnée selon ses valeurs sur deux axes : l’un pour la variable indépendante (axe des abscisses), l’autre pour la variable dépendante (axe des ordonnées).
Les scatter plots sont particulièrement utiles pour :
- Détecter les tendances générales ou les corrélations (positives, négatives ou nulles) entre deux variables,
- Identifier des regroupements ou des anomalies (outliers),
- Observer la dispersion des données et évaluer la densité dans certaines zones.
En data science, les scatter plots permettent aussi d’évaluer la performance de modèles de régression, de comparer des mesures réelles et prédites, ou encore d’explorer la relation entre plusieurs variables en utilisant des couleurs ou tailles de points supplémentaires (via des scatter plots à plusieurs dimensions).
Fonctions :
-
plt.scatter()
La fonction plt.scatter() de Matplotlib permet de créer un graphique de dispersion (scatter plot) où chaque point est représenté par une paire de coordonnées (x, y). Cette fonction est utile pour visualiser la relation entre deux variables continues et pour identifier des tendances, des regroupements ou des anomalies dans les données. Elle offre aussi la possibilité de personnaliser l'apparence des points en fonction de leurs propriétés (par exemple, la taille ou la couleur).
Importation :
import matplotlib.pyplot as plt
Attributs :
Nom Type Description x array-like Les coordonnées x des points à afficher. y array-like Les coordonnées y des points à afficher. s array-like, scalar, optionnel La taille des points (en pixels). Si c'est un tableau, chaque point peut avoir une taille différente. c array-like, scalar, optionnel La couleur des points. Cela peut être une couleur unique ou un tableau de couleurs, où chaque point peut avoir une couleur différente. cmap str, optionnel Nom du colormap à utiliser pour colorer les points selon leur valeur. marker str, optionnel Type de marqueur à utiliser pour les points (par exemple, 'o' pour un cercle, 'x' pour une croix). alpha float, optionnel Transparence des points. Un nombre entre 0 (transparent) et 1 (opaque). linewidths float, optionnel Largeur des bords des points (en pixels). edgecolors str, array-like, optionnel Couleur des bords des points. Cela peut être une couleur unique ou un tableau de couleurs pour chaque point. Exemple de code :
import matplotlib.pyplot as plt import numpy as np # Données d'exemple x = np.random.rand(50) y = np.random.rand(50) # Création d'un graphique de dispersion plt.scatter(x, y, color='blue', s=100, alpha=0.5, edgecolors='black') # Ajouter un titre et des labels aux axes plt.title('Exemple de graphique de dispersion') plt.xlabel('Coordonnée X') plt.ylabel('Coordonnée Y') # Afficher le graphique plt.show()
Explication du code :
x
ety
sont des tableaux NumPy contenant les coordonnées des points à afficher. Dans cet exemple, des valeurs aléatoires sont générées avecnp.random.rand(50)
pour créer 50 points.plt.scatter(x, y)
crée le graphique de dispersion en prenant les coordonnées x et y des points.color='blue'
définit la couleur des points à bleu.s=100
définit la taille des points à 100 pixels.alpha=0.5
rend les points semi-transparents (50% de transparence).edgecolors='black'
définit la couleur des bords des points à noir.plt.title()
,plt.xlabel()
, etplt.ylabel()
ajoutent respectivement un titre et des labels aux axes X et Y.plt.show()
affiche le graphique.