Scatter plots

Le scatter plot, ou diagramme de dispersion, est un outil fondamental en analyse de données permettant de visualiser la relation entre deux variables numériques. Chaque point du graphique représente une observation, positionnée selon ses valeurs sur deux axes : l’un pour la variable indépendante (axe des abscisses), l’autre pour la variable dépendante (axe des ordonnées).

Les scatter plots sont particulièrement utiles pour :

Détecter les tendances générales ou les corrélations (positives, négatives ou nulles) entre deux variables,
Identifier des regroupements ou des anomalies (outliers),
Observer la dispersion des données et évaluer la densité dans certaines zones.

En data science, les scatter plots permettent aussi d’évaluer la performance de modèles de régression, de comparer des mesures réelles et prédites, ou encore d’explorer la relation entre plusieurs variables en utilisant des couleurs ou tailles de points supplémentaires (via des scatter plots à plusieurs dimensions).

Fonctions :

plt.scatter()

La fonction plt.scatter() de Matplotlib permet de créer un graphique de dispersion (scatter plot) où chaque point est représenté par une paire de coordonnées (x, y). Cette fonction est utile pour visualiser la relation entre deux variables continues et pour identifier des tendances, des regroupements ou des anomalies dans les données. Elle offre aussi la possibilité de personnaliser l'apparence des points en fonction de leurs propriétés (par exemple, la taille ou la couleur).

Importation :

import matplotlib.pyplot as plt

Attributs :

Nom	Type	Description
x	array-like	Les coordonnées x des points à afficher.
y	array-like	Les coordonnées y des points à afficher.
s	array-like, scalar, optionnel	La taille des points (en pixels). Si c'est un tableau, chaque point peut avoir une taille différente.
c	array-like, scalar, optionnel	La couleur des points. Cela peut être une couleur unique ou un tableau de couleurs, où chaque point peut avoir une couleur différente.
cmap	str, optionnel	Nom du colormap à utiliser pour colorer les points selon leur valeur.
marker	str, optionnel	Type de marqueur à utiliser pour les points (par exemple, 'o' pour un cercle, 'x' pour une croix).
alpha	float, optionnel	Transparence des points. Un nombre entre 0 (transparent) et 1 (opaque).
linewidths	float, optionnel	Largeur des bords des points (en pixels).
edgecolors	str, array-like, optionnel	Couleur des bords des points. Cela peut être une couleur unique ou un tableau de couleurs pour chaque point.

Exemple de code :

import matplotlib.pyplot as plt
import numpy as np

# Données d'exemple
x = np.random.rand(50)
y = np.random.rand(50)

# Création d'un graphique de dispersion
plt.scatter(x, y, color='blue', s=100, alpha=0.5, edgecolors='black')

# Ajouter un titre et des labels aux axes
plt.title('Exemple de graphique de dispersion')
plt.xlabel('Coordonnée X')
plt.ylabel('Coordonnée Y')

# Afficher le graphique
plt.show()

Explication du code :

x et y sont des tableaux NumPy contenant les coordonnées des points à afficher. Dans cet exemple, des valeurs aléatoires sont générées avec np.random.rand(50) pour créer 50 points.

plt.scatter(x, y) crée le graphique de dispersion en prenant les coordonnées x et y des points.

color='blue' définit la couleur des points à bleu.

s=100 définit la taille des points à 100 pixels.

alpha=0.5 rend les points semi-transparents (50% de transparence).

edgecolors='black' définit la couleur des bords des points à noir.

plt.title(), plt.xlabel(), et plt.ylabel() ajoutent respectivement un titre et des labels aux axes X et Y.

plt.show() affiche le graphique.