Clustering (K-means, DBSCAN, clustering hiérarchique)

Le clustering est une technique d’apprentissage non supervisé visant à regrouper des données en clusters homogènes selon une mesure de similarité. Contrairement à la classification, aucun label n’est fourni en amont : l’objectif est de découvrir des structures ou regroupements naturels dans les données.

  • K-means : algorithme itératif qui partitionne les données en k clusters en minimisant la variance intra-cluster. Il nécessite de spécifier k à l’avance et est sensible aux points aberrants.

  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : méthode fondée sur la densité des points. Elle identifie des zones de forte densité comme des clusters et isole les points rares comme du bruit. Elle est efficace pour détecter des formes arbitraires et robustes au bruit.

  • Clustering hiérarchique : méthode agglomérative (ou divisive) qui construit une hiérarchie de clusters sous forme d’arbre (dendrogramme). Elle ne nécessite pas forcément de spécifier le nombre de clusters au départ et permet une exploration multi-échelle.