Apprentissage non supervisé
L’apprentissage non supervisé se distingue de l’apprentissage supervisé par l’absence de données étiquetées ou de variables cibles explicites. L’objectif principal de l’apprentissage non supervisé est d’extraire des structures cachées, des regroupements naturels ou des caractéristiques importantes dans des ensembles de données non annotées. Cette approche est particulièrement utilisée pour la segmentation de données, la compression, la réduction de dimensionnalité ou encore la détection d’anomalies.
Cette section présente les principales méthodes de l’apprentissage non supervisé, en détaillant leurs principes algorithmiques, leurs applications pratiques et les défis associés à leur implémentation.
Clustering
- K-means Algorithme de partitionnement qui minimise la variance intra-cluster en assignant chaque observation au centre de cluster le plus proche. Il est efficace mais sensible aux choix initiaux des centres et au nombre de clusters (k) à déterminer.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Méthode fondée sur la densité des points. Elle identifie des zones de forte densité comme des clusters et isole les points rares comme du bruit. Elle est efficace pour détecter des formes arbitraires et robustes au bruit.
- Clustering hiérarchique Méthode agglomérative (ou divisive) qui construit une hiérarchie de clusters sous forme d’arbre (dendrogramme). Elle ne nécessite pas forcément de spécifier le nombre de clusters au départ et permet une exploration multi-échelle.
Réduction de dimensionnalité
- PCA (Principal Component Analysis) Une des méthodes les plus populaires, qui consiste à projeter les données dans un espace de dimension inférieure tout en maximisant la variance des données projetées. Elle repose sur le calcul des vecteurs propres et des valeurs propres de la matrice de covariance.
- t-SNE (t-distributed Stochastic Neighbor Embedding) Technique non linéaire de réduction pour la visualisation. Elle est conçue pour conserver la structure locale (voisinage) des données et est particulièrement adaptée aux données complexes (images, textes). Cependant, elle est coûteuse et non déterministe.
- UMAP (Uniform Manifold Approximation and Projection) Algorithme plus rapide et plus flexible que t-SNE, basé sur la topologie des variétés. Il est efficace pour la visualisation et conserve à la fois la structure locale et globale.
Détection d’anomalies
- Méthodes basées sur la distance (par exemple, les k plus proches voisins) qui mesurent la proximité d’un point par rapport aux autres points du jeu de données.
- Méthodes basées sur la densité (comme DBSCAN) qui détectent les régions de faible densité, souvent associées à des anomalies.
- Techniques de modèles probabilistes qui apprennent une distribution des données et identifient les observations peu probables.
- Méthodes basées sur l’isolation telles que l’Isolation Forest, qui est particulièrement adaptée aux grands ensembles de données.