Réduction de dimensionnalité (PCA, t-SNE, UMAP)
La réduction de dimensionnalité est un ensemble de techniques destinées à projeter des données de haute dimension dans un espace de plus faible dimension tout en conservant au maximum la structure pertinente de l’information. Cela permet d’améliorer l’interprétabilité, de visualiser les données ou de réduire les coûts de calcul en machine learning.
-
PCA (Principal Component Analysis) : méthode linéaire qui transforme les données en une base orthogonale où les nouvelles dimensions (composantes principales) maximisent la variance. Elle est utile pour l’analyse exploratoire et la compression de données.
-
t-SNE (t-distributed Stochastic Neighbor Embedding) : technique non linéaire de réduction pour la visualisation. Elle est conçue pour conserver la structure locale (voisinage) des données et est particulièrement adaptée aux données complexes (images, textes). Cependant, elle est coûteuse et non déterministe.
-
UMAP (Uniform Manifold Approximation and Projection) : algorithme plus rapide et plus flexible que t-SNE, basé sur la topologie des variétés. Il est efficace pour la visualisation et conserve à la fois la structure locale et globale.