Apprentissage non supervisé

L’apprentissage non supervisé se distingue de l’apprentissage supervisé par l’absence de données étiquetées ou de variables cibles explicites. L’objectif principal de l’apprentissage non supervisé est d’extraire des structures cachées, des regroupements naturels ou des caractéristiques importantes dans des ensembles de données non annotées. Cette approche est particulièrement utilisée pour la segmentation de données, la compression, la réduction de dimensionnalité ou encore la détection d’anomalies.

Cette section présente les principales méthodes de l’apprentissage non supervisé, en détaillant leurs principes algorithmiques, leurs applications pratiques et les défis associés à leur implémentation.


Clustering (K-means, DBSCAN, clustering hiérarchique)

Le clustering désigne une tâche d’apprentissage non supervisé visant à partitionner un ensemble de données en sous-groupes (ou clusters) de sorte que les éléments au sein de chaque groupe soient plus similaires entre eux qu’avec ceux des autres groupes.

Chacune de ces techniques est détaillée en termes de mécanismes sous-jacents, de critères de performance (comme la silhouette score) et de limites dans le traitement de grandes quantités de données ou de données bruyantes.


Réduction de dimensionnalité (PCA, t-SNE, UMAP)

La réduction de dimensionnalité est une technique permettant de réduire le nombre de variables d’un ensemble de données tout en préservant au mieux les informations essentielles. Elle est souvent utilisée pour la visualisation, la compression, ou comme étape préalable à d’autres techniques d’apprentissage.

Chaque technique est analysée sous l’angle de son efficacité, de sa capacité à préserver la structure des données et de son utilisation dans des cas d’application spécifiques (visualisation, prétraitement, exploration de données).


Détection d’anomalies

La détection d’anomalies consiste à identifier des observations qui diffèrent significativement des autres et sont souvent considérées comme des outliers ou des exceptions. Elle est largement utilisée dans des domaines comme la sécurité informatique, la surveillance de la qualité, ou la détection de fraudes.
Les techniques de détection d’anomalies peuvent être supervisées, semi-supervisées ou non supervisées. En mode non supervisé, les méthodes les plus courantes incluent :

Cette sous-section aborde les différentes stratégies de détection d’anomalies, ainsi que les métriques d’évaluation utilisées pour juger de leur efficacité, telles que la précision, le rappel, et l’aire sous la courbe ROC (AUC).