Algorithmes

L’apprentissage semi-supervisé repose sur une série d’algorithmes hybrides qui combinent des techniques supervisées et non supervisées pour exploiter au mieux les données partiellement annotées. Ces algorithmes cherchent à propager l’information des quelques étiquettes disponibles vers l’ensemble des données non étiquetées, tout en préservant la structure sous-jacente des données.

Label Propagation et Label Spreading

Basés sur des graphes, ces algorithmes diffusent les étiquettes connues vers les données non étiquetées via un processus de proximité ou de similarité. Ils sont efficaces lorsque la structure du graphe reflète bien la distribution réelle des classes.

Semi-Supervised SVM (S3VM)

Une extension des SVM traditionnels qui cherche à optimiser la séparation entre classes non seulement sur les données étiquetées, mais aussi en tenant compte des données non annotées, en maximisant la marge globale.

Generative Models

Ces modèles apprennent la distribution jointe des données et des étiquettes, ce qui permet de générer des représentations utiles même avec peu de supervision.

Pseudo-Labeling

Une technique simple qui consiste à entraîner un modèle supervisé sur les données étiquetées, puis à générer des étiquettes fictives (pseudo-labels) sur les données non étiquetées pour les réintégrer dans l’apprentissage.

Consistency Regularization-based Models

Ces méthodes reposent sur l’idée que le modèle doit produire des prédictions cohérentes même sous des perturbations d’entrée. Elles sont particulièrement performantes dans des contextes modernes, comme la vision par ordinateur.