Algorithmes

L’apprentissage semi-supervisé repose sur une série d’algorithmes hybrides qui combinent des techniques supervisées et non supervisées pour exploiter au mieux les données partiellement annotées. Ces algorithmes cherchent à propager l’information des quelques étiquettes disponibles vers l’ensemble des données non étiquetées, tout en préservant la structure sous-jacente des données.

Algorithmes courants en apprentissage semi-supervisé

  • Label Propagation et Label Spreading : basés sur des graphes, ces algorithmes diffusent les étiquettes connues vers les données non étiquetées via un processus de proximité ou de similarité. Ils sont efficaces lorsque la structure du graphe reflète bien la distribution réelle des classes.

  • Semi-Supervised SVM (S3VM) : une extension des SVM traditionnels qui cherche à optimiser la séparation entre classes non seulement sur les données étiquetées, mais aussi en tenant compte des données non annotées, en maximisant la marge globale.

  • Generative Models (ex. : Semi-Supervised Variational Autoencoders – VAE) : ces modèles apprennent la distribution jointe des données et des étiquettes, ce qui permet de générer des représentations utiles même avec peu de supervision.

  • Pseudo-Labeling : une technique simple qui consiste à entraîner un modèle supervisé sur les données étiquetées, puis à générer des étiquettes fictives (pseudo-labels) sur les données non étiquetées pour les réintégrer dans l’apprentissage.

  • Consistency Regularization-based Models : comme Mean Teacher ou FixMatch, ces méthodes reposent sur l’idée que le modèle doit produire des prédictions cohérentes même sous des perturbations d’entrée. Elles sont particulièrement performantes dans des contextes modernes, comme la vision par ordinateur.


Conclusion

Ces algorithmes permettent d’obtenir de bonnes performances avec peu de supervision, en tirant parti de la structure intrinsèque des données. Ils sont de plus en plus utilisés dans les applications industrielles où les données non étiquetées sont abondantes mais les ressources d’annotation sont limitées.