Approches

L’apprentissage semi-supervisé se situe à mi-chemin entre l’apprentissage supervisé (avec données annotées) et non supervisé (sans étiquettes), en exploitant à la fois un petit ensemble de données étiquetées et un grand volume de données non étiquetées. Ce paradigme est particulièrement utile dans des contextes où l’annotation manuelle est coûteuse ou complexe (comme en médecine, en vision par ordinateur ou en traitement du langage naturel).

Principales approches de l’apprentissage semi-supervisé

  • Auto-training : le modèle est d’abord entraîné sur les données étiquetées, puis utilisé pour prédire des étiquettes sur les données non étiquetées. Les prédictions les plus confiantes sont ensuite ajoutées à l’ensemble d’apprentissage.

  • Co-training : deux modèles sont entraînés simultanément sur différentes vues des données (features différentes) ; chacun étiquette les données non annotées que l’autre utilisera ensuite.

  • Graph-based learning : les données sont représentées sous forme de graphe où les nœuds (échantillons) sont reliés en fonction de leur similarité. L’information des labels est propagée via les connexions du graphe.

  • Méthodes par consistance (Consistency regularization) : elles cherchent à rendre les prédictions du modèle robustes aux perturbations des données non étiquetées, en incitant le modèle à produire des prédictions similaires sur des versions légèrement modifiées d’un même échantillon.

  • Pseudo-labeling : consiste à générer des pseudo-étiquettes sur les données non annotées avec le modèle actuel et à les intégrer à l’apprentissage comme si elles étaient réelles.


Conclusion

Ces approches semi-supervisées permettent d’exploiter efficacement les vastes quantités de données disponibles, tout en limitant les coûts d’annotation. Elles constituent un levier stratégique pour améliorer les performances des modèles dans des contextes de données limitées et ouvrent la voie à des applications robustes et plus accessibles.