Approches

L’apprentissage semi-supervisé se situe à mi-chemin entre l’apprentissage supervisé (avec données annotées) et non supervisé (sans étiquettes), en exploitant à la fois un petit ensemble de données étiquetées et un grand volume de données non étiquetées. Ce paradigme est particulièrement utile dans des contextes où l’annotation manuelle est coûteuse ou complexe (comme en médecine, en vision par ordinateur ou en traitement du langage naturel).

Principales approches de l’apprentissage semi-supervisé

Auto-training

Le modèle est d’abord entraîné sur les données étiquetées, puis utilisé pour prédire des étiquettes sur les données non étiquetées. Les prédictions les plus confiantes sont ensuite ajoutées à l’ensemble d’apprentissage.

Co-training

Deux modèles sont entraînés simultanément sur différentes vues des données (features différentes) ; chacun étiquette les données non annotées que l’autre utilisera ensuite.

Graph-based learning

Les données sont représentées sous forme de graphe où les nœuds (échantillons) sont reliés en fonction de leur similarité. L’information des labels est propagée via les connexions du graphe.

Méthodes par consistance

Elles cherchent à rendre les prédictions du modèle robustes aux perturbations des données non étiquetées, en incitant le modèle à produire des prédictions similaires sur des versions légèrement modifiées d’un même échantillon.

Pseudo-labeling

Consiste à générer des pseudo-étiquettes sur les données non annotées avec le modèle actuel et à les intégrer à l’apprentissage comme si elles étaient réelles.