Apprentissage semi-supervisé
L’apprentissage semi-supervisé constitue une approche intermédiaire entre l’apprentissage supervisé et non supervisé, dans laquelle un modèle est entraîné sur un ensemble de données comportant à la fois un petit nombre d’exemples étiquetés et un grand nombre d’exemples non étiquetés. Cette méthode est particulièrement utile lorsque l’étiquetage des données est coûteux ou difficile à réaliser, mais que des données non étiquetées sont facilement accessibles.
Le but de l’apprentissage semi-supervisé est d’exploiter les données non étiquetées afin d’améliorer la performance d’un modèle tout en minimisant le besoin en données annotées. Cette section explore les approches théoriques, les algorithmes principaux et les applications pratiques de cette méthode.
Approches de l’apprentissage semi-supervisé
- Auto-training Le modèle est d’abord entraîné sur les données étiquetées, puis utilisé pour prédire des étiquettes sur les données non étiquetées. Les prédictions les plus confiantes sont ensuite ajoutées à l’ensemble d’apprentissage.
- Co-training Deux modèles sont entraînés simultanément sur différentes vues des données (features différentes) ; chacun étiquette les données non annotées que l’autre utilisera ensuite.
- Graph-based learning Les données sont représentées sous forme de graphe où les nœuds (échantillons) sont reliés en fonction de leur similarité. L’information des labels est propagée via les connexions du graphe.
- Méthodes par consistance Elles cherchent à rendre les prédictions du modèle robustes aux perturbations des données non étiquetées, en incitant le modèle à produire des prédictions similaires sur des versions légèrement modifiées d’un même échantillon.
- Pseudo-labeling Consiste à générer des pseudo-étiquettes sur les données non annotées avec le modèle actuel et à les intégrer à l’apprentissage comme si elles étaient réelles.
Algorithmes d’apprentissage semi-supervisé
- Label Propagation et Label Spreading Basés sur des graphes, ces algorithmes diffusent les étiquettes connues vers les données non étiquetées via un processus de proximité ou de similarité. Ils sont efficaces lorsque la structure du graphe reflète bien la distribution réelle des classes.
- Semi-Supervised SVM (S3VM) Une extension des SVM traditionnels qui cherche à optimiser la séparation entre classes non seulement sur les données étiquetées, mais aussi en tenant compte des données non annotées, en maximisant la marge globale.
- Generative Models Ces modèles apprennent la distribution jointe des données et des étiquettes, ce qui permet de générer des représentations utiles même avec peu de supervision.
- Pseudo-Labeling Une technique simple qui consiste à entraîner un modèle supervisé sur les données étiquetées, puis à générer des étiquettes fictives (pseudo-labels) sur les données non étiquetées pour les réintégrer dans l’apprentissage.
- Consistency Regularization-based Models Comme Mean Teacher ou FixMatch, ces méthodes reposent sur l’idée que le modèle doit produire des prédictions cohérentes même sous des perturbations d’entrée. Elles sont particulièrement performantes dans des contextes modernes, comme la vision par ordinateur.
Applications pratiques de l’apprentissage semi-supervisé
- Vision par ordinateur Dans la reconnaissance d’objets, la détection d’anomalies industrielles ou la segmentation d’images médicales, l’apprentissage semi-supervisé permet de limiter les besoins en annotations manuelles, tout en conservant des performances proches de l’apprentissage supervisé.
- Traitement automatique du langage naturel (TALN) Dans la classification de texte, l’analyse de sentiments ou la détection de spam, il permet d’exploiter les corpus textuels massifs non labellisés en générant des pseudo-étiquettes ou en s’appuyant sur la régularisation de consistance.
- CybersécuritéLes systèmes de détection d’intrusion ou d’activités malveillantes bénéficient du semi-supervisé pour identifier des comportements anormaux à partir de peu d’exemples connus, tout en analysant en continu de nouvelles données réseau.
- Biomédecine et santéDans la classification de maladies ou l’analyse génomique, où les étiquettes nécessitent l’expertise humaine, le semi-supervisé aide à tirer parti des nombreuses données cliniques non annotées.
- Recommandation de contenuLes systèmes de recommandation peuvent exploiter les historiques de navigation partiellement labellisés (clics, likes, achats) pour améliorer la personnalisation en intégrant les comportements non annotés.
Défis et limites
- Qualité des données non labellisées L’efficacité du semi-supervisé repose sur l’hypothèse que les données non annotées suivent la même distribution que les données annotées. Si ce n’est pas le cas (distribution shift), les modèles risquent de généraliser de manière incorrecte.
- Propagation d’erreurs Lorsque des pseudo-labels sont générés automatiquement à partir des données étiquetées, les erreurs de prédiction peuvent être amplifiées au fil du processus d’entraînement, ce qui nuit à la performance globale.
- Choix du modèle et de la stratégie Il n’existe pas de méthode universelle efficace pour tous les contextes. Le choix de l’algorithme (co-training, self-training, régularisation par consistance, etc.) doit être adapté à la nature des données et aux contraintes du problème.
- Complexité computationnelle Certaines méthodes semi-supervisées, notamment celles impliquant des graphes ou de l’optimisation complexe, peuvent s’avérer coûteuses en ressources, surtout avec de grands volumes de données non labellisées.
- Évaluation du modèle L’absence de données étiquetées en grande quantité rend l’évaluation difficile. Il faut souvent recourir à des jeux de validation réduits ou à des techniques de validation croisées spécifiques.