Défis et limites

L’apprentissage semi-supervisé (SSL – Semi-Supervised Learning) s’impose comme une solution intermédiaire entre apprentissage supervisé (basé uniquement sur des données étiquetées) et apprentissage non supervisé (sans aucune étiquette). Il exploite efficacement un petit jeu de données étiquetées et un large volume de données non étiquetées pour améliorer la performance des modèles tout en réduisant les coûts liés à l’annotation.

Malgré ses nombreux avantages, le SSL comporte également de nombreuses limites pratiques et théoriques. Cet article explore en profondeur ces défis, illustrant pourquoi l’intégration du SSL dans un pipeline de machine learning nécessite rigueur, précaution et stratégie.



Problèmes liés à la qualité des données non étiquetées


Hétérogénéité et distribution divergente

Le fondement du SSL repose sur l’idée que les données non étiquetées proviennent de la même distribution que les données étiquetées. Si ce n’est pas le cas, les représentations apprises risquent d’être biaisées, voire contre-productives.

Exemple : En reconnaissance d’images, si les données étiquetées sont issues d’un appareil photo professionnel, mais que les données non étiquetées viennent de caméras de surveillance à basse résolution, la différence de distribution dégrade fortement la performance du modèle.

Bruit et qualité incertaine

Les données non étiquetées sont souvent collectées en masse, sans nettoyage. Cela introduit :

Le modèle pourrait intégrer ces informations comme valides, amplifiant ainsi les erreurs.



Hypothèses fortes sur la structure des données


Hypothèse de voisinage (cluster assumption)

Elle suppose que les points proches dans l’espace des caractéristiques partagent la même classe. Cela sous-tend de nombreuses méthodes SSL comme les graphes ou les algorithmes de propagation de labels.

Mais cette hypothèse ne tient pas toujours :

Hypothèse de la faible densité

La frontière de décision devrait passer par des zones à faible densité. Cela paraît logique, mais dans le monde réel, des zones à forte densité peuvent contenir plusieurs classes, surtout dans des jeux de données bruités ou multi-sources.



Propagation d’erreurs : les pseudo-labels imparfaits

Beaucoup de techniques SSL reposent sur le pseudo-étiquetage, où le modèle attribue une étiquette aux données non étiquetées selon ses propres prédictions.

Problème majeur : Si un pseudo-label est incorrect, et qu’il est réutilisé pour entraîner le modèle, l’erreur est consolidée. Ce mécanisme peut mener à :

Il est donc crucial de filtrer ou de pondérer les pseudo-étiquettes selon leur niveau de confiance.



Complexité algorithmique et calculatoire


Modèles complexes

Les techniques modernes (e.g. MixMatch, FixMatch, Mean Teacher, etc.) combinent plusieurs réseaux, fonctions de perte et contraintes de régularisation. Cette sophistication augmente la précision mais alourdit considérablement le coût computationnel.

Temps d’entraînement

La combinaison :

conduit à des temps d’entraînement prolongés, parfois multipliés par 2 ou 3 par rapport au modèle supervisé équivalent.

Hyperparamètres supplémentaires

Exemples :

Le tuning devient alors plus complexe et plus fragile.



Nécessité d’un socle étiqueté de qualité

Contrairement à une idée reçue, le SSL ne fonctionne pas avec zéro étiquette. Il faut un jeu étiqueté initial suffisamment représentatif, faute de quoi :

Le SSL complète l’apprentissage supervisé, mais ne le remplace jamais entièrement.



Problèmes d’évaluation


Jeux de test peu représentatifs

Dans des scénarios où les données étiquetées sont rares, le jeu de test l’est aussi. Si ce dernier n’est pas représentatif de la distribution globale, l’évaluation sera faussée.

Surapprentissage sur la validation

Avec un faible volume de données étiquetées, il est fréquent que le modèle surapprenne le petit jeu de validation, surestimant ainsi ses performances générales.

Déficit de métriques robustes

Des métriques comme l’accuracy peuvent être trompeuses en présence d’un déséquilibre entre classes. Or, de nombreux benchmarks en SSL utilisent uniquement l’accuracy, masquant des problèmes plus profonds.



Sécurité et vulnérabilités


Attaques adversariales

Les modèles semi-supervisés peuvent être manipulés par des entrées soigneusement conçues. L’absence d’étiquettes rend plus difficile la détection de comportements anormaux.

Empoisonnement des données

Un attaquant pourrait injecter dans les données non étiquetées :

Le modèle les intègre dans son apprentissage, provoquant des dérives insidieuses.



Limites théoriques

Contrairement à l’apprentissage supervisé, le cadre théorique du SSL est encore jeune.

Peu de garanties formelles

Il existe peu de bornes de généralisation solides ou de garanties de convergence dans les algorithmes SSL, notamment pour les approches basées sur le deep learning.

Dépendance forte aux hypothèses

Les méthodes SSL dépendent de postulats (structure du voisinage, densité, etc.) qui ne sont pas vérifiables à l’avance.

En cas de violation, les performances peuvent s’effondrer sans avertissement.



Défis par domaine d’application


Vision par ordinateur
Traitement du langage naturel (NLP)
Données tabulaires



Situations où le SSL est déconseillé



Bonnes pratiques pour limiter les risques



Conclusion

L’apprentissage semi-supervisé offre un potentiel considérable, notamment dans les situations où l’annotation manuelle est coûteuse ou impraticable. Cependant, il n’est pas une solution miracle. Il exige :

Pour les praticiens, le succès du SSL repose sur une maîtrise fine des limites autant que sur l’exploitation de ses avantages. Intégrer le SSL, c’est avant tout un choix stratégique, qui doit être adapté au contexte, aux données et aux objectifs.