Apprentissage supervisé
L’apprentissage supervisé constitue l’une des approches majeures du Machine Learning. Il repose sur l’exploitation de données annotées pour entraîner un modèle à prédire une variable cible à partir d’un ensemble de caractéristiques d’entrée. Cette méthode est centrale dans de nombreux cas d’usage industriels et scientifiques, allant de la détection d’anomalies à la reconnaissance d’images ou à la prédiction de comportements.
Cette section présente les fondements mathématiques et algorithmiques de l’apprentissage supervisé, en distinguant les principales tâches (régression et classification), et en détaillant les techniques couramment employées pour construire, optimiser et évaluer les modèles.
Régression
- La régression linéaire repose sur l’hypothèse d’une dépendance linéaire entre les variables indépendantes et la variable cible. Elle est formulée comme un problème d’optimisation convexe et bénéficie d’une interprétabilité élevée.
- La régression logistique bien que souvent associée à la classification binaire, repose sur une modélisation probabiliste (fonction sigmoïde) adaptée à des sorties discrètes, et constitue une généralisation conceptuelle des modèles linéaires.
- La régression polynomiale, quant à elle, introduit des non-linéarités par la transformation des variables d’entrée, permettant de modéliser des relations complexes tout en conservant une base algébrique explicite.
Classification
- SVM (Support Vector Machine) : méthode basée sur la recherche d’un hyperplan optimal qui maximise la marge entre les classes. Elle est efficace dans les espaces de grande dimension et peut gérer la non-linéarité à l’aide de noyaux (kernel trick).
- KNN (K-Nearest Neighbors) : algorithme simple qui classe un point selon la majorité des étiquettes de ses k voisins les plus proches. Il ne nécessite pas d’apprentissage explicite mais repose sur la notion de distance dans l’espace des features.
- Arbres de décision: modèles arborescents qui segmentent l’espace de décision en posant des questions binaires sur les variables explicatives. Ils sont interprétables, rapides à entraîner, mais sensibles à l’overfitting si non régularisés.
Évaluation des modèles supervisés
- En régression , les mesures usuelles incluent l’erreur quadratique moyenne (RMSE), l’erreur absolue moyenne (MAE), ou encore le coefficient de détermination R².
- En classification , on privilégiera la précision, le rappel, la F-mesure, ainsi que l’aire sous la courbe ROC (AUC), en tenant compte des éventuels déséquilibres de classes.