Apprentissage supervisé
L’apprentissage supervisé constitue l’une des approches majeures du Machine Learning. Il repose sur l’exploitation de données annotées pour entraîner un modèle à prédire une variable cible à partir d’un ensemble de caractéristiques d’entrée. Cette méthode est centrale dans de nombreux cas d’usage industriels et scientifiques, allant de la détection d’anomalies à la reconnaissance d’images ou à la prédiction de comportements.
Cette section présente les fondements mathématiques et algorithmiques de l’apprentissage supervisé, en distinguant les principales tâches (régression et classification), et en détaillant les techniques couramment employées pour construire, optimiser et évaluer les modèles.
Régression (linéaire, logistique, polynomiale)
La régression désigne les techniques permettant de modéliser une relation entre un ou plusieurs prédicteurs et une variable de sortie continue.
-
La régression linéaire repose sur l’hypothèse d’une dépendance linéaire entre les variables indépendantes et la variable cible. Elle est formulée comme un problème d’optimisation convexe et bénéficie d’une interprétabilité élevée.
-
La régression logistique, bien que souvent associée à la classification binaire, repose sur une modélisation probabiliste (fonction sigmoïde) adaptée à des sorties discrètes, et constitue une généralisation conceptuelle des modèles linéaires.
-
La régression polynomiale, quant à elle, introduit des non-linéarités par la transformation des variables d’entrée, permettant de modéliser des relations complexes tout en conservant une base algébrique explicite.
Ces méthodes sont abordées à travers leurs formulations analytiques, leurs propriétés d’approximation, ainsi que leurs limites en matière de biais, variance et sensibilité aux données aberrantes.
Classification (SVM, KNN, arbres de décision)
La classification vise à assigner une étiquette discrète à chaque observation, à partir de ses caractéristiques descriptives.
-
Les machines à vecteurs de support (SVM) utilisent le principe du maximum de marge pour séparer les classes de manière optimale, éventuellement dans des espaces transformés via des noyaux (kernel trick).
-
L’algorithme des k plus proches voisins (KNN) repose sur une approche non paramétrique et instance-based, assignant la classe majoritaire parmi les voisins les plus proches dans l’espace des features.
-
Les arbres de décision, en revanche, segmentent l’espace des données en régions homogènes par des règles conditionnelles hiérarchiques, et forment la base de modèles plus complexes comme les forêts aléatoires (random forests) ou le gradient boosting.
Chacun de ces algorithmes est analysé selon ses hypothèses, sa complexité, ses mécanismes d’apprentissage, et sa robustesse vis-à-vis du bruit ou des déséquilibres de classes.
Évaluation des modèles supervisés
L’évaluation des performances des modèles supervisés repose sur une batterie de métriques quantitatives adaptées à la tâche (régression ou classification) et à la nature des données.
-
En régression, les mesures usuelles incluent l’erreur quadratique moyenne (RMSE), l’erreur absolue moyenne (MAE), ou encore le coefficient de détermination R².
-
En classification, on privilégiera la précision, le rappel, la F-mesure, ainsi que l’aire sous la courbe ROC (AUC), en tenant compte des éventuels déséquilibres de classes.
Cette partie aborde également les techniques de validation croisée (k-fold, leave-one-out), les courbes d’apprentissage, ainsi que les problématiques de surapprentissage (overfitting) et sous-apprentissage (underfitting). Une attention particulière est portée à la rigueur méthodologique dans la séparation des ensembles d’apprentissage, de validation et de test.