CNN – Réseaux Convolutifs

Les réseaux de neurones convolutifs (CNN – Convolutional Neural Networks) sont une catégorie spécialisée de réseaux de neurones artificiels, conçus spécifiquement pour traiter des données structurées sous forme de grilles, comme les images. Leur architecture est particulièrement adaptée pour extraire des caractéristiques hiérarchiques des données, ce qui leur permet de résoudre efficacement des tâches de reconnaissance d’images, de segmentation, et d’analyse vidéo. Grâce à leur capacité à capter des motifs locaux dans les images, les CNN ont dominé les domaines de la vision par ordinateur.

Les CNN sont formés pour appliquer des opérations convolutives à l’ensemble de l’image, détectant des motifs simples dans les premières couches (comme des bords ou des textures) et des motifs plus complexes dans les couches profondes. Ces réseaux sont capables d’apprendre ces représentations sans nécessiter de prétraitements manuels de l’image.


Structure : convolutions, pooling, fully connected

Convolutions

L’opération convolutionnelle est le cœur des réseaux convolutifs. Elle consiste à appliquer un filtre ou noyau (une petite matrice de poids) sur une image d’entrée. Ce noyau est glissé sur l’image en réalisant une opération de somme pondérée entre les valeurs de l’image et les poids du noyau. Chaque position du filtre sur l’image génère un élément dans la sortie du filtre, appelée « carte de caractéristiques » ou feature map. Cette opération permet au réseau d’extraire des caractéristiques locales comme les bords, les textures, et les formes.

Formellement, la convolution d’un filtre FF sur une image II est donnée par :

I=IFI’ = I * F

* représente l’opération de convolution. La profondeur de la carte de caractéristiques obtenue dépend du nombre de filtres utilisés dans la couche convolutionnelle.

Pooling (Sous-échantillonnage)

Le pooling est une opération qui réduit la dimensionnalité de l’image tout en conservant les informations essentielles. Les deux types les plus courants de pooling sont :

L’objectif principal du pooling est de réduire la taille des cartes de caractéristiques, diminuant ainsi le nombre de paramètres et le coût de calcul, tout en préservant les informations pertinentes pour l’apprentissage.

Couches Fully Connected (Complètement connectées)

Après plusieurs couches convolutionnelles et de pooling, un réseau convolutif typique contient une ou plusieurs couches fully connected (entièrement connectées). Dans ces couches, chaque neurone est connecté à tous les neurones de la couche précédente, ce qui permet de prendre les caractéristiques extraites par les couches convolutives et de les combiner pour effectuer des tâches de classification ou de régression. La sortie de ces couches est souvent une probabilité de classes dans le cas de la classification.


Applications : vision, reconnaissance d’images

Les CNN sont principalement utilisés pour des tâches de vision par ordinateur, où les images sont analysées pour en extraire des informations pertinentes. Les applications typiques incluent :


Architectures célèbres : VGG, ResNet, EfficientNet

VGG (Visual Geometry Group)

VGG est une architecture de réseau convolutif bien connue, caractérisée par sa simplicité et sa profondeur. Elle se compose de plusieurs couches convolutionnelles suivies de couches entièrement connectées. L’architecture de VGG a été la base de nombreuses améliorations dans le domaine des CNN. Elle se distingue par l’utilisation de petites fenêtres de convolution (3×3) à travers les couches et une architecture très profonde, allant de 11 à 19 couches. VGG a été largement utilisée dans les compétitions et comme référence pour de nombreuses applications de vision par ordinateur.

ResNet (Residual Networks)

ResNet introduit le concept de blocs résiduels, qui permet de créer des réseaux très profonds sans rencontrer le problème de la dégradation des performances dû à l’augmentation de la profondeur. Les blocs résiduels permettent de contourner les couches en ajoutant une connexion directe entre l’entrée et la sortie du bloc. Cette innovation permet à ResNet de s’entraîner plus efficacement et de conserver une excellente performance même avec un grand nombre de couches (par exemple, 152 couches dans ResNet-152). ResNet est devenu un standard pour les architectures de CNN profonds.

EfficientNet

EfficientNet est une famille d’architectures de réseaux convolutifs qui se distingue par son approche d’optimisation de l’efficacité des réseaux. Plutôt que d’ajouter simplement plus de couches ou de filtres, EfficientNet utilise une méthode appelée « compound scaling » pour équilibrer la profondeur, la largeur et la résolution de l’image d’entrée. Cela permet de concevoir des réseaux qui sont plus efficaces en termes de performance et de coût de calcul, tout en obtenant des résultats de qualité comparable, voire supérieure, à d’autres architectures plus grandes comme VGG ou ResNet.


Conclusion

Les réseaux convolutifs (CNN) sont la pierre angulaire des avancées récentes dans le domaine de la vision par ordinateur. Grâce à des opérations de convolution et de pooling, ils peuvent extraire des caractéristiques hiérarchiques des données d’image, ce qui les rend extrêmement efficaces pour des tâches comme la reconnaissance d’images, la segmentation, et la détection d’objets. Des architectures célèbres telles que VGG, ResNet et EfficientNet ont grandement contribué à l’évolution de ces réseaux, en améliorant leur profondeur, leur efficacité et leur capacité à traiter des volumes massifs de données d’image.