Load Balancing (répartition de la charge)


Le load balancing consiste à distribuer automatiquement les requêtes ou le trafic entrant entre plusieurs serveurs, ressources ou instances d’une application pour optimiser les performances et assurer la disponibilité.


Objectifs


Types de load balancing

  1. Round Robin :

    • Les requêtes sont envoyées tour à tour à chaque serveur.

    • Simple mais ne prend pas en compte la charge réelle des serveurs.

  2. Least Connections :

    • La requête est envoyée au serveur ayant le moins de connexions actives.

    • Idéal pour des traitements longs ou variables.

  3. IP Hash :

    • La répartition se fait selon l’adresse IP du client.

    • Permet d’assurer qu’un client spécifique revient toujours sur le même serveur.


Outils et technologies


Exemple d’utilisation pour une application IA


Si plusieurs utilisateurs envoient des requêtes à un modèle de deep learning lourd, un load balancer peut répartir ces requêtes sur plusieurs instances du serveur qui hébergent le modèle, afin d’éviter qu’un seul serveur soit saturé et ralentisse l’ensemble.


Avantages

Fonctions :

  • Load Balancing (exemple)