Pourquoi les LLM sont limités en mathématiques (et comment y remédier)

Les grands modèles de langage (LLM) comme GPT-4 ou ChatGPT ont démontré des capacités impressionnantes en génération de texte, en traduction et même en code. Pourtant, dès qu’il s’agit de résoudre des problèmes mathématiques, leur performance chute significativement. Dans cet article, nous allons explorer pourquoi ces modèles échouent en mathématiques, et quelles approches existent pour améliorer leurs résultats.

L’architecture des LLM et ses implications

Un LLM est un modèle génératif entraîné pour prédire le token suivant dans une séquence de texte. Cela fonctionne très bien pour le langage, car les phrases suivent des patterns statistiques. Mais les mathématiques requièrent des résultats exacts et déterministes, ce qui est fondamentalement différent d’une prédiction probabiliste.

Conséquence : même lorsqu’un LLM génère un raisonnement qui semble logique, les étapes intermédiaires peuvent contenir des erreurs numériques ou symboliques.

Les difficultés liées aux nombres et au symbolisme

Les LLM tokenisent le texte, ce qui inclut les nombres. Un même nombre peut être représenté par plusieurs tokens, et le modèle ne comprend pas intrinsèquement les relations arithmétiques entre eux. Les opérations comme l’addition, la multiplication ou la factorisation ne sont pas exécutées comme dans un moteur de calcul, mais “prédisent” la suite la plus probable en langage naturel.

De plus, la manipulation symbolique (équations, dérivées, factorisations) est particulièrement fragile. Les modèles peuvent appliquer incorrectement les règles, sauter des étapes ou inventer des solutions intermédiaires.

Limites liées aux données d’entraînement

Les corpus utilisés pour entraîner les LLM contiennent très peu de données mathématiques structurées. La majorité des textes mathématiques sur Internet sont hétérogènes : notations variées, erreurs, formats inconsistants. Cela réduit la capacité du modèle à apprendre des règles mathématiques précises et entraîne des hallucinations lors de la génération de solutions.

Faiblesses en raisonnement étape par étape

Des techniques comme le chain-of-thought prompting permettent au modèle de générer des étapes intermédiaires pour résoudre un problème. Cela améliore les performances sur certains benchmarks (GSM8K, MATH). Cependant, ces méthodes restent fragiles : les étapes peuvent être incorrectes ou incohérentes, surtout pour des problèmes multi-étapes complexes.

Benchmarks et performances actuelles

Les modèles généralistes plafonnent rapidement sur les benchmarks mathématiques. Même les modèles spécialisés, comme Minerva (Google), montrent des limites sur les problèmes d’olympiades ou les démonstrations longues. Ces évaluations démontrent que les LLM n’ont pas une compréhension “formelle” des mathématiques.

Solutions et approches émergentes

Pour compenser ces limites, plusieurs stratégies sont étudiées :

Hybridation LLM + moteur de calcul
Connecter un LLM à des moteurs comme WolframAlpha, SymPy ou un REPL Python. Le LLM s’occupe de l’interface en langage et de l’explication, le moteur réalise le calcul exact.
Modèles spécialisés
Entraîner ou fine-tuner un LLM sur des données mathématiques structurées améliore les résultats sur des problèmes complexes. Exemple : Minerva de Google.
Approches neuro-symboliques
Combiner des réseaux neuronaux pour l’interprétation avec des systèmes logiques pour la validation. Cela permet de mixer flexibilité linguistique et rigueur formelle, et représente une piste prometteuse pour l’avenir.
Techniques de vérification et de consistency
Self-consistency, génération multiple de raisonnements et vote majoritaire, vérification par exécution dans un environnement de calcul. Ces méthodes augmentent la fiabilité, mais ne remplacent pas un moteur de calcul.

Recommandations pour les praticiens

Toujours vérifier les résultats numériques générés par un LLM avant de les utiliser.
Présenter les solutions comme des suggestions à valider, surtout dans un contexte pédagogique ou financier.
En contexte d’apprentissage, montrer les étapes et inviter l’utilisateur à exécuter lui-même le calcul.
Pour les exercices avancés, privilégier des modèles spécialisés et/ou l’hybridation avec des moteurs de calcul.

Conclusion

Les LLM ne sont pas “mauvais en maths” par accident. Leur conception et leur objectif principal — manipuler le langage et reconnaître des patterns textuels — les rendent inaptes à un raisonnement exact et déterministe.
Cependant, la recherche en hybridation LLM + moteurs de calcul, en modèles spécialisés et en approches neuro-symboliques offre des solutions concrètes pour combiner compréhension linguistique et rigueur mathématique.

En tant que praticien en data science, il est crucial de ne jamais confondre plausibilité et exactitude lorsque l’on utilise un LLM pour des calculs ou des démonstrations mathématiques.