Durabilité

La compression, stratégie d’avenir des LLM 

Un défi international pour faire mieux avec moins. Le Résilient AI Challenge mise sur la compression pour concilier performance, sobriété et confidentialité des données.  

Publié le 4 mars

Lecture 3 min.

Freepik

Chercheurs et entreprises sont invités à participer à un concours international : le Résilient AI Challenge. La France, l’Inde, l’Unesco et la Sustainable AI Coalition ont lancé, le 20 février 2026, un défi pour mettre en place des IA économes en énergie. Il sera demandé aux participants de réduire la taille et la complexité de modèles partenaires, à savoir ceux de Google, Mistral AI ou Sarvam (startup indienne), en les compressant. “Les techniques de compression permettent de concevoir des systèmes plus économes en énergie tout en conservant des performances élevées,” peut-on lire dans le communiqué de la Sustainable AI Coalition.  

Plusieurs techniques existent, notamment celle du pruning. Aussi appelée élagage, elle agit sur la phase d’inférence et allège le nombre de calculs nécessaires pour répondre au prompt. Plus précisément, elle réduit le nombre de paramètres d’un modèle d’IA (voir l’encadré). Lorsque les choix de paramètres coupés sont bien faits, la vitesse de réponse de l’IA s’accélère et la qualité de celle-ci peut même augmenter. 

Garantir la confidentialité des données 

En plus de ces gains de performance, la compression des LLM est un enjeu d’avenir, selon Michel Kurek, PDG de Multiverse Computing. “Depuis une quinzaine d’années, le nombre de paramètres a explosé. On note une augmentation de 360%, tandis que la puissance des infrastructures, elle, n’a augmenté que de 36% sur la même période”, raconte-t-il, en citant l’étude d’Epoch.AI. Une dynamique peu soutenable donc. À moins d’adapter l'architecture même des modèles. 

Outre ce besoin pressant, de multiples avantages font pencher vers les modèles compressés. Leur utilisation ne nécessite pas d’infrastructures très puissantes et permet ainsi d'intégrer l’IA en local. Plutôt que d’exister sur le cloud, l’IA embarquée se logent dans les serveurs internes d’une entreprise, ce qui garantit la confidentialité des données. Cela ouvre des possibilités énormes pour le marché de la défense ou d’autres secteurs très régulés comme la finance ou la santé. 

Moins cher donc plus accessible 

Ainsi, compresser des modèles pour arriver à des Small Language Models (SLM) élargit l’adoption de l’IA. Les grands modèles nécessitent, en effet, d’énormes ressources de calcul qui ne sont pas accessibles à tous, tandis que les systèmes plus efficients permettent aux chercheurs, aux institutions publiques, aux startups de développer leurs solutions d’IA. “L'IA devient ainsi plus facile à déployer en situation réelle, notamment là où les ressources informatiques sont limitées”, explique le communiqué de Sustainable AI Coalition. 

Alors, comment expliquer que, dans la pratique, la compression des modèles reste encore peu répandue ? D’abord, un apriori contre lequel il faut lutter : “Ce n’est pas parce qu’on compresse un modèle qu’on dégrade sa performance”, explique Michel Kurek. Il mise une prise de conscience collective face aux enjeux énergétiques ainsi qu’au coût de fonctionnement de modèles plus puissants. “ L’IA agentique consomme énormément par exemple, et la facture risque d’être considérable si son architecture est mal structurée ”, rappelle le PDG de Multiverse Computing. Alors, qui des enjeux ESG ou des enjeux budgétaires fera basculer la tendance ? En tout cas, l’IA compressée a de beaux jours devant elle.