Concevoir des IA sobres suppose de revoir la manière dont elles sont conçues, entraînées et déployées. Cela implique d’interroger les modèles utilisés, la puissance de calcul mobilisée et les pratiques d’ingénierie associées.
Les chiffres sont sans appel : la montée en capacité des modèles d’IA entre en conflit avec les exigences de sobriété. Selon l’étude du Shift Project intitulée « Intelligence artificielle, données, calculs : quelles infrastructures dans un monde décarboné ? », la consommation électrique mondiale des centres de données est passée d’environ 165 TWh en 2014 à près de 420 TWh en 2024, avec une progression plus rapide ces dernières années (environ +7 % par an entre 2014 et 2019, puis environ +13 % par an entre 2019 et 2024). « Sans inflexion majeure, un ordre de grandeur jusqu’à 1 500 TWh/an à l’horizon 2030 est envisagé. Quant à la part de l’IA, elle passerait d’environ 15 % en 2025 à 35 % en 2030. Ces ordres de grandeur suffisent à expliquer pourquoi conserver la dynamique actuelle rendrait caduque l’atteinte des objectifs de décarbonation du secteur en 2030, en inventaire national comme en empreinte », déclare Siba Haidar, Enseignante-chercheuse en informatique à l’ESIEA et membre du groupe de travail « Puissance informatique et IA frugale » du Shift Project, qui s’exprimait lors du GreenTech Forum 2025.
Des systèmes multi-agents gourmands
Cette course à la puissance était jusqu’à l’an dernier liée à l’augmentation de la taille des modèles (leur nombre de paramètres). Elle prend désormais d’autres chemins, toujours en opposition avec les objectifs de sobriété. « Aujourd’hui, la course à la puissance passe notamment par les modèles à raisonnement. Ces derniers produisent beaucoup de textes intermédiaires et utilisent toujours plus de quantité de calcul pour apporter une réponse », analyse Amiel Sitruk, Président de Terra Cognita. « Par ailleurs, les systèmes multi-agents — qui s’appuient sur des échanges de tokens intensifs et des boucles d’actions itératives — sont particulièrement gourmands en calcul. C’est notamment le cas des approches de comme “deep research” de ChatGPT, qui exécutent plusieurs agents capables de rechercher, filtrer et analyser successivement des informations en ligne pour produire des rapports complexes ».
Optimiser les modèles, les prompts, les réponses et opter pour des SLM
Pour tenter d’endiguer cette fuite en avant, plusieurs leviers techniques peuvent être activés. Le premier d’entre eux consiste à optimiser le modèle par des techniques comme l’élagage (pruning), la quantification, la compression ou la distillation. L’objectif est de réduire la taille et la puissance de calcul requise lors de l’inférence, sans dégrader significativement la performance. « Une étude de l’UNESCO publiée en 2025 montre que les techniques comme la quantification permettent de réduire la complexité des calculs et de générer des économies d’énergie allant jusqu’à 44 %. Cela réduit également le coût d’exécution des LLM en les rendant plus petits et plus rapides », note Marie Langé, Senior Manager IA chez Wavestone.
Réduction des requêtes et réponses
Un autre levier consiste à raccourcir la taille des requêtes (les prompts) et des réponses. Plus la longueur des requêtes et des réponses est réduite, plus les économies sont importantes. À noter : la longueur des réponses a un impact bien plus fort que celle des requêtes. La même étude de l’UNESCO montre ainsi que générer une réponse de 200 mots au lieu de 400 mots peut réduire la consommation d’énergie de 54%. « Il est donc crucial de mettre en place des stratégies pour réduire les requêtes et les réponses, comme l’utilisation d’outils de compression de prompts qui permettent de réduire la taille des entrées, le temps de réponse et les coûts, sans compromettre la qualité. Il est important par ailleurs de sensibiliser les utilisateurs et de les informer de l’impact énergétique des interactions prolongées avec les IA, tout en les encourageant à des échanges concis pour limiter la consommation inutile », poursuit Marie Langé.
Fine-tuning
Un troisième levier pour diminuer l’impact énergétique de l’inférence consiste à remplacer les grands modèles de langage génériques (LLM) par des modèles plus petits (SLM), ajustés et spécifiquement optimisés pour des tâches définies. En pratique, il faut partir d’un SLM pré-entrainé, que l’on adapte grâce à du fine-tuning à l’aide de jeux de données spécifiques à un domaine, le rendant pertinent pour des applications telles que l’analyse de documents juridiques ou le diagnostic médical. « Bien que ces modèles plus petits ne disposent pas des capacités générales des grands LLM, ils excellent dans des applications ciblées, tout en réduisant considérablement les coûts énergétiques, jusqu’à 90% selon l’étude de l’UNESCO », conclut Marie Langé.
Agir sur la structure même du calcul et du déploiement des modèles
En complément des techniques d’optimisation mentionnées, il est également possible d’agir sur la structure même du calcul et du déploiement des modèles, dimensions encore peu prises en compte dans la plupart des travaux industriels. Un des premiers leviers est la décentralisation du calcul via l’apprentissage fédéré. « La décentralisation permet de rapprocher le calcul des données, de réduire les transferts réseau et d’éviter la multiplication de phases d’entraînement redondantes dans le cloud. Cette approche limite la consommation d’énergie associée aux centres de données, tout en renforçant la confidentialité des données locales », explique Siba Haidar.
La puissance de calcul comme ressource finie
La personnalisation frugale des modèles, par ajustement partiel comme LoRA ou Adapter Tuning, permet d’adapter un modèle pré-entraîné à un usage précis sans le réentraîner entièrement. Cela réduit fortement la charge de calcul et valorise l’énergie déjà investie dans le modèle initial. « Dans le domaine de l’IA, l’analyse de cycle de vie complète (ACV) consiste à mesurer l’impact environnemental d’un système sur l’ensemble de ses étapes : fabrication des équipements, transport, déploiement, phase d’usage (entraînement et inférence), puis fin de vie. Les travaux de l’ADEME, de l’ARCEP, du Shift Project, ainsi que le référentiel AFNOR SPEC 2314 rappellent que cette approche globale est indispensable : on ne peut plus se limiter à l’optimisation locale d’un modèle, il faut raisonner à l’échelle du cycle de vie complet et d’un budget énergie-carbone cohérent avec les objectifs climatiques », ajoute Siba Haidar. « Pour rester cohérents avec les objectifs climatiques, ces choix doivent s’inscrire dans une trajectoire énergie-carbone mesurée. Comme le souligne le Shift Project, on ne peut plus optimiser modèle par modèle : il faut désormais piloter la puissance de calcul comme une ressource finie, alignée sur un budget énergie-carbone de référence ».
Remettre l’IA générative à sa place
Pour conclure, Amiel Sitruk rappelle qu’il ne faut pas oublier de remettre l’IA générative à sa place : « Il s’agit d’un outil avec une versatilité impressionnante, mais l’IA générative reste un outil et ce n’est pas nécessairement le meilleur dans toutes les situations. Dans un certain nombre de cas, des types d’IA qui préexistaient et qui ont des empreintes environnementales (et bien souvent, des coûts) nettement plus faibles sont plus performantes ». C’est le cas pour le traitement des données tabulaires où des méthodes de machine learning classique restent les plus efficaces. On observe la même chose pour certains usages relevant de techniques considérées comme « old school », comme les systèmes experts, qui se montrent très performants et particulièrement sobres, par exemple dans la détection d’intrusion en cybersécurité. « Le terrain de jeu de l’IA s’est significativement élargi avec l’arrivée de l’IA générative. Dans ce contexte, le premier levier technique à activer, et la première expertise que l’on peut apporter, c’est de bien définir le cas d’usage et d’y mettre en face le type d’IA le plus pertinent, conformément à l’AFNOR Spec 2314 / Référentiel général pour l’IA frugale », conclut-il.
Tech In Sport
Green Tech Leaders
Alliancy Elevate
International
Nominations
Politique publique


