Enedis : objectif industrialisation de la génération de données de consommation

Le distributeur d’énergie Enedis mène un complexe projet de machine learning. Le but est ainsi de générer, grâce à un GAN, des courbes de consommation fictives, mais cependant réalistes. Une solution conciliant conformité et capacité d’innovation.

Enedis Data CentricLa génération de données n’a pas attendu OpenAI et ChatGPT. Les GANs ou Generative Adversarial Networks (réseaux antagonistes génératifs) les ont précédés dans l’univers du Machine Learning. Ces techniques d’IA permettent ainsi de répondre à des cas d’usage spécifiques tout en tenant compte d’enjeux de conformité.

Société Générale IGAD a ainsi recours au GAN pour entraîner une IA à détecter et extraire les informations manuscrites de formulaires. Deux scénarios sont possibles pour répondre à ce besoin. Le premier consiste à recourir à un jeu d’entraînement composé de documents réels annotés. Le second passe par la génération de données synthétiques.

Enedis Data Centric depuis 10 ans

Cette solution, c’est aussi celle adoptée par Enedis pour la génération de courbes de consommation électrique ou courbes de charge. Il s’agit ici de séries temporelles, là où les modèles génératifs se concentrent aujourd’hui sur le texte. Anne de Moliner, experte Data Scientist, et Aboubakr Machrafi, Data Scientist pour l’énergéticien, en témoignaient en juin lors de la conférence IMAgine Day IA Génératives.

Le métier historique d’Enedis, c’est la distribution de l’électricité. Dans ce cadre, il exploite et modernise le réseau électrique. D’autres besoins sont apparus. Et pour y répondre, l’industriel a dû développer une maîtrise des données. Les volumes de données générés se sont massifiés avec le développement de la connectivité des équipements.

A lire aussi : IA générative : la méthode Cdiscount pour combiner satisfaction et performance

“Nous sommes le premier IoT de France en nombre d’objets communicants avec 38 millions de compteurs Linky”, indique Anne de Moliner. Le distributeur se revendique Data Centric depuis plus de 10 ans et doté d’une forte expérience sur le Big Data. Il collecte de multiples sources de données, dont des séries temporelles liées à la courbe de charge.

Ces données revêtent cependant une spécificité. Il s’agit de DCP, c’est-à-dire des données à caractère personnel. Leur exploitation est donc encadrée par la réglementation. Pour certaines applications, des données individuelles et non agrégées s’avèrent nécessaires. Dans le cadre d’expérimentations, comme des hackathons, les développeurs ont aussi besoin de disposer de données réalistes.

Pour répondre à ces besoins, Enedis s’est tourné vers les GAN, qui lui permettent de “simuler des fausses données individuelles, réalistes et réunissant les mêmes propriétés que les vraies. Cette approche protège ainsi les données authentiques”, explique Anne de Moliner.

Des données générées réalistes, mais conformes

Génération de donnéesLes premiers pas d’Enedis dans le domaine des GANs ont débuté dans le cadre d’un partenariat avec la R&D d’EDF.

“Nous menons aussi des travaux en interne pour essayer de généraliser l’usage des données synthétiques à d’autres types de clients, par exemple”, précise-t-elle encore. Pour y parvenir, une méthodologie a été mise en place. Et la première étape consiste déjà à définir une courbe réaliste de consommation.

L’IA générative permet déjà aujourd’hui de générer des visages, des sons et de la vidéo. Pour une courbe de charge individuelle, l’exercice se révèle plus complexe, note Aboubakr Machrafi. L’objectif des Data Scientists d’Enedis a donc consisté à identifier des critères caractéristiques d’une courbe réaliste et à générer sur une année des courbes au pas 30 minutes en fonction de ces paramètres, afin ensuite de pouvoir les exploiter librement (sans risque RGPD).

Enedis détermine le réalisme d’une courbe au travers de trois critères, de distribution, variationnels (échelle temporelle longue, saisonnalité, sensibilité aux températures…) et individuels. Les données seront par exemple le reflet d’une routine et d’habitudes, et comprendront des heures pleines et creuses.

Sur la catégorie des clients résidentiels, l’industriel a testé plusieurs modèles depuis 2017, dont des chaînes de Markov. Ses data scientists ont rencontré des difficultés, en particulier pour générer sur une année complète des données au pas 30 minutes. Cette performance a été atteinte néanmoins grâce à l’apprentissage (à partir de 60.000 courbes) d’un grand modèle de GAN baptisé “Naïve”.

Objectifs industrialisation et validation par la Cnil

Le modèle retenu est de type DC-WGAN Conditionnel. Cela signifie qu’en plus des variables aléatoires, il tient compte de précisions sur les profils des clients (nature des heures et puissance souscrite en particulier). Enfin, au travers de la mesure de similarité, Enedis s’assure que les courbes générées ne permettent pas d’identifier un client réel. La similarité se calcule par le biais d’une fonction mathématique.

“La finalité, c’est de parvenir à une courbe qui n’appartient à personne et suffisamment diversifiée pour pouvoir convaincre le régulateur que nous n’utilisons pas des données à caractère personnel”, justifie Aboubakr Machrafi. Cet objectif est rempli, même s’il reste à valider auprès des autorités compétentes.

Enedis n’en a cependant pas encore terminé avec ses efforts dans le secteur des GAN. L’entreprise prévoit d’étendre les critères de génération. Pour l’heure, seuls les clients résidentiels sont concernés. A l’avenir, les données générées porteront sur d’autres typologies, dont les professionnels.

L’énergéticien souhaite aussi étendre son algorithme afin de générer des courbes conditionnelles par localisation géographique et en fonction des équipements électriques (chauffage, climatisation, véhicules électriques, etc.).

Les experts de la Data Science ambitionnent aussi de renforcer les critères d’évaluation de la vraisemblance des courbes générées, et d’ajouter d’autres conditions que la catégorie client et la puissance souscrite, dont la température. Enfin, Enedis entend valider son approche auprès de la Cnil et industrialiser son outil de génération de courbes de charge.