Grâce au bruitage, le CEA-List crée un écosystème de confiance pour entraîner des IA

Alors que l’intelligence artificielle se développe de jour en jour, les bases de données sont primordiales pour tester les modèles. Avec le projet Fantastyc, le CEA-List veut créer un écosystème de confiance sous la forme d’apprentissage fédéré.

Pour entraîner les IA et créer les modèles les plus fiables, de l’entraînement est nécessaire. Cela nécessite souvent de grandes bases de données qui sont parfois sensibles, venant d’acteurs de l’industrie ou de la santé. “Mais des constructeurs gardent les données lorsqu’ils travaillent sur des IA”, indique Cédric Gouy-Pailler, directeur de laboratoire au CEA-List, branche du CEA spécialisée dans les systèmes numériques intelligents. “Cette approche est mise en cause d’un point de vue réglementaire avec des enjeux de confidentialité”, poursuit-il. Avec le projet Fantastyc, le centre de recherches veut créer les conditions de confiance permettant à tous les acteurs de travailler dans une approche en écosystème.

Un apprentissage fédéré

“L’objectif est de créer une grande plate-forme où n’importe qui pourrait proposer des IA à entraîner et où d’autres pourraient valoriser leurs données”, explique William Boitier, ingénieur-chercheur au sein du CEA-List. Cette approche fédérée, où plusieurs acteurs partageraient des informations, permettrait à chaque constructeur d’IA de réaliser un apprentissage local, en transmettant ensuite les paramètres de ce qu’ils ont appris aux membres de la plate-forme. “Ce fonctionnement est utilisé dans la santé. C’est un secteur dans lequel ils ont beaucoup de mal à partager leurs données qui sont particulièrement sensibles”, souligne Cédric Gouy-Pailler.

“Un comité central valide l’entrée des données dans la plate-forme », assure William Boitier, “celles-ci sont ensuite dispersées dans plusieurs serveurs pour ne pas qu’on puisse les reconstituer”. Mais ce fonctionnement seul ne garantit par leur sécurisation parfaite. La faiblesse réside dans le transfert des connaissances acquises par les IA. “Il a été montré qu’en Machine learning, lorsqu’on partage uniquement de la connaissance, les personnes ayant accès à ses paramètres peuvent remonter par inversion aux données”, relate Cédric Gouy-Pailler.

Une sécurisation par bruitage

“Avec cela, il n’y a plus besoin de sortir des données et en perdre la maîtrise”, assure Alexandre Bounouh, CEO du CEA-List. Il évoque par-là, la solution de bruitage mise en place pour conserver la confidentialité de tout ce qui est transmis dans la plate-forme. “Ce bruitage a pour but de ne transmettre qu’une partie des paramètres d’apprentissage des IA”, développe Cédric Gouy-Pailler, “cette proportion suffit à valoriser les données, mais complexifie la tâche d’un attaquant qui veut les remonter”. Cette solution est couplée avec de la statistique pour s’assurer de la véracité des informations transmises.

“Le système compare les informations données par un participant avec les autres informations. Il peut ainsi repérer celui qui transmet des données très différentes des autres”. Ce projet s’inscrivant dans le cadre du label Carnot obtenu par le CEA-List, donné par l’État aux laboratoires faisant de la recherche pour les industriels, est actuellement en cours de déploiement. “On prépare un test grandeur nature dans la santé pour confronter le modèle et s’assurer qu’il fonctionne sur des données scalables”, indique le CEO du CEA-List. Il pourrait ensuite être étendu à d’autres domaines concernés par une certaine sensibilité des données, comme l’industrie.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Grâce au bruitage, le CEA-List crée un écosystème de confiance pour entraîner des IA

Un apprentissage fédéré

Une sécurisation par bruitage

Suggestion de contenus