IA générative : Comment sécuriser les données en entreprise ?

Malgré les promesses de l’IA générative (IAG), les entreprises craignent pour la sécurité de leurs données. Des stratégies se développent pour minimiser les risques de faille. Avec plus ou moins d’efficacité.

La statistique laisse rêveur. « Plus de 80% des entreprises du Fortune 500 ont adopté ChatGPT », se félicite OpenAI. La plongée au cœur du quotidien des entreprises montre une réalité plus contrastée. « Certains collaborateurs s’amusent avec les chatbots. Mais l’implantation en entreprise reste difficile », souligne Charles Letaillieur, senior manager spécialisé dans l’IA générative chez Converteo, un cabinet de conseil en data et IA. « On ne peut rien lui donner de stratégique ou de confidentiel », précise-t-il, en référence à la fuite de données de Samsung en avril dernier, liée à l’utilisation de ChatGPT par des employés.
Les informations fournies par les utilisateurs dans le cadre de leurs interactions avec des grands modèles de langage (LLM) peuvent être réutilisées comme données d’apprentissage par l’outil. Résultat, les IA génératives (IAG) sont susceptibles de divulguer des données confidentielles, personnelles ou stratégiques. Un nouveau défi de taille pour les DSI. « Auparavant, il fallait protéger les données des individus malveillants. Aujourd’hui, des utilisateurs lambda posent des questions à ChatGPT et se retrouvent avec des informations stratégiques. »

Interdire l’IAG : une fausse bonne idée

Pour éviter les risques de fuites, certaines entreprises comme Apple ou Amazon interdisent purement et simplement l’usage de ChatGPT en interne. Une fausse bonne idée pour Mathieu Crucq. « Refuser d’utiliser l’IA générative, ce serait comme refuser d’utiliser Internet lors de sa création et passer à côté d’une révolution majeure », illustre le directeur général de Brainsonic, également chargé de l’e-innovation au sein de l’agence de communication. D’autres groupes se tournent vers ChatGPT entreprise. La version professionnelle du LLM promet « un niveau renforcé de sécurité » et « un meilleur respect des données ». La plupart des data officers restent pourtant sceptiques. « Il s’agit d’une simple promesse », relève Guillaume Champion, chief data officer chez Whoz, une entreprise spécialisée dans la digitalisation des processus de staffing. « L’entreprise ne contrôle ni l’utilisation des données, ni les serveurs. Il y a donc un risque de faille de sécurité. »

D’autres, comme le Club Med, testent Copilot de Microsoft, l’IAG intégrée dans toutes les applications d’Office 365. Une solution sécurisée particulièrement onéreuse. Comptez 30 dollars par mois et par utilisateur. Autre frein : les capacités de Copilot sont limitées. « L’outil se contente d’améliorer la bureautique. Il n’est pas connecté à nos systèmes d’information et ne répond pas à nos usages ciblés », observe Siddhartha Chatterjee, chief data officer au Club Med. Le géant du resort préfère axer sa stratégie sur le développement de ses propres outils.

Développer des LLM spécifique à son entreprise

Le principe est simple. Les équipes data s’appuient sur une technologie existante : des modèles open source, comme LAMA, ou des API de Google ou OpenAI, c’est-à-dire des interfaces de programmation d’application pour installer l’outil en interne. Il est ainsi possible de greffer la technologie ChatGPT ou Bard dans l’interface de la société ou, en allant plus loin, de créer son propre chatbot en interne en combinant plusieurs modèles de LLM. Quel que soit le degré de développement, l’outil est sécurisé. « Les modèles sont copiés et téléchargés comme des logiciels. Les données sont donc stockées et protégées dans l’environnement protégé de l’entreprise », insiste Mathieu Crucq.

Le Club Med est loin d’être un cas isolé. La majorité des entreprises déploient leur propre LLM, à l’instar de One Point. L’an dernier, le cabinet de conseil a mis en place une IA pour ses 3.500 collaborateurs, baptisée Néo. « Tous nos modèles sont déployés à l’intérieur d’un cloud privé », spécifie Nicolas Gaudemet, chief AI officer chez OnePoint. « L’ensemble des accès à l’outil sont protégés par une double authentification via l’intranet de l’entreprise. » Autre avantage de taille : Néo est personnalisable et répond à des problématiques métiers propres à l’entreprise.

De son côté, Orange préfère progresser étape par étape. En attendant le déploiement prévu en 2024 des infrastructures pour utiliser les LLM existants a grande échelle, l’opérateur « teste ces technologies dans de nombreux domaines d’application et a mis à disposition une interface contenant différents modèles disponible depuis l’intranet du groupe », détaille Raphaël Mombellet, directeur Data science et analyses chez Orange, également directeur du programme IA générative pour Orange France. Là encore, le programme est hébergé dans l’environnement cloud Azure dédié à Orange, dont les serveurs sont situés en Europe. « Cela nous permet de mettre à disposition de l’ensemble de nos salariés la puissance de l’IAG dans un environnement sécurisé. Ils peuvent ainsi s’habituer au fonctionnement des LLM et tester leurs idées pour améliorer la productivité avant l’arrivée de notre outil. »

« Le risque zéro n’existe pas »

Quelle que soit la solution envisagée, toutes les entreprises sont unanimes : le risque zéro n’existe pas. « Même si l’environnement est sécurisé, il vaut mieux rester prudent et clarifier les données présentant des risques en fonction des algorithmes utilisés», conseille Anne Claire Baschet, chief data officer chez Aramis Group. En juillet dernier, le spécialiste européen de la vente de véhicules d’occasion reconditionnés a développé un portail connecté à la version API de ChatGPT. L’outil est programmé pour exclure certaines données sensibles, telles que les informations stratégiques ou les données personnelles.

En parallèle, le groupe mise sur le volet formation et sensibilisation aux risques. « Un meet-up collaboratif et pratique est organisé tous les mois à travers les six marques d’Aramis Group afin d’encourager les usages chez les collaborateurs », ajoute Anne Claire Baschet. Des dispositifs similaires sont mis en place chez Orange ou le Club Med.