Pour Arkéa, une Data plateforme hybride pensée pour des domaines et produits

Si l’expérimentation des IA génératives mobilise IT et Data Office du Crédit Mutuel Arkéa, l’actualité c’est aussi l’hybridation de la plateforme de données, cloud et on-premise, dont les capacités sont attendues de métiers toujours plus owners et autonomes dans l’exploitation de leurs données. Les enjeux présentés par son Chief Data Officer, Maxime Havez.  

Cet article est extrait du carnet d’expériences à télécharger : Modernisation des plateformes de données : les meilleurs accélérateurs des grandes entreprises

Maxime Havez, chief data officer du Crédit Mutuel Arkéa

Maxime Havez, Chief data officer du Crédit Mutuel Arkéa

Quels points de blocage ou de friction rencontrez-vous sur les sujets Data & IA ? 

J’ignore si on peut parler de frictions. Ce qui est certain en revanche, c’est que le sujet bouscule beaucoup de choses. Je parle de l’IA générative. Les impacts sont multiples, notamment sur les démarches IA responsable que nous menons. On voit que les réflexions portent également sur les aspects réglementaires, et en particulier sur l’AI Act, les questions sont là aussi nombreuses.   

Dans le même temps, l’accès du grand public à un outil d’IA contribue à démocratiser, mais également à inspirer nos métiers. Un grand nombre d’idées en termes d’usages sont à accompagner. 

A lire : Michelin accélère grâce au citizen development sur la data

Un dossier supplémentaire, en plus de problématiques plus traditionnelles mais persistantes ? 

Sur le volet Data, au sens large, les sujets de stratégie de la donnée et des mécanismes de gouvernance qui en découlent restent sur la table.  D’ailleurs j’ai tendance à privilégier le fait de parler de stratégie data au pluriel puisqu’il convient de distinguer, bien qu’elles soient forcément imbriquées, la stratégie de la plateforme data, de gouvernance des environnements de données et celle des data products  

La gouvernance des Data Products passe déjà par une définition de ces produits, IA ou Data-as-a-Product. Mais la conception et la gestion de ces produits requièrent en outre une organisation adaptée, en plus d’environnements de données pensés pour de tels produits. 

Cette question de la gouvernance est en lien direct avec le Data Mesh, qui nécessite de s’interroger et de trouver des solutions en ce qui concerne les Data Products et les Data Domains.   

En quoi le Data Mesh inspire-t-il le Data Office d’Arkea ? 

BANNIERE CARRE KYNDRYLLes réflexions ne sont pas nouvelles. Le Data Mesh est finalement venu mettre des mots sur des sujets existants, par exemple en matière d’accessibilité aux données par différents métiers. Cette accessibilité est d’ailleurs excessivement d’actualité sur les données brutes de type ESG. 

Sur les Data Domains, nous les considérons comme des regroupements de données brutes, parfois aussi transformées, pour le compte d’une ou plusieurs activités. L’enjeu est de définir des mutualisations possibles d’indicateurs, par exemple un indicateur utilisé par la direction finance et performance globale peut être susceptible de bénéficier également au marketing.     

Les problématiques traitées dans le Data Mesh renvoient à des réalités concrètes au sein du Crédit Mutuel Arkéa. C’est donc en cela une approche qui nous inspire.  

Le Data Mesh n’est pas un cahier des charges à suivre à la règle. Comment vous l’appropriez-vous au Data Office ? 

Que ce soit au travers de la mise en place d’un nouvel environnement ou l’identification d’un enjeu de mutualisation d’une donnée, nous nous efforçons dès le début de prendre du recul et de réfléchir sous forme de domaines. Ce sujet est pris en compte dans les réflexions d’architecture afin d’identifier s’il est question de réfléchir à l’échelle du data domain ou de la data as a product (nous avons mis en place des mécanismes de publication et de mise à disposition de données pour qu’une donnée produite par un métier puisse être consommée par un autre).   

Mais penser architecture et domaines est également structurant dans le cadre de l’hybridation de notre plateforme Data. Une plateforme hybride, cela signifie une répartition sur de l’on-premise et des cloud multiples. 

Il est donc capital d’avoir une vision globale, ne serait-ce que pour limiter la duplication des données. Des solutions de Data virtualisation peuvent être positionnées. De tels outils nous permettent de travailler à l’hybridation de notre plateforme et de mettre en œuvre concrètement des principes du Data Mesh. 

Quelles orientations suit la Data Plateforme d’Arkéa ? 

Depuis quelques années déjà, nous menons des pilotes sur le cloud, très orientés projets Data d’ailleurs avec des expérimentations sur quelques traitements bien spécifiques. La maturité des offres permet à une DSI dans la banque d’envisager d’aller chercher les bénéfices du cloud. 

Cela signifie-t-il le choix d’un fournisseur américain ?

C’est une question de temporalité, leur niveau de service n’a pas véritablement d’équivalent aujourd’hui dans une déclinaison nativement souveraine du cloud. Dans ce contexte, on peut attendre un rattrapage des clouders européens pour mener notre transformation, soit l’entreprendre dès à présent, mais avec intelligence et vigilance. 

C’est une nécessité pour un organisme financier, encore plus pour un établissement tel que le nôtre qui prône un usage responsable et transparent des données clients. 

Comment résolvez-vous cette équation ? 

Lorsque nous avons initié ces travaux avec Google, le fournisseur a su rapidement nous apporter des garanties, avec un partenariat fort avec un acteur Français de renom (Thales) pour assurer le chiffrement des données et surtout un projet de certification SecNumCloud dans les tuyaux (projet S3NS). A l’époque, GCP était en outre le seul à nous fournir des services managés dont les données sont chiffrées par un acteur tiers. En l’occurrence, les clés de chiffrement sont gérées par Thales. 

Mais nous avons aussi pensé portabilité, c’est-à-dire avec de la réversibilité. Les architectures ont donc été conçues pour être demain portables, si on le souhaite.   

Une réelle portabilité nécessite de bien réfléchir aux architectures et implique potentiellement de renoncer à certains services managés.  

D’autre part, nous avons développé notre propre socle de développement, utilisé on-prem et sur le cloud. Cette façon de faire nous oblige parfois à nous limiter dans l’utilisation qu’on peut en faire. C’est un peu le prix à payer pour être cohérent.  

Choix du provider et méthode d’adoption nous ont permis d’ouvrir la porte à l’hybridation de notre Data plateforme. Je précise que l’utilisation ne se limite pas à la partie Data. Nous progressons aussi dans le cloud sur le volet applicatif.  

Dans le Data Mesh, la plateforme est aussi pensée dans un mode service. Est-ce votre cible ? 

Oui, et c’est bien la plateforme qui porte les services, et pas le cloud en lui-même. La plateforme, c’est un ensemble de capacités. Pour les data engineers, c’est par exemple du Data processing. Mais s’y ajoutent différentes capacités métiers, qu’il s’agisse de modélisation, de visualisation, de développement de machine learning, etc. 

Pour consommer ces capacités, l’utilisateur métier final n’a pas à se poser la question de l’environnement sous-jacent, soit cloud ou non. Un outil de reporting ou de dataviz doit adresser indifféremment des bases de données sur le cloud ou on-prem. 

L’avenir, quel est-il ? Est-ce plus d’autonomie des domaines ? Une automatisation accrue ? 

Une fois les capacités intégrées dans la plateforme, il faut aussi en accompagner les usages. C’est loin de n’être qu’un sujet d’outil ou de plateforme ! Toutefois, sur la manipulation des données nous avons opté pour la standardisation de l’usage du langage SQL. Il rapproche métier et développeur travaillant sur des sujets data. Cependant, il faut mettre en place des formations en ce sens. 

Sur les capacités, nous avons par exemple mené en 2022 une étude sur la datavisualisation et la préparation de données pour couvrir ce besoin. Nous poursuivons ces études. La prochaine devrait porter sur le data management. Nous avons des dictionnaires de données existants. Cependant, bien qu’ils soient structurés et couvrants, ils ne sont sans doute pas  les plus user friendly. 

C’est potentiellement un frein à l’ownership des données par les métiers. Sur ce pilier justement, quelles sont vos actions ? 

L’ownership, c’est déjà l’application de principes. Le producteur de la donnée est ainsi responsable. Responsable de sa livraison et de sa mise en qualité. La production peut découler de la gestion d’une application ou de l’usage d’un environnement analytics. 

Mais dans tous les cas, les données peuvent avoir un intérêt à être diffusées plus largement. Nous avons pour cela des mécanismes de publication d’événements pour, au besoin et au regard des finalité de traitement, réouvrir l’accès à une donnée.   

Aujourd’hui, cela part d’une entité métier, qui a identifié une donnée et se rapproche de son producteur. Il faut alors concilier les enjeux des consommateurs et des producteurs. Indiscutablement, il y a un travail de gouvernance à mener ici, que ce soit en facilitant les échanges ou en repositionnant une donnée qui intéresserait potentiellement de nombreuses entités internes.