Une Data plateforme hybride pour Arkéa

Si l’expérimentation des IA génératives mobilise IT et Data Office du Crédit Mutuel Arkéa, l’actualité c’est aussi l’hybridation de la plateforme de données, cloud et on-premise, dont les capacités sont attendues de métiers toujours plus owners et autonomes dans l’exploitation de leurs données. Les enjeux présentés par son Chief Data Officer, Maxime Havez.

Cet article est extrait du carnet d’expériences à télécharger : Modernisation des plateformes de données : les meilleurs accélérateurs des grandes entreprises

Maxime Havez, Chief data officer du Crédit Mutuel Arkéa

Quels points de blocage ou de friction rencontrez-vous sur les sujets Data & IA ?

J’ignore si on peut parler de frictions. Ce qui est certain en revanche, c’est que le sujet bouscule beaucoup de choses. Je parle de l’IA générative. Les impacts sont multiples, notamment sur les démarches IA responsable que nous menons. On voit que les réflexions portent également sur les aspects réglementaires, et en particulier sur l’AI Act, les questions sont là aussi nombreuses.

Dans le même temps, l’accès du grand public à un outil d’IA contribue à démocratiser, mais également à inspirer nos métiers. Un grand nombre d’idées en termes d’usages sont à accompagner.

A lire : Michelin accélère grâce au citizen development sur la data

Un dossier supplémentaire, en plus de problématiques plus traditionnelles mais persistantes ?

Sur le volet Data, au sens large, les sujets de stratégie de la donnée et des mécanismes de gouvernance qui en découlent restent sur la table. D’ailleurs j’ai tendance à privilégier le fait de parler de stratégie data au pluriel puisqu’il convient de distinguer, bien qu’elles soient forcément imbriquées, la stratégie de la plateforme data, de gouvernance des environnements de données et celle des data products

La gouvernance des Data Products passe déjà par une définition de ces produits, IA ou Data-as-a-Product. Mais la conception et la gestion de ces produits requièrent en outre une organisation adaptée, en plus d’environnements de données pensés pour de tels produits.

Cette question de la gouvernance est en lien direct avec le Data Mesh, qui nécessite de s’interroger et de trouver des solutions en ce qui concerne les Data Products et les Data Domains.

En quoi le Data Mesh inspire-t-il le Data Office d’Arkea ?

Les réflexions ne sont pas nouvelles. Le Data Mesh est finalement venu mettre des mots sur des sujets existants, par exemple en matière d’accessibilité aux données par différents métiers. Cette accessibilité est d’ailleurs excessivement d’actualité sur les données brutes de type ESG.

Sur les Data Domains, nous les considérons comme des regroupements de données brutes, parfois aussi transformées, pour le compte d’une ou plusieurs activités. L’enjeu est de définir des mutualisations possibles d’indicateurs, par exemple un indicateur utilisé par la direction finance et performance globale peut être susceptible de bénéficier également au marketing.

Les problématiques traitées dans le Data Mesh renvoient à des réalités concrètes au sein du Crédit Mutuel Arkéa. C’est donc en cela une approche qui nous inspire.

Le Data Mesh n’est pas un cahier des charges à suivre à la règle. Comment vous l’appropriez-vous au Data Office ?

Que ce soit au travers de la mise en place d’un nouvel environnement ou l’identification d’un enjeu de mutualisation d’une donnée, nous nous efforçons dès le début de prendre du recul et de réfléchir sous forme de domaines. Ce sujet est pris en compte dans les réflexions d’architecture afin d’identifier s’il est question de réfléchir à l’échelle du data domain ou de la data as a product (nous avons mis en place des mécanismes de publication et de mise à disposition de données pour qu’une donnée produite par un métier puisse être consommée par un autre).

Mais penser architecture et domaines est également structurant dans le cadre de l’hybridation de notre plateforme Data. Une plateforme hybride, cela signifie une répartition sur de l’on-premise et des cloud multiples.

Il est donc capital d’avoir une vision globale, ne serait-ce que pour limiter la duplication des données. Des solutions de Data virtualisation peuvent être positionnées. De tels outils nous permettent de travailler à l’hybridation de notre plateforme et de mettre en œuvre concrètement des principes du Data Mesh.

Quelles orientations suit la Data Plateforme d’Arkéa ?

Depuis quelques années déjà, nous menons des pilotes sur le cloud, très orientés projets Data d’ailleurs avec des expérimentations sur quelques traitements bien spécifiques. La maturité des offres permet à une DSI dans la banque d’envisager d’aller chercher les bénéfices du cloud.

Cela signifie-t-il le choix d’un fournisseur américain ?

C’est une question de temporalité, leur niveau de service n’a pas véritablement d’équivalent aujourd’hui dans une déclinaison nativement souveraine du cloud. Dans ce contexte, on peut attendre un rattrapage des clouders européens pour mener notre transformation, soit l’entreprendre dès à présent, mais avec intelligence et vigilance.

C’est une nécessité pour un organisme financier, encore plus pour un établissement tel que le nôtre qui prône un usage responsable et transparent des données clients.

Comment résolvez-vous cette équation ?

Lorsque nous avons initié ces travaux avec Google, le fournisseur a su rapidement nous apporter des garanties, avec un partenariat fort avec un acteur Français de renom (Thales) pour assurer le chiffrement des données et surtout un projet de certification SecNumCloud dans les tuyaux (projet S3NS). A l’époque, GCP était en outre le seul à nous fournir des services managés dont les données sont chiffrées par un acteur tiers. En l’occurrence, les clés de chiffrement sont gérées par Thales.

Mais nous avons aussi pensé portabilité, c’est-à-dire avec de la réversibilité. Les architectures ont donc été conçues pour être demain portables, si on le souhaite.

Une réelle portabilité nécessite de bien réfléchir aux architectures et implique potentiellement de renoncer à certains services managés.

D’autre part, nous avons développé notre propre socle de développement, utilisé on-prem et sur le cloud. Cette façon de faire nous oblige parfois à nous limiter dans l’utilisation qu’on peut en faire. C’est un peu le prix à payer pour être cohérent.

Choix du provider et méthode d’adoption nous ont permis d’ouvrir la porte à l’hybridation de notre Data plateforme. Je précise que l’utilisation ne se limite pas à la partie Data. Nous progressons aussi dans le cloud sur le volet applicatif.

Dans le Data Mesh, la plateforme est aussi pensée dans un mode service. Est-ce votre cible ?

Oui, et c’est bien la plateforme qui porte les services, et pas le cloud en lui-même. La plateforme, c’est un ensemble de capacités. Pour les data engineers, c’est par exemple du Data processing. Mais s’y ajoutent différentes capacités métiers, qu’il s’agisse de modélisation, de visualisation, de développement de machine learning, etc.

Pour consommer ces capacités, l’utilisateur métier final n’a pas à se poser la question de l’environnement sous-jacent, soit cloud ou non. Un outil de reporting ou de dataviz doit adresser indifféremment des bases de données sur le cloud ou on-prem.

L’avenir, quel est-il ? Est-ce plus d’autonomie des domaines ? Une automatisation accrue ?

Une fois les capacités intégrées dans la plateforme, il faut aussi en accompagner les usages. C’est loin de n’être qu’un sujet d’outil ou de plateforme ! Toutefois, sur la manipulation des données nous avons opté pour la standardisation de l’usage du langage SQL. Il rapproche métier et développeur travaillant sur des sujets data. Cependant, il faut mettre en place des formations en ce sens.

Sur les capacités, nous avons par exemple mené en 2022 une étude sur la datavisualisation et la préparation de données pour couvrir ce besoin. Nous poursuivons ces études. La prochaine devrait porter sur le data management. Nous avons des dictionnaires de données existants. Cependant, bien qu’ils soient structurés et couvrants, ils ne sont sans doute pas les plus user friendly.

C’est potentiellement un frein à l’ownership des données par les métiers. Sur ce pilier justement, quelles sont vos actions ?

L’ownership, c’est déjà l’application de principes. Le producteur de la donnée est ainsi responsable. Responsable de sa livraison et de sa mise en qualité. La production peut découler de la gestion d’une application ou de l’usage d’un environnement analytics.

Mais dans tous les cas, les données peuvent avoir un intérêt à être diffusées plus largement. Nous avons pour cela des mécanismes de publication d’événements pour, au besoin et au regard des finalité de traitement, réouvrir l’accès à une donnée.

Aujourd’hui, cela part d’une entité métier, qui a identifié une donnée et se rapproche de son producteur. Il faut alors concilier les enjeux des consommateurs et des producteurs. Indiscutablement, il y a un travail de gouvernance à mener ici, que ce soit en facilitant les échanges ou en repositionnant une donnée qui intéresserait potentiellement de nombreuses entités internes.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Pour Arkéa, une Data plateforme hybride pensée pour des domaines et produits