Qu’est-ce qu’un data lake : guide pour patron pressé

Cet article a été publié originellement sur mydatacompany.fr

L’ère du big data a popularisé le data lake ou lac de données dans lequel les organisations regroupent l’ensemble de leurs données. Qu’est-ce qu’un data lake ? A quoi sert-il ? On-premise ou dans le cloud ? Décryptage et bonnes pratiques.

Un data lake, qu’est-ce que c’est ?

Le data lake ou lac de données est un référentiel de données – reposant sur une infrastructure IT de stockage, bien souvent Hadoop. Ce concept est apparu il y a quelques années désormais dans le sillage du big data. Ainsi, le data lake se destine à stocker de grands volumes de données brutes, structurées et non structurées.

Il vise généralement, au sein d’une organisation, à regrouper l’ensemble des données disponibles à des fins d’analyse, par exemple au travers d’algorithmes de machine learning. La consolidation des données au sein d’un data lake doit ainsi, en principe, permettre d’en extraire la valeur grâce à l’identification des fameux « insights ».

Voilà pour la théorie. Car comme le souligne l’expert de Kynapse (filiale de l’ESN Open), Christophe Tricot : « Le data lake est souvent perçu comme la solution aux problèmes des boîtes qui veulent valoriser leurs données, et qui est souvent plus le problème que la solution. »

Un data lake pour quoi faire ?

Un data lake vise à faciliter l’exploitation des données. Avant le data lake, les données étaient de natures très différentes, dispersées sur des technologies hétérogènes et par silos. Les cas d’usage d’un data lake sont multiples.

Une entreprise peut ainsi vouloir réunir toutes les données relatives à ses clients dont elle dispose, par exemple leur comportement sur son site Web. Le croisement de ces données servira ainsi, entre autres, à calculer le taux d’attrition ou churn de ces mêmes clients.

« Sur le papier, c’est formidable » reconnaît notre expert. Mais un data lake n’est pas magique. Il est aussi une source de grande complexité. Pour le scénario évoqué précédemment, cela suppose ainsi de développer différents connecteurs acheminant les données d’applications métier (CRM, site, etc.) vers le lac de données.

Ces approches du data lake « impliquent de réunir toutes les données au même endroit, et donc de disposer de tous les tuyaux qui acheminent les données jusqu’au data lake. » Et concevoir ces « tuyaux » est coûteux en temps et en ressources.

Ce n’est par ailleurs par la seule complexité. « On a jamais les bonnes données, au bon endroit, propres, à disposition. » Avec le data lake, les entreprises ont souvent confondu moyen et finalité. Pour éviter ces écueils, une autre approche est nécessaire.

Comment mieux utiliser un data lake ?

« Maintenant que la vague du big data est passée, qu’on est un peu plus mâture sur les usages de valorisation de la donnée, que ce soit la BI et l’IA avec le machine learning, on entre dans une nouvelle phase » observe Christophe Tricot.

Et cette nouvelle phase repose sur des usages identifiés pour les données. Les entreprises sélectionnent ainsi les données à intégrer au data lake sur la base des usages visés. Cependant, « cette démarche n’est absolument pas courante » aujourd’hui encore. Le point de départ consiste trop souvent à « déverser » des données avant même d’avoir arrêté des usages.

Même dans ce cadre, un data lake présentera au moins un mérite : le désilotage effectif des organisations. Les données ne sont plus la propriété et exploitées par les seuls métiers (marketing, RH, opérations…) qui les génèrent ou les utilisent. Le data lake contribue à s’extraire d’un fonctionnement en silos et à faciliter l’accès aux données.

Quid de la qualité et de la fraîcheur des données ?

Le principal challenge avec un data lake reste la qualité des données. Et cette question doit être traitée en amont, pour que les données présentes dans le data lake soient de qualité et véritablement exploitables.

Christophe Tricot estime cependant primordial de se concentrer d’abord sur l’usage, puis d’améliorer la qualité des données. « Si on attend que tout soit propre pour faire quelque chose, on risque de ne jamais rien faire. »

Combien coûte un data lake ?

Les coûts d’un data lake sont divers : coûts d’infrastructure, coûts des compétences pour la mise en place et le maintien en condition opérationnelle, mais aussi coûts de gestion pour notamment le contrôle et la mise en qualité des données.

Le data lake constitue en effet un paradigme nouveau (et un surplus de complexité) en matière de gestion des données, souligne le consultant de Kynapse. L’entreprise devra répondre à plusieurs questions si elle veut pouvoir exploiter efficacement les données : à quelle fréquence mettre à jour les données dans le data lake ? Quid de la suppression d’une donnée ?

Au final, un data lake « coûte très cher », des millions d’euros, au point que la question de son coût et du ROI tient parfois du « tabou ». La réponse est ainsi de plus en plus de basculer les lacs de données dans le cloud.

Un data lake est-il indispensable ?

La réponse est non. « De plus en plus de nos clients s’en passent, notamment parce que c’est cher et que cela ne s’y prête pas. »

Et si l’objectif d’une entreprise est de faire de l’IA et du machine learning, celle-ci aura d’abord besoin d’un datalab. Ce datalab comprendra notamment des data scientists. Or ces derniers ont généralement besoin de données structurées.

Un datamart pourra aussi s’avérer plus pertinent qu’un data lake. « Habituellement, le data lake est transformé en de multiples datamarts pour chacun des usages. » Et les data ingénieurs du datalab, pour des projets d’IA, iront puiser des données dans le data lake et les prépareront pour leurs besoins.

Une grande structure, présente notamment à l’international, disposant d’un système d’information complexe, comme une banque, pourra plus aisément tirer avantage d’un datalake et simplifier l’accès aux données.

« Un data lake n’est pas indispensable. Il est pertinent lorsque l’organisation est assez importante, avec des usages peu définis encore, et pour simplifier l’accès aux données, pas au sens technique, mais organisationnel » synthétise Christophe Tricot.

Faut-il un data lake on-premise ou dans le cloud ?

Culturellement, les entreprises ont toutes dans un premier temps opté pour le déploiement d’un data lake sur leur propre infrastructure. En raison des coûts inhérents à ces projets, la tendance est désormais à une migration rapide dans le cloud, notamment le cloud public (AWS, Azure, Google Cloud…).

Les organisations réalisent que si elles « veulent rationaliser cet investissement, elles doivent le passer dans le cloud. Il faut arrêter de faire du on-premise sur le data lake parce qu’on n’arrivera pas à suivre sur les serveurs et à amortir toute la technologie nécessaire pour le peu d’usage existants. »

Le choix du on-premise peut cependant s’imposer du fait de la nature particulièrement sensible des données stockées dans le data lake et de leur concentration en un espace unique. Ce n’est toutefois plus autant une évidence.

L’expert de Kynapse souligne ainsi que Health Data Hub a fait le choix d’un fournisseur cloud. « Même pour des sujets comme les données de santé, les entreprises n’envisagent pas aujourd’hui de faire du on-premise. »

Le basculement sur le cloud s’est de fait amorcé en 2019 parmi les grandes entreprises, qui se donnent deux ans pour l’opérer. Christophe Tricot estime ainsi que d’ici deux ans, 80% des data lake seront dans le cloud.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu