Qu’est-ce qu’un data lake : guide pour patron pressé

Cet article a été publié originellement sur mydatacompany.fr

L’ère du big data a popularisé le data lake ou lac de données dans lequel les organisations regroupent l’ensemble de leurs données. Qu’est-ce qu’un data lake ? A quoi sert-il ? On-premise ou dans le cloud ? Décryptage et bonnes pratiques.

Un data lake, qu’est-ce que c’est ?

Qu’est-ce-qu’un-data-lake Le data lake ou lac de données est un référentiel de données – reposant sur une infrastructure IT de stockage, bien souvent Hadoop. Ce concept est apparu il y a quelques années désormais dans le sillage du big data. Ainsi, le data lake se destine à stocker de grands volumes de données brutes, structurées et non structurées.

Il vise généralement, au sein d’une organisation, à regrouper l’ensemble des données disponibles à des fins d’analyse, par exemple au travers d’algorithmes de machine learning. La consolidation des données au sein d’un data lake doit ainsi, en principe, permettre d’en extraire la valeur grâce à l’identification des fameux « insights ».

Voilà pour la théorie. Car comme le souligne l’expert de Kynapse (filiale de l’ESN Open), Christophe Tricot : « Le data lake est souvent perçu comme la solution aux problèmes des boîtes qui veulent valoriser leurs données, et qui est souvent plus le problème que la solution. »

Un data lake pour quoi faire ?

Un data lake vise à faciliter l’exploitation des données. Avant le data lake, les données étaient de natures très différentes, dispersées sur des technologies hétérogènes et par silos. Les cas d’usage d’un data lake sont multiples.

Une entreprise peut ainsi vouloir réunir toutes les données relatives à ses clients dont elle dispose, par exemple leur comportement sur son site Web. Le croisement de ces données servira ainsi, entre autres, à calculer le taux d’attrition ou churn de ces mêmes clients.

« Sur le papier, c’est formidable » reconnaît notre expert. Mais un data lake n’est pas magique. Il est aussi une source de grande complexité. Pour le scénario évoqué précédemment, cela suppose ainsi de développer différents connecteurs acheminant les données d’applications métier (CRM, site, etc.) vers le lac de données.

Ces approches du data lake « impliquent de réunir toutes les données au même endroit, et donc de disposer de tous les tuyaux qui acheminent les données jusqu’au data lake. » Et concevoir ces « tuyaux » est coûteux en temps et en ressources.

Ce n’est par ailleurs par la seule complexité. « On a jamais les bonnes données, au bon endroit, propres, à disposition. » Avec le data lake, les entreprises ont souvent confondu moyen et finalité. Pour éviter ces écueils, une autre approche est nécessaire.

Comment mieux utiliser un data lake ?

« Maintenant que la vague du big data est passée, qu’on est un peu plus mâture sur les usages de valorisation de la donnée, que ce soit la BI et l’IA avec le machine learning, on entre dans une nouvelle phase » observe Christophe Tricot.

Et cette nouvelle phase repose sur des usages identifiés pour les données. Les entreprises sélectionnent ainsi les données à intégrer au data lake sur la base des usages visés. Cependant, « cette démarche n’est absolument pas courante » aujourd’hui encore. Le point de départ consiste trop souvent à « déverser » des données avant même d’avoir arrêté des usages.

Même dans ce cadre, un data lake présentera au moins un mérite : le désilotage effectif des organisations. Les données ne sont plus la propriété et exploitées par les seuls métiers (marketing, RH, opérations…) qui les génèrent ou les utilisent. Le data lake contribue à s’extraire d’un fonctionnement en silos et à faciliter l’accès aux données.

Quid de la qualité et de la fraîcheur des données ?   

Le principal challenge avec un data lake reste la qualité des données. Et cette question doit être traitée en amont, pour que les données présentes dans le data lake soient de qualité et véritablement exploitables.

Christophe Tricot estime cependant primordial de se concentrer d’abord sur l’usage, puis d’améliorer la qualité des données. « Si on attend que tout soit propre pour faire quelque chose, on risque de ne jamais rien faire. »

Combien coûte un data lake ?

Les coûts d’un data lake sont divers : coûts d’infrastructure, coûts des compétences pour la mise en place et le maintien en condition opérationnelle, mais aussi coûts de gestion pour notamment le contrôle et la mise en qualité des données.

Le data lake constitue en effet un paradigme nouveau (et un surplus de complexité) en matière de gestion des données, souligne le consultant de Kynapse. L’entreprise devra répondre à plusieurs questions si elle veut pouvoir exploiter efficacement les données : à quelle fréquence mettre à jour les données dans le data lake ? Quid de la suppression d’une donnée ?

Au final, un data lake « coûte très cher », des millions d’euros, au point que la question de son coût et du ROI tient parfois du « tabou ». La réponse est ainsi de plus en plus de basculer les lacs de données dans le cloud.

Un data lake est-il indispensable ?

La réponse est non. « De plus en plus de nos clients s’en passent, notamment parce que c’est cher et que cela ne s’y prête pas. »

Et si l’objectif d’une entreprise est de faire de l’IA et du machine learning, celle-ci aura d’abord besoin d’un datalab. Ce datalab comprendra notamment des data scientists. Or ces derniers ont généralement besoin de données structurées.

Un datamart pourra aussi s’avérer plus pertinent qu’un data lake. « Habituellement, le data lake est transformé en de multiples datamarts pour chacun des usages. » Et les data ingénieurs du datalab, pour des projets d’IA, iront puiser des données dans le data lake et les prépareront pour leurs besoins.

Une grande structure, présente notamment à l’international, disposant d’un système d’information complexe, comme une banque, pourra plus aisément tirer avantage d’un datalake et simplifier l’accès aux données. 

« Un data lake n’est pas indispensable. Il est pertinent lorsque l’organisation est assez importante, avec des usages peu définis encore, et pour simplifier l’accès aux données, pas au sens technique, mais organisationnel » synthétise Christophe Tricot.

Faut-il un data lake on-premise ou dans le cloud ?

Culturellement, les entreprises ont toutes dans un premier temps opté pour le déploiement d’un data lake sur leur propre infrastructure. En raison des coûts inhérents à ces projets, la tendance est désormais à une migration rapide dans le cloud, notamment le cloud public (AWS, Azure, Google Cloud…).

Les organisations réalisent que si elles « veulent rationaliser cet investissement, elles doivent le passer dans le cloud. Il faut arrêter de faire du on-premise sur le data lake parce qu’on n’arrivera pas à suivre sur les serveurs et à amortir toute la technologie nécessaire pour le peu d’usage existants. »

Le choix du on-premise peut cependant s’imposer du fait de la nature particulièrement sensible des données stockées dans le data lake et de leur concentration en un espace unique. Ce n’est toutefois plus autant une évidence.

L’expert de Kynapse souligne ainsi que Health Data Hub a fait le choix d’un fournisseur cloud. « Même pour des sujets comme les données de santé, les entreprises n’envisagent pas aujourd’hui de faire du on-premise. »

Le basculement sur le cloud s’est de fait amorcé en 2019 parmi les grandes entreprises, qui se donnent deux ans pour l’opérer. Christophe Tricot estime ainsi que d’ici deux ans, 80% des data lake seront dans le cloud.