Avec Delta Sharing, Databricks veut industrialiser les partages de données

L’éditeur Databricks, spécialisé dans l’ingénierie des données, propose en open source un protocole visant à faciliter les partages sécurisés et gouvernés de données entre entreprises et aussi en interne : Delta Sharing.

Nicolas Maillard, directeur field Engineering chez Databricks.

Nicolas Maillard, directeur field Engineering chez Databricks.

Les opérations liées au traitement des données ne manquent pas. Elles se heurtent cependant à la complexité des systèmes d’information et aussi à un manque de standardisation des technologies. Les entreprises sont donc en recherche de solutions leur permettant de mieux valoriser leurs données et d’en industrialiser les usages.

Ces besoins s’appliquent également aux partages, qu’ils s’effectuent entre entités d’une même entreprise, ou avec des partenaires externes. C’est sur ce volet du partage que se positionne à présent Databricks avec son protocole ouvert Delta Sharing. L’éditeur n’est cependant pas un nouveau venu dans le secteur très concurrentiel de la Data.

Du partage de données adapté au temps réel

En février, l’acteur levait d’ailleurs 1 milliard de dollars pour financer le développement de son concept de Lakehouse, une plateforme combinant data lake, datawarehouse et technologies d’ingénierie des données, au service notamment des usages de l’intelligence artificielle.   

« Databricks met à disposition une plateforme unifiée permettant aux utilisateurs de l’analytics de travailler tous ensemble, et dans leur domaine de compétences. La plateforme réalise tout le travail de structuration des données, de compréhension des langages et des ressources de calcul, jusqu’à la mise en production d’un asset permettant de prendre des décisions », détaille Nicolas Maillard, directeur field Engineering pour l’éditeur.

Pour générer des décisions, les entreprises s’appuient donc sur leur propre capital de données, mais également sur des sources externes, dont des producteurs de données. La tendance n’est pas nouvelle. En matière de partage, une autre étape est enclenchée cependant découlant en particulier de la nécessité de s’intégrer à des écosystèmes.

« La capacité à s’intégrer à un écosystème de données nécessite d’orchestrer de façon beaucoup plus fine, rapide et sécurisé les partages », note l’expert de Databricks. Ainsi, les besoins font intervenir de manière croissante le temps réel, notamment dans des secteurs comme l’e-commerce et la publicité en ligne.

Sécurité et gouvernance administrées par le protocole

Disposer « d’une colonne vertébrale de l’information pour des décisions temps réel » constitue pour ces entreprises une exigence de marché. Les besoins métiers ont évolué et poussent donc à présent en faveur d’une pleine grande réactivité et intégration. Les technologies font, de plus, moins obstacles à ces ambitions d’interconnexion et d’échanges de données.

Toutefois, elles ne pourront se concrétiser que si les coûts restent maitrisables. La solution de Databricks consiste pour cela à s’appuyer sur des standards et des technologies open source.  Delta Sharing répond à ce cahier des charges, tout en embarquant nativement les dimensions de sécurité et de gouvernance.

« Delta Sharing permet de prendre un jeu de données, une table d’une base de données par exemple. L’organisation définit un droit de lecture. Delta génère pour elle un point d’accès direct au fichier qui représente ce droit de partage accordé à des acteurs précis et pour une durée définie. Ils peuvent dès lors connecter le moteur de calcul de leur choix pour lire et intégrer les données », décrit Nicolas Maillard.

Le protocole de mise à disposition se destine en particulier aux fournisseurs de Data pour leur permettre de gérer en interne leurs données sans devoir les répliquer pour chacun de leurs clients. Delta Sharing répond aussi à des problématiques de grands groupes désireux de partager des jeux de données en interne avec des filiales.

Des ambitions comparables à Spark

« Plutôt que de recourir à des systèmes assez statiques de bases de données reposant sur une autorisation ou non de lecture, les entreprises partagent un point de lecture sur une définition d’un jeu de données. Cela permet d’être plus fin sur les garanties, notamment légales, d’un partage de données », souligne l’expert.

A la clé, plus de réplication des données et de complexité découlant de celle-ci, mais aussi une garantie sur la fraicheur des données. Autre avantage, l’utilisation d’un protocole ouvert indépendant des offreurs de solutions, Databricks compris. Une rupture dans un domaine où le partage dépendait généralement de technologies propriétaires ou spécifiques.

Dans sa conception, le protocole embarque en outre nativement des notions de sécurité et de gouvernance pour l’orchestration des droits d’accès. Enfin, le recours à des standards permet d’exploiter Delta Sharing auprès des différentes plateformes cloud du marché et donc de limiter le vendor lock-in.

Delta Sharing demeure en version une. Le protocole open source a été officialisé cette semaine lors du Data+AI Summit 2021. De premiers partenaires proches de Databricks entament les premières phases de mise en production de la technologie de partage. Et celle-ci est amenée à s’enrichir.

« C’est une véritable roadmap de communauté amenée à être aussi complète qu’a pu l’être celle de Spark », assure Nicolas Maillard. L’éditeur participe à son développement, aux côtés notamment des hyperscalers (Google, AWS, Azure…) et de grands fournisseurs de données comme le Nasdaq.