Stéphanie Combes (Health Data Hub) : « La crise sanitaire rend le recours aux données de santé plus évident. »

Pierre Berthoux

il y a 5 ans

Lancée il y a plus d’un an, la plateforme nationale de données de santé Health Data Hub a beaucoup fait parler d’elle, notamment sur son choix d’hébergement chez Microsoft. Alliancy s’est entretenu avec la directrice du projet, Stéphanie Combes, pour échanger sur ses missions et savoir comment elles ont évolué du fait de la crise sanitaire.

Stéphanie Combes, directrice du Health Data Hub / Crédit : Welcome to the Jungle

Alliancy. Où en est le « Health Data Hub » aujourd’hui ? Quels sont les nouveaux projets ?

Stéphanie Combes. En décembre prochain, nous allons fêter notre deuxième année d’existence. Tous nos services ne sont pas encore complètement opérationnels, mais nous accompagnons à ce jour plus de 40 projets, notamment relatifs à l’épidémie de la Covid -19 (15), dans tous les cas visant à faire avancer la recherche médicale. Ces mêmes projets doivent passer un certain nombre de jalons réglementaires : certains ont réussi à passer ces stades et une dizaine d’entre eux a été validée par la Cnil à ce jour et vingt autres devraient être autorisés d’ici la fin de l’année.

L’exemple le plus avancé est Hydro, qui vise à développer un algorithme de prédiction des crises d’insuffisance cardiaque afin de pouvoir les prévenir en alertant le professionnel de santé dès qu’un signe avant-coureur est détecté dans les données émises par le pacemaker. Croisant les données de pacemaker connectés avec des données d’hospitalisation de l’Assurance Maladie, le projet requiert une première phase assez technique pour rassembler les différentes données nécessaires. Cette phase étant désormais terminée, les data scientists sont désormais en mesure de développer leur modèle prédictif.

Notre portefeuille de partenaires devraient s’enrichir avec les lauréats de l’ appel à projet régional réalisé en partenariat avec le Datalab Normandie ou ceux de l’ appel à manifestation d’intérêt que nous lançons d’ici aout qui vise à financer des projets de développement d’algorithmes pour une meilleure exploitation des données de santé. Ces algorithmes ont vocation à être mis en open source.

Un autre chantier important est en cours : celui d’un catalogue de données médicales prioritaires. Ces dernières seront sélectionnées et copiées pour faciliter leur regroupement ou leur croisement qui peuvent prendre plusieurs mois à plusieurs années aujourd’hui en France. Ce catalogue permettra aussi d’intensifier le partage de données de santé qui constituent un patrimoine collectif qui doit absolument être réutilisé, dans le respect des droits des citoyens, pour améliorer la qualité des soins.

Le partage des données sera d’autant plus évident que l’ensemble des parties prenantes disposent d’une véritable culture de la donnée. Notre rôle est aussi de contribuer encore plus à diffuser cette culture de la donnée de santé, notamment par le biais d’actions d’animation de l’écosystème comme notre symposium sur l’IA et la médecine de mai dernier en collaboration avec le MIT et l’Académie nationale de médecine qui a réuni plus de 700 participants ou notre démarche opensource sur la documentation ou l’ouverture d’algorithmes. Il y a encore d’importants efforts à fournir pour changer de paradigme et faire de l’ouverture une règle et non plus l’exception.

S’agissant du grand public, les données de santé sont souvent abordées sous l’angle de la cybersécurité et de la protection, et à juste titre. Mais peu de personnes se demandent ce que va devenir la médecine demain grâce à la donnée. Même s’il est dur de se projeter, la crise sanitaire a donné lieu à de nombreuses solutions concrètes. Elle rend le recours aux données de santé plus évident.

Comment vous êtes-vous adaptés à la crise ? Quel impact sur votre agenda ?

Stéphanie Combes. Il y a eu un réel effet d’accélération sur le partage des données pendant la crise. Nos projets étant inscrits sur le temps long, nous n’avons pas pu appuyer autant que nous aurions pu le souhaiter la gestion opérationnelle de la crise sanitaire. Si les données de passage aux urgences ou de l’Assurance Maladie ont pu être exploitées l’année dernière, la plupart des projets démarrent maintenant.

Nous allons prochainement intégrer par ailleurs la base de données biologiques du SI-DEP prochainement, ce qui donnera lieu à de nouveaux projets de recherche, ainsi que les données liées à la vaccination.

En revanche, la crise a eu un impact négatif sur le calendrier des textes législatifs en faveur du partage des données médicales découlant de la loi de 2019 relative à l’organisation et à la transformation du système de santé. Néanmoins la publication du décret est attendue pour les prochaines semaines et l’arrêté portant le catalogue à la rentrée de septembre/octobre.

Qu’en est-il du contentieux lié à votre hébergement chez Microsoft ? Une réaction vis-à-vis de la saisine du PNF par Anticor ?

Stéphanie Combes. Nous n’avons pas plus d’informations sur ce contentieux à ce stade. Mais nous tenons à rappeler que nous avons acheté des crédits Microsoft par le biais de la centrale d’achats UGAP, ce qui est parfaitement respectueux du code de la commande publique. Par ailleurs, la DINUM encourage ce type de centrales qui facilitent l’achat public. Nous pouvons comprendre néanmoins que certains acteurs européens, non référencés dans cette centrale d’achats, aient un sentiment d’injustice. La réalité n’en reste pas moins que les offres cloud françaises du niveau requis pour traiter des données de cette sensibilité et pour cet usage ne sont pas encore disponibles. Il s’agissait bien de répondre à des exigences en matière de fonctionnalité, de cybersécurité et de rapidité. La raison principale du choix de Microsoft réside dans le fait que les services intégrés qu’ils proposent en matière de cybersécurité sont très robustes.

Sur la question de la localisation géographique des données, nous savions dès le départ qu’elles seraient migrées en France. Mais au début du projet, les services que nous cherchions n’étaient pas proposés par les datacenters français, c’est la raison pour laquelle ils étaient initialement situés aux Pays-Bas.

Nous sommes dans un contexte de démocratisation du cloud, accentué en partie par la crise. Mon sentiment est qu’il y a un enjeu énorme de vulgarisation à faire dans l’ensemble de l’écosystème. La doctrine du gouvernement en matière de cloud récemment communiquée est une très belle avancée.

Une part importante de vos missions est donc de plus en plus consacrée à la sensibilisation sur ces enjeux ?

Stéphanie Combes. La sensibilisation sur le cloud en général n’est évidemment pas notre mission mais nous sommes probablement un projet précurseur en la matière dans l’Etat. Nous comprenons les enjeux stratégiques liés à l’autonomie et la souveraineté et c’est la raison pour laquelle la souveraineté fait partie de notre feuille de route stratégique et que nous travaillons à la réversibilité de la plateforme depuis sa création. Il faut toutefois distinguer cet aspect des sujets réglementaires de protection des données. Si certains projets travaillant avec des hébergeurs américains sont soumis à un risque extra territorial avec l’arrêt Schrems II, ce n’est pas le cas du Health Data Hub notamment du fait du caractère déidentifié des données.

Prenez-vous part à l’initiative Gaia-X ?

Stéphanie Combes. Nous participons à un groupe de travail au sein de la déclinaison French Gaia-x Hub. L’ambition de Gaia-X est de produire un catalogue de services de cloud labélisés souverains. Les annonces récentes du gouvernement ouvrent la voie vers de nouvelles offres souveraines. Nous en avons déjà aperçu quelques-unes comme l’offre de cloud d’OVHCloud hybridée avec Google (Anthos) ou bien encore Blue, une nouvelle société fournisseur de cloud de confiance dont les principaux actionnaires sont Capgemini et Orange. Cette société licenciera la technologie Azure de Microsoft.

Quels seront vos objectifs après la crise ?

Stéphanie Combes. L’objectif restera de faciliter le partage des données. Les données de santé sont essentielles pour la recherche médicale et le développement de traitements personnalisés en fonction des pathologies du patient. Il est par exemple parfois difficile pour un professionnel de santé de proposer les meilleurs traitements à un patient qui a plusieurs pathologies en même temps. Et ici, l’intelligence artificielle apporte une vraie valeur ajoutée en mettant en lien des profils de patients calculés sur des grands volumes de données.

Le développement de logiciels d’aide au dépistage ou au diagnostic intégrant des algorithmes d’identification automatique de tumeurs sur des images médicales est un exemple classique. La crise sanitaire a mis en valeur les enjeux de la réutilisation des données de santé avec de nombreux projets médiatiques. L’enjeu clé est d’accélérer le partage de données et de lever les verrous qui le freinent. Si nous ne mettons pas en place les conditions nécessaires pour innover sur tout le territoire français, nous risquons d’accuser un retard dans la guerre sur l’intelligence artificielle qui se joue au niveau mondial.

Cela passe par le financement des bases de données de santé publiques comme cela est fait au Royaume Uni ou dans les Pays d’Europe du Nord, plutôt que de demander à des acteurs publics d’être rentables. Une nécessaire politique publique des données de santé pourrait répondre à ces défis.