L’X plonge dans l’une des bases santé les plus volumineuses au monde

emmanuel-bacry-polytechnique-article

Emmanuel Bacry, responsable du partenariat entre la Cnamts et l’École polytechnique.

La Caisse nationale d’Assurance maladie (Cnam) et l’Ecole polytechnique sont désormais partenaires dans le big data, suite à un partenariat signé fin 2014.

Fin 2014, la Caisse nationale de l’assurance maladie des travailleurs salariés (Cnamts) et l’École polytechnique ont signé une convention de partenariat de R&D sur trois ans (2015-2017). Ensemble, ils travailleront à développer de nouvelles pistes d’exploitation des données du Système national Inter-régimes de l’Assurance Maladie (Sniiram*), ayant pour certaines pathologies particulières plusieurs années d’historique.

Riche de près de 1 000 téraoctects, c’est l’une des bases de données de santé les plus volumineuses au monde que l’École polytechnique va ainsi pouvoir exploiter. Des données comptables relatives au parcours des 65 millions de bénéficiaires d’une couverture maladie obligatoire en France (en fait, on y trouve tout ce qui se fait au niveau de la carte vitale notamment). Par exemple, pas moins de 1,2 milliard de feuilles de soins sont gérées chaque année et anonymisées pour alimenter l’entrepôt Sniiram.

Ce programme de recherche, mis en oeuvre par un comité de pilotage réunissant des représentants des différents partenaires, est présidé par Emmanuel Bacry, chercheur au Centre de mathématiques appliquées (Ecole polytechnique/CNRS), Professeur et responsable de l’Initiative « Data Science » de l’École polytechnique (il gère notamment les relations avec les entreprises ou les institutions publiques sur ce sujet). Un projet qu’il a initié et porté depuis plus d’un an. « La Cnam est tout à fait consciente de la richesse de ces données et de l’intérêt de faire ce type d’études. De tout point de vue, c’est une des plus belles applications du big data que l’on puisse imaginer. D’y participer, en tant que chercheur et citoyen à la fois est une vraie chance », se réjouit-il.

Appliquer la technique du big data

Le partenariat abordera progressivement un programme de développement d’algorithmes définis au regard des missions de la Cnamts et, plus largement, des enjeux de santé publique. Au total, une douzaine de chercheurs de l’équipe (dont certains spécialistes de la santé depuis longtemps) d’Emmanuel Bacry travailleront en collaboration avec les épidémiologistes de la Cnam.

« Nous allons faire de l’apprentissage statistique non supervisé, pour découvrir des structures cachées dans cette masse de données gigantesque, sans idée préconçue, explique-t-il. C’est-à-dire que nous allons essayer de comprendre s’il n’y a pas une structure cachée dans des parcours de soins, sur des pathologiques précises ou non d’ailleurs. Nous avons aussi des projets médico-économiques, tout aussi importants. » Parmi les thèmes de recherche identifiés, on peut relever la détection de signaux faibles ou anomalies en pharmaco-épidémiologie, l’identification de facteurs utiles à l’analyse des parcours de soins, la lutte contre les abus et la fraude…

D’un point de vue technique, la première phase du travail consistera à mettre les données dans une forme exploitable pour pouvoir faire des calculs. Une fois maîtrisée par les chercheurs au niveau de sa structure, la base sera alors ré-imaginée et restructurée d’ici à la fin de l’année, même si d’ici à cet été, certains algorithmes, déjà développés par l’équipe de l’X, commenceront à tourner sur certains sujets.

Cette collaboration s’inscrit pleinement dans la stratégie de l’école, visant à développer de nouveaux axes de recherche dans le domaine de la santé publique. Ce qui s’incarne également au travers du partenariat scientifique avec le Département de la recherche clinique et du développement de l’AP-HP. « Il y a vraiment énormément de choses à faire dans ce domaine. C’est devenu une priorité pour nous. Ce partenariat avec la Cnam nous a donné une visibilité énorme. Aujourd’hui, tout le monde est demandeur », conclut le chercheur.

(*) Créé en 1999 par la loi de financement de la sécurité sociale, le Sniiram (Système national Inter-régimes de l’Assurance Maladie) regroupe des données complètes sur le parcours des patients et l’organisation du système de soins. Il rassemble les données de remboursements et d’hospitalisation des bénéficiaires de l’ensemble des régimes d’assurance maladie obligatoire en France. En charge de la gestion du Sniiram pour l’Etat, l’Assurance Maladie s’appuie depuis plusieurs années sur cette base de données pour mener à bien ses missions d’assureur solidaire en santé, tant au niveau de la qualité des soins que de la gestion des politiques de santé. Elle l’exploite également à des fins de santé publique et de pharmacovigilance en partenariat avec les autorités de santé. Par exemple, en 2013, une première étude sur le risque thromboembolique des pilules de 3ème génération a été réalisée à partir de ces données.

Polytechnique renforce son offre formation en  » sciences des données « 

A la rentrée 2014, l’Ecole polytechnique a ouvert, en partenariat avec Télécom ParisTech, le Master Mathématiques pour la sciences des masses de données, afin de répondre à la forte demande de « data scientists » de la part des entreprises. Pour compléter cette offre, l’école a lancé le programme « Data Scientist Starter Program », cette fois destiné aux professionnels en activité. Enfin, en octobre dernier, une Chaire « Data Scientist », portée par la Fondation de l’X, a été créée, en partenariat avec Keyrus, Orange et Thales.

 

Lire également l’interview de Franck von Lennep, directeur de la Drees, sur les questions d’open data dans la santé.