De l’intérêt du Machine Learning pour lutter contre la fraude astucieuse à l’Assurance chômage

Depuis janvier 2017, la Direction Prévention des Fraudes et Contrôle Interne de Pôle emploi a entrepris un travail visant à développer un outil d’alerte sur des situations présentant des risques d’escroquerie à l’Assurance Chômage. Ces travaux visent notamment à renforcer l’efficacité d’action des auditeurs de prévention des fraudes et à s’adapter à l’évolution digitale des processus.

L’intérêt du machine learning pour lutter contre la fraude astucieuse :  le cas des escroqueries à l’Assurance chômage

Nicolas Thomas, Responsable Département MOA SI Maîtrise des risques et exploitation des données, Pole Emploi et Olivier Auliard, Chief Data Scientist, Capgemini Invent

Depuis sa création il y a dix ans, l’activité de lutte contre la fraude chez Pôle emploi n’a cessé de s’intensifier. A moyens constants, les équipes dédiées ont, chaque année, eu à traiter un nombre toujours plus important de dossiers.

L’objectif de ce projet était donc de développer et faciliter l’autonomie des auditeurs en mettant à leur disposition un outil qui les aide à détecter par eux-mêmes les situations à risque et leur permette d’accélérer leur traitement. Un second objectif visait à s’adapter à la digitalisation des processus métiers.

L’objectif de ce projet était donc de développer et faciliter  l’autonomie des auditeurs en mettant à leur disposition un outil qui les aide à détecter par eux-mêmes les situations à risque et leur permette d’accélérer leur traitement. Un second objectif visait à s’adapter  à la digitalisation des processus métiers. En effet, dans ce contexte, les documents papiers disparaissent, les publics qui utilisent massivement la digitalisation sortent de certaines modalités de contact qui nourrissaient les interactions entre les allocataires et les conseillers indemnisation de Pôle emploi. Or, ces derniers ont longtemps été la première source de signalement interne des situations à risque.

Tentatives pour créer des règles métiers de détection de la fraude

La première séquence de travaux s’est déroulée sur une période de 6 mois. Animé par deux chargés de maîtrise d’ouvrage, le travail a alterné sur plusieurs mois des séances d’échange entre des auditeurs fraudes nationaux ou régionaux et des data scientists, des travaux d’extraction, de préparation des données, de conception d’indicateurs et enfin des travaux de vérification par les auditeurs des cas proposés par les data scientists.

Les travaux se sont centrés sur les fraudes à l’Assurance Chômage en étudiant toutes les informations habituellement utilisées par les auditeurs fraudes de Pôle emploi pour détecter des fraudes : identité, informations bancaires, passé professionnel, entreprise, modalités de contact avec Pôle emploi. Il s’agissait, à partir des descriptions des différentes techniques de fraude, de déterminer des indices pour les traduire en variables et indicateurs destinés à alimenter une ou plusieurs règles métiers. Une règle métier consiste à enchaîner des critères logiques afin d’identifier des situations atypiques. Par exemple, on va combiner le fait qu’une allocation soit versée sur un compte bancaire moins sécurisé avec le constat d’un certain niveau d’incomplétude des informations administratives fournies à l’appui de la demande d’allocation, pour isoler une population réputée à risque.

En expérimentant cette approche, data scientists et auditeurs fraude se sont heurtés à deux écueils : la qualité des données (ce qui est assez classique dans ce type de travail) et le fait que ces critères peuvent également s’appliquer à des groupes « marginaux » ou « atypiques » d’individus (au sens statistique). Ce second problème est d’autant plus marqué que Pôle emploi s’adresse à des publics très vastes[1] et variés avec des dispositifs et des règles d’indemnisation différenciés. Pour pallier ces deux écueils, les data scientists sont contraints soit d’éliminer les données de mauvaise qualité, soit d’ajouter des critères d’exclusion, si bien que la population à étudier s’en trouve mécaniquement réduite à la portion congrue. Ce procédé n’est pas moins coûteux, bien au contraire, car le traitement des données s’en trouve de plus en plus complexe (gestion des exceptions, multiplication de règles et sous-règles, etc.).

Au cours de ces recherches, l’analyse de cas récents de fraude en réseau a permis de mettre en évidence  qu’il existait, pour une même technique de fraude, une grande variété d’indices mais que leur combinaison variait d’un dossier à l’autre. Il est donc apparu nécessaire de se tourner vers une approche plus souple qui soit en capacité d’incorporer un plus grand nombre de variables et qui ne se limite pas à une combinaison logique de quelques indices. Et ainsi passer d’une approche de détection par signaux forts – dont l’efficacité n’est plus à la hauteur – à une approche de détection par une concomitance de signaux faibles.

Pôle emploi a sélectionné Capgemini pour l’aider à étudier comment, par des méthodes de machine learning, mettre en œuvre cette seconde approche.

Création d’un score de risque par des méthodes de machine learning

Les objectifs des travaux de machine learning ont consisté d’abord à développer un modèle, puis à faire en sorte que Pôle emploi soit en mesure de l’industrialiser et surtout qu’il soit compris et adopté par les auditeurs de prévention des fraudes.

En premier lieu il a fallu choisir précisément le sujet à traiter. La problématique retenue a été l’évaluation du risque qu’une allocation d’assurance chômage ait été accordée sur la base d’une fausse déclaration d’emploi. La gestion d’un dossier d’allocation chômage étant étalée dans le temps (le versement des allocations peut durer 1, 2 voire 3 ans et est conditionné par l’actualisation mensuelle de la situation du demandeur), le modèle devait pouvoir identifier ce risque dès l’instruction du dossier, mais aussi prendre en compte l’évolution de ce dossier dans le temps. L’objectif étant à la fois de pouvoir agir au plus tôt, idéalement avant le versement des allocations (et ainsi minimiser les pertes financières pour Pôle emploi), mais aussi de pouvoir déceler des  situations à risque dont les indices n’émergeraient qu’au fil du temps (constitution d’un réseau, comportement atypique de l’allocataire).

La construction d’un modèle d’apprentissage dit supervisé suppose que l’on dispose d’un échantillon de dossiers, dont certains sont dits « positifs » (ici, les dossiers frauduleux) et les autres dits « négatifs » (les dossiers non frauduleux). Les positifs ont pu être identifiés grâce à l’historique des fraudes détectées par Pôle emploi en lien direct avec une fausse déclaration d’emploi. En revanche, les négatifs ne sont pas identifiables de manière aussi directe car les dossiers non frauduleux ne sont pas réellement identifiés comme tels. Après avoir échangé avec les auditeurs, les vrais négatifs ont été remplacés par une sélection de dossiers réputés sans risque car comportant des éléments redondants de justification de l’emploi.

Au-delà de ces travaux de préparation de la donnée, un travail d’enrichissement de la donnée a dû également être réalisé. Et il s’est révélé très important pour la performance du modèle final

Trois enrichissements clés ont été réalisés :  
– l’utilisation d’un référentiel géographique dans le but de rapprocher des dossiers selon leur rattachement à des territoires ayant les mêmes caractéristiques socio-économiques ;
– la récupération d’un référentiel des établissements agréés par la Banque de France ayant l’autorisation de pratiquer des services financiers en France ; ceci dans le but d’identifier le nom et la catégorie de l’établissement fournissant les coordonnées bancaires transmises par les allocataires ;
– l’utilisation de variables issues de l’analyse des graphes (ces calculs permettent de mettre en évidence des liens de proximité qui existent de manière plus systématique entre les dossiers frauduleux).

Plutôt que de travailler à partir des seules fonctions statistiques disponibles dans les librairies de leurs logiciels habituels de datamining, les data scientists ont ensuite recherché et testé de nombreux modèles issus du monde de l’open source « Python ». L’avantage de l’open source est l’accès aux dernières innovations en termes de modélisation ainsi qu’à l’immense communauté qui partage abondamment sur Internet et permet de s’approprier rapidement ces modèles de plus en plus complexes.

Ils ont ainsi pu sélectionner et mettre au point leur modèle final fondé sur l’algorithme XGBoost. Considéré comme une des stars des compétitions de machine learning, cet algorithme a la particularité de combiner les résultats de centaines de modèles plus simples afin de fournir une prédiction de meilleure qualité.

Si le modèle présentait tous les critères de validation statistique, il ne manquait pas moins une validation empirique avec de vraies données et de vrais cas détectés pour s’assurer de sa pertinence.

Adoption de l’algorithme par les auditeurs fraude, déploiement et résultats

Le modèle a été testé pendant deux mois auprès des auditeurs fraudes des directions régionales de Pôle emploi.

Des dossiers présentant des scores de risque supérieurs à 50% ont été adressés aux auditeurs qui, au travers de leurs investigations, ont confirmé ou infirmé le risque de fraude. Les résultats obtenus ont permis d’évaluer la pertinence de l’algorithme et de le faire évoluer par des itérations successives de réglages. Par exemple, des biais liés à des variables mal renseignées ont pu être mis en évidence ou encore les modalités d’autres variables ont été revues afin d’obtenir la bonne granulosité. Ainsi, l’algorithme a-t-il peu à peu gagné en fiabilité.

L’algorithme a suscité rapidement l’intérêt des auditeurs : il leur permet en effet d’identifier des situations à risque qui ordinairement, par le recours à des techniques de fraude « astucieuses », peuvent passer sous les radars. Par exemple : les cas où un gérant d’entreprise complice fournit de vraies fausses attestations produites par un logiciel de paie et qui n’appellent, dans leur première analyse, aucun doute de la part des conseillers indemnisations de Pôle emploi.

Les situations détectées concernent aussi bien des dossiers d’allocation tout juste validés que des dossiers ayant déjà fait l’objet de plusieurs versements mensuels.

Par la suite, le traitement algorithmique des données et leur traitement par les auditeurs ont été industrialisés grâce à une application dédiée. Chaque mois, des alertes sont ainsi adressées à chaque service régional. Au-delà du score de risque, le programme remonte également des indicateurs métiers permettant aux auditeurs d’interpréter le score, d’affiner leur sélection et de guider leurs investigations.

Entre le 1er avril et le 31 août 2019, 3096 alertes ont été traitées par 35 auditeurs répartis dans 17 services régionaux de prévention des fraudes. Parmi ces alertes, 607 font ou ont fait l’objet, après un premier niveau d’investigation, d’une instruction en raison de doutes sérieux sur leur régularité.

Au 31 août 2019, à la suite des instructions menées par les auditeurs sur ces 607 dossiers, 313 ont été qualifiés « présumés frauduleux », représentant un montant d’allocations indues de 2 496 292 € versés (préjudice subi à recouvrer) et de 3 841 203 € d’allocations indues qui ont été stoppées et donc non versées (préjudice évité).

[1]           9 millions de dossiers d’allocation sont traités par an.