Démystifier le Machine Learning

L’apprentissage automatique, ou Machine Learning, semble encore mystérieux au profane. Cette méconnaissance alimente parfois des fantasmes à propos d’une prochaine domination des hommes par des machines intelligentes. De façon plus terre à terre, il s’agit avant tout d’une étape majeure dans l’évolution des technologies de l’information. Tout décideur doit en comprendre les principes et les contraintes afin d’en tirer les bénéfices pour sa propre organisation.

Jean-Cyril Schütterlé, Directeur Produit et Data Science de SideTrade

Jean-Cyril Schütterlé, Directeur Produit et Data Science de SideTrade

Le Machine Learning requiert certes la mobilisation de compétences statistiques et informatiques bien spécifiques et encore rares, mais il repose sur des mécanismes finalement assez simples voire intuitifs. Pour ma part, c’est un service de traduction en ligne a priori banal – Google Translate – qui m’a fait comprendre le potentiel disruptif du Machine Learning.

Jusqu’alors, les éditeurs de logiciels de traduction avaient recours, schématiquement, à la programmation de dictionnaires, de règles grammaticales et de leurs exceptions, si nombreuses. Cette approche implique des efforts considérables.

Du ‘Rule-based’ au ‘Data-driven’

La nouvelle méthode part au contraire d’une idée plus simple: ne cherchons pas à décrire les règles et correspondances lexicales au préalable, laissons le logiciel les ‘découvrir’. Comment ?

En trois étapes :

1- Un corpus de millions de pages de texte préalablement traduits d’une langue à l’autre est constitué. Ces textes sont à portée de clic, mis à disposition sur les sites d’organisations internationales telles que l’ONU ou les institutions européennes.

2 – Lorsque l’utilisateur soumet un texte à traduire, le logiciel le découpe en éléments puis recherche au sein du corpus des éléments identiques ou s’en approchant, dans la même langue.

3 – La traduction la plus probable est extraite du corpus bilingue pour être proposée à l’utilisateur.

Les règles de traduction sont ainsi remplacées par des corrélations statistiques détectées au sein des données. Au lieu de les programmer minutieusement, elles sont automatiquement « apprises » par le logiciel. On mesure combien cette méthodologie est économe de ressources par rapport à la précédente et la qualité des traductions qui en résulte est généralement comparable.

Pour des problèmes plus simples que celui de la traduction entre langues humaines, aux gains de productivité s’ajoutent un saut qualitatif substantiel. En effet, quiconque a un jour spécifié des processus d’automatisation connaît la difficulté, même avec l’aide d’experts du domaine fonctionnel concerné, d’anticiper toutes les situations auxquelles le système sera effectivement confronté une fois en production. A partir d’hypothèses, elles-mêmes fondées sur un nombre limité d’observations, on définit des règles de fonctionnement du logiciel. Mais la réalité s’avère souvent beaucoup plus complexe que prévue, entraînant un fonctionnement suboptimal ou de coûteuses corrections du logiciel. Au contraire, le Machine Learning va se nourrir de toutes les données disponibles, réduisant le risque d’oublier un cas d’utilisation.

Il faut un pilote dans l’avion

L’apport de la machine est également d’éviter les biais dits ‘cognitifs’ propres à l’intelligence humaine, c’est à dire une sélection imparfaite des données disponibles qui aboutit à une prise de décision inappropriée.

L’exemple du traitement automatisé des demandes de crédit adressées aux établissements financiers l’illustre bien. Un algorithme parcourt les archives de dossiers dans lesquelles figurent les caractéristiques des emprunteurs (âge, revenus, situation patrimoniale, situation familiale, etc.) associées au dénouement financier de l’emprunt (échéances honorées ou défaut de paiement). Il met ainsi en évidence la relation probable existant entre un profil d’emprunteur et un risque de défaut. Appliquée à une nouvelle demande de financement, il permet de prédire, avec un niveau de précision qu’on juge suffisant, si l’emprunteur remboursera. Le risque d’une mauvaise décision fondée sur des préjugés ou l’humeur d’un agent disparaît.

Il est cependant crucial que l’humain reste le décideur de dernier ressort.

D’une part, parce que le système n’est évidemment pas parfait. Il est lui-même le fruit de choix humains : il peut avoir été optimisé pour éviter les faux positifs (scénario où le prêt est accordé alors que l’emprunteur fera défaut) et avoir ainsi une propension à rejeter certains dossiers. Il aura tendance à ‘écrêter’ les observations hors norme. L’utilisateur doit donc vérifier que les recommandations formulées sont bien légitimes et, si nécessaire, les infirmer. S’il accepte une demande d’emprunt que le système préconisait de rejeter et qu’il s’avère in fine que l’emprunteur honore ses obligations, le jeu d’apprentissage devra en être enrichi pour que l’algorithme accepte des dossiers émanant de profils similaires à l’avenir.

D’autre part, parce qu’il faut que l’utilisateur s’assure du respect de normes éthiques, en particulier lorsque la décision porte sur l’attribution de droits à des personnes. Le traitement automatisé de données nominatives est déjà strictement encadré par la loi. Et le droit en la matière est appelé à évoluer pour protéger les citoyens et les consommateurs des effets néfastes que pourrait entraîner d’excessives généralisations statistiques.

Primauté de la donnée

Le choix et le paramétrage d’un modèle algorithmique adapté au problème à traiter et au type de données exploitées sont bien sûr essentiels. La prévision du risque de défaut d’une entreprise ne reposera pas sur la même méthode que la reconnaissance d’un visage sur une photo. Toutefois, la performance de l’automatisation dépendra d’abord du respect de deux impératifs :

1/ la qualité des données. De nombreux traitement de nettoyage et formatage sont indispensables pour s’assurer que les règles découvertes lors de l’apprentissage ne reposent pas sur des observations fausses. Cet effort surclasse en général de beaucoup celui consacré au paramétrage du modèle.

2/ la représentativité du jeu d’apprentissage. L’automatisation sera en effet d’autant plus efficace et précise que les observations sur lesquelles s’effectue l’apprentissage automatique ne sont pas biaisées, c’est à dire qu’elles ressemblent suffisamment aux cas de figure qui seront à traiter. Par exemple, si je cherche à prédire le comportement de paiement d’entreprises, mais ne dispose que des données relatives à celles se situant dans une certaine tranche de chiffres d’affaires, le système pourrait ne pas être précis lorsque je l’appliquerai à une autre catégorie.

L’accès aux données est crucial pour la réussite des projets de machine learning car, au bout du compte, aucune sophistication algorithmique ne compensera jamais un mauvais jeu de données.

Avec toujours plus de puissance de calcul et les progrès de la digitalisation, il devient possible, et probablement indispensable, de mettre en œuvre une approche pilotée par la donnée pour concevoir des systèmes d’automatisation des processus plus efficients. Au-delà des compétences scientifiques requises, le succès de ces solutions repose sur le recueil de données pertinentes et leur supervision par des opérateurs humains. L’apprentissage automatique tend à évacuer les comportements arbitraires, veillons à ce qu’il n’y substitue pas des généralisations ineptes.