Cette article fait partie du dossier
Les articles du dossier

Les voies du big data chez SNCF

Après ses succès dans l’e-commerce, l’entreprise ferroviaire poursuit sa transformation numérique en se focalisant sur les aspects industriels et organisationnels de son activité. Comment ? C’est ce que nous expliquent Héloïse Nonne, responsable data science à la direction du digital, et David De Almeida, responsable modélisations et expérience voyageur à la direction Innovation et recherche.

ITINÉRAIRE D’HÉLOÏSE NONNER

Héloïse Nonne, responsable data science à la direction du digital, SNCF

Alliancy. Comment devient-on experte en data science chez SNCF ?

Héloïse Nonne. Je suis physicienne de formation, avec un background en physique quantique et en physique statistique. Ma thèse faisait déjà fortement appel à l’analyse de données. Après mon postdoc au Technion, j’ai en fait voulu me consacrer à des projets plus concrets, plus diversifiés, à moins long terme et davantage menés en équipe. En 2013, la data science démarrait en France : c’était une opportunité, même s’ilfallait pour cela que je me forme davantage à l’informatique, à la programmation, au machine learning, etc. Je l’ai fait un peu toute seule, et puis je suis rentrée comme data scientist chez Quantmetry, aux tout débuts de cette start-up. Six mois plus tard, fin 2014, j’en dirigeais les activités R&D. La prise de contact avec le ferroviaire s’est faite dans le cadre d’un projet de maintenance prédictive sur les trains d’Îlede- France. Quand SNCF a décidé d’internaliser les compétences en data science, j’ai été recrutée pour monter une équipe dédiée au sein de la Fab Big Data. Aujourd’hui, je suis toujours ce projet de maintenance, mais de l’intérieur !

En quoi consiste la mission de cette Fab Big Data ?

Héloïse Nonne. Cette Fab comprend une quarantaine de personnes, et fait partie des cinq centres de compétences créés* afin de généraliser la transformation digitale du groupe après la réussite exemplaire de Voyagessncf.com dans l’e-commerce. À la Fab Big Data, nous avons trois missions principales. D’abord, construire et mettre à disposition de nos clients internes une infrastructure de stockage de données commune – donc différente des silos compartimentés d’il y a quelques années – ainsi que les outils capables d’exploiter et den croiser ces données pour créer de la valeur. Ensuite, nous accompagnons ces clients depuis le choix des projets jusqu’à leur implémentation et la conduite du changement dans les processus métiers. La troisième mission, à laquelle se consacrent mes équipes, est d’apporter une compétence scientifique et technique en analyse de données et en machine learning pour le développement des modèles de prédiction et de prescription.

carré Alliancy 17 Intelligence artificielle De quelle manière les projets sont-ils menés ?

Héloïse Nonne. Avec les Fab, l’objectif de SNCF est de passer d’une gestion de projets traditionnelle à une conduite beaucoup plus agile, basée sur les proof of concept (POC). Concrètement, lorsque nous imaginons une solution innovante à un problème, nous investiguons deux ou trois mois avant de juger, si une nimplémentation terrain et un retour sur investissement rapides sont possibles. Ce retour n’est pas forcément financier, mais peut se mesurer en temps d’expert économisé ou en amélioration de la sécurité. À chaque étape, nous avançons vraiment en fonction des résultats. Ce mode de fonctionnement itératif, à coût contrôlé, est véritablement calqué sur celui des start-up. Et il vaut pour tous les projets, pas seulement en informatique.

Sur quels thèmes travaillez-vous ?

Héloïse Nonne. Le pôle Data science conduit une dizaine de projets. En dehors de la prévision de pannes sur le matériel roulant, nous travaillons, par exemple, avec SNCF Réseau sur l’optimisation de l’entretien de la végétation aux abords des voies. Pour éviter les retards dus aux chutes d’arbres ou aux feux de broussaille, l’idée est de fournir aux agents une cartographie des risques à chaque point kilométrique en agrégeant un grand nombre de données : météo, photos satellites, maintenance planifiée, historique des incidents… Une grande partie de ce travail tourne autour du text mining. Dans un tout autre domaine, nous travaillons avec Geodis à la création d’un outil qui serait capable de déterminer jour après jour les effectifs nécessaires dans les entrepôts logistiques en analysant les données historiques des ERP et des RH. D’une façon générale, nous aidons les métiers à passer d’une analyse qualitative des problèmes à une analyse beaucoup plus quantitative, de façon à mieux allouer les budgets et les ressources. Mais en faisant bien attention à ne pas présenter nos solutions comme des « boîtes noires », car SNCF est une entreprise
d’ingénieurs où il faut prendre le temps d’expliquer les choses pour convaincre.

* Les 5 Fab : Big Data, IOT, Design, Open innovation et Transformation agile des métiers

Itinéraire d’Héloïse Nonner

Intégrée à la direction du digital de SNCF, Héloïse Nonne dirige le pôle Data science et développement de la Fab Big Data depuis juin 2016. Docteur en physique, elle a travaillé plusieurs années dans des laboratoires de recherche fondamentale en physique des matériaux, d’abord en France, puis au Technion Israel Institute of Technology. Elle a ensuite rejoint Quantmetry, cabinet de conseil en data science et big data actif dans l’industrie, la banque, l’assurance et la santé.

Outre ses fonctions chez SNCF, Héloïse Nonne dispense des formations en machine learning et en data science auprès d’entreprises et de masters spécialisés. Elle est également experte pour la Commission européenne dans le cadre des programmes Horizon 2020. 

Vous travaillez chez SNCF depuis près de vingt ans. Comment y avez-vous vécu la montée en
puissance du numérique ?

David_De Almeida-3

David De Almeida, responsable modélisations et expérience voyageur à la direction Innovation et recherche, SNCF

David De Almeida. Notre terrain de jeu, c’est l’aide à la décision : comprendre les phénomènes pour les modéliser, les simuler et ainsi optimiser l’organisation tout en améliorant le service rendu aux voyageurs. Nous n’avons donc pas attendu le boom récent du numérique pour réfléchir à la façon dont il pouvait créer de la valeur dans l’entreprise. Mais auparavant, c’était plus difficile de susciter l’intérêt de nos collègues avec les techniques, les données et les calculateurs disponibles !

Aujourd’hui, beaucoup d’applications fleurissent un peu partout et des compétences complémentaires se mettent en place à plusieurs niveaux du groupe pour répondre aux besoins des métiers : c’estune excellente chose. Sur le plan technique, je dirais que les avancées en algorithmique et en puissance de calcul nous permettent d’accéder à des dimensions de problèmes supérieures et d’apporter des réponses plus pertinentes, notamment pour le temps réel.

La nature des problèmes a-t-elle changé ?

David De Almeida. Oui et non. D’un côté, la description numérique de notre système SNCF ouvre la voie à de nouveaux problèmes, ou plutôt de nouvelles possibilités – dans la maintenance prédictive, par exemple – avec de nouvelles technologies pour traiter les données. Mais de l’autre, par rapport à une offre de transport donnée, nous nous efforçons toujours et encore d’optimiser les ressources, c’est-à-dire d’établir des planifications de rames, de locomotives, et de personnels qui soient les plus efficientes possibles pour répondre à la demande. Simplement, là où il fallait deux ou trois semaines, il y a 15 ans, pour étudier un ou deux scénarios d’offre, quelques minutes suffisent. Nous pouvons donc multiplier les simulations. Ce que nous envisageons à présent, c’est l’intégration des interactions entre l’offre et la demande dans tout le processus. Des travaux de recherche sont en cours à ce sujet.

Est-il si difficile d’anticiper la demande ?

David De Almeida. C’est un problème beaucoup plus complexe qu’il n’y paraît. De fait, aujourd’hui,l’offre de transport est encore largement fixée par l’expertise humaine à partir de données hétérogènes issues d’enquêtes clients, d’outils de vente/réservation et de contrôles. Telles quelles, ces données donnent une idée assez précise de la fréquentation réelle, mais beaucoup moins nette en ce qui concerne la demande potentielle – et donc la rentabilité des offres à venir. Si l’on modifie des horaires, des fréquences ou des correspondances, la demande change, même à tarification constante. Mais comment ? C’est là dessus qu’il faut progresser. Grâce à des données plus fines et plus diversifiées, nous avons d’ailleurs effectué un travail important avec l’activité Transilien pour mieux comprendre la mobilité et la structure des flux de voyageurs autour de Paris. Les outils numériques nous ont ainsi permis d’avancer et, in fine, de travailler aussi sur la conception d’offres de transport mieux adaptées. Sur ce même thème de l’optimisation, nous nous sommes également intéressés aux problèmes de régulation des circulations sur le réseau. L’une des questions était de savoir dans quels cas il est intéressant de rallonger marginalement la durée de stationnement d’un train en gare pour lui garantir ensuite une circulation à voie libre, sans ralentissements.

Jusqu’à quel point l’optimisation des processus est-elle possible ?

David De Almeida. Du côté des modélisations, on voit apparaître des approches de plus en plus puissantes, avec des temps de résolution de plus en plus courts. Je pense aux techniques de coupes (Gomory, etc.) qui, par ajout de contraintes, réduisent le nombre de solutions à explorer tout en conservant celles qui sont optimales. J’espère qu’il y aura aussi des progrès dans le machine learning alimenté avec peu de données étiquetées. C’est important lorsqu’un système diverge ou qu’il montre un mode de fonctionnement peu ou pas observé précédemment. Chez nous, le cas se présente à l’ouverture d’une nouvelle ligne. Les limites actuelles de l’optimisation et de l’apprentissage automatique sont aussi d’ordre organisationnel. Quel processus et quels leviers mettre en oeuvre pour gérer concrètement les flux d’une gare ou adapter un plan de transport en temps réel une fois que l’on dispose des données et des bons outils numériques ? C’est une vraie question.

Itinéraire de David De Almeida

Ingénieur Ensimag (Grenoble INP) et docteur en Informatique de l’université Blaise-Pascal (Clermont-Ferrand), David De Almeida dirige le département Modélisations et Expérience Voyageur à la direction Innovation et Recherche de SNCF depuis 2014.

Rentré dans le groupe ferroviaire en 1998 en tant qu’ingénieur R&D, il a, par la suite, occupé des fonctions de gestion et de coordination de projets de recherche, puis de chefde département.

À lire aussi sur Alliancy :