Data et IA : autres enjeux du Covid-19

Pour la première fois, le monde vit une crise pandémique « en direct » ! La quasi-instantanéité de l’information, avec un suivi médiatique omniprésent et relayé sur des canaux de toutes sortes, forge la perception que la population a de la situation. Elle pose aussi l’épineuse question des données dont nous disposons sur le sujet, de leur fiabilité et de l’usage qui en est fait. 

Data et IA : autres enjeux du Covid-19 La carte de suivi global des cas de coronavirus Covid-19 mis à jour quotidiennement par la Johns Hopkins University est devenu un exemple emblématique. Le partage des données par les institutions étatiques, leurs agences locales et les épidémiologistes, permet à n’importe quel individu avec une connexion internet d’observer presque en direct la progression de la pandémie que connait le monde depuis quelques mois. Ainsi, l’ECDC (European centre for disease prevention and control) met à disposition les « données brutes » concernant la répartition géographique des cas, dans un simple document Excel, qui peuvent ensuite être exploitée à des fins d’information. Une plateforme d’open data consacré à Covid-19 a également été ouverte pour la communauté scientifique mondiale. Elle regroupe plus de 30 000 articles consacré au nouveau coronavirus. Mais ce partage des données facilité n’est ni une fin en soi, ni sans conséquences. 

Du bruit et de la confusion 

Outre l’impact psychologique, cette « facilité » d’accès à l’information présente des inconvénients, risques et contraintes, liées à la véracité, à la disponibilité, à la qualité et à la compréhension des données recueillies et traitées. Depuis longtemps les data scientists dans les entreprises savent qu’avoir des données ne garantit en rien une information juste, et encore moins « activable »… surtout si elles sont nombreuses et de sources multiples.  

Lire aussi > Télétravail et cybermenace : 4 conseils pour éviter la crise à domicile

En effet, le grand public est tout autant tenté de s’informer sur Facebook qu’auprès des sources officielles, ce qui a créé une importante tendance à la confusion et à des informations contradictoires ces dernières semaines. Le « bruit » est énorme et la « foule » peu disciplinée..En situation de crise, il est donc conseillé au contraire de se concentrer sur un nombre restreint de sources, officielles et régulièrement mises à jour. Pour le grand public, la page mise en place par le gouvernement réunies toutes les informations vraiment utiles. Pour les entreprises, les annonces des ministères de l’Economie et du Travail sur le soutien aux acteurs économiques sont régulièrement actualisées. Lportail de demande d’activité partielle a été rapidement surchargé hier, avant un retour progressif à la normale  

De la difficulté de recueillir des données exhaustives 

L’existence des fameuses « fake news » (rendues célèbres par les joutes politiciennes américaines et par les dernières élections dans les pays occidentaux) vient en grande partie, dans le cas du coronavirus, de la difficulté d’avoir des données sûres et exhaustives pour un « nouveau » virus. Les scientifiques ont besoin de temps pour récolter les données relatives aux taux de mortalité, à la virulence des souches, aux formes prises par la propagation. Ce qui explique la variété des estimations qui ont pu être données aux divers stades de l’épidémie et le sentiment de flou sur la nature et la dangerosité du virus. 

Lire aussi > Les entreprises adaptent leurs offres face au coronavirus

Même pour les épidémies de grippe saisonnière, installées depuis longtemps dans le paysage français, cette difficulté est bien présente. Ainsi, l’évaluation du nombre de décès annuellement liée à une forme de grippe, est calculée de façon statistique à partir des données concernant la surmortalité dans la population pour une année donnée. D’une part, il ne s’agit donc pas seulement de « cas » constatés cliniquement et passés par des hôpitaux, d’autre part, ces chiffres sont disponibles après l’épidémie et non pas pendant. C’est ce qui explique par exemple le couac autour de la communication du nombre de décès liés à la grippe durant l’hiver 2019-2020, annoncé par certains médias à moins d’une centaine (ce qui correspond aux cas des personnes passées en service de réanimation en hôpital), à comparer aux statistiques (dérivées de la surmortalité générale) établissant à environ 8100 décès pour toute la saison 2018-2019.  

Dans le cas du coronavirus, il faut donc bien prendre en compte qu’au-delà des données immédiates, les épidémiologistes fabriqueront également une donnée de long terme, le temps passant. C’est aussi cette différence entre « cas cliniques » et nombre total d’infectés, qui encourage la mise en place de mesure drastique de confinement. Ce n’est pas les 0,01% de la population française (à la date du 17 mars) qui sont des cas avérés, qui sont représentatifs de la circulation du virus, ce sont tous les autres (porteurs sains), qui contribuent eux-aussi à une augmentation exponentielle. D’autant plus alors qu’avec une période d’incubation de 5 jours environ en moyenne, les chiffres dont disposent les autorités sanitaires sont « décalés » de presque une semaine.  

Et l’intelligence artificielle ? 

La difficulté à établir en peu de temps un corps de données fiable explique enfin de multiples phénomènes annexes autour de l’épidémie, comme l’augmentation sensible de la cybermenace centrée sur le sujet et les risques cyber encourus en la matière par les télétravailleurs. Ou encore, les campagnes de communication opposées auxquelles se livrent les Etats-Unis et la Chine sur « l’origine du virus » (et, en creux, leurs responsabilités respectives). 

Les données sont également au cœur du sujet quand on se tourne sur les réponses que la technologie peut apporter à la crise. Le président américain Donald Trump a récemment appelé les spécialistes de l’intelligence artificielle à s’emparer de la problématique, dans la foulée de la création de la plateforme d’open data consacrée à la pandémie. Les pistes suivies sont variées : suivre et prévoir les vagues virales comme l’a proposé la start-up canadienne BlueDot aux autorités de santé américaine, apporter une aide au diagnostic comme l’ont revendiqué Alibaba Healthcare ou Infervision, ou encore accélérer le développement de  médicament – une cause défendue par la branche DeepMind de Google ou BenevolentAI. 

D’autres usages complémentaires reposent également sur la pertinence de l’intelligence artificielle : livraison par drone ou stérilisation en zone confinée, ou amélioration du suivi administratif et médical des patients. La Chine, premier pays touché par la pandémie, est pour sa part allée plus loin en se basant sur les données recueillies par son important dispositif de surveillance national à base de reconnaissance faciale et les technologies de l’entreprise SenseTime, pour identifier les individus pouvant présenter de la fièvre. De même, c’est bien une approche « big data » qui a permis à l’Empire du milieu de mettre en place une système d’évaluation des risques basés sur l’historique de déplacement de chaque individu… et leur attribuer une classement leur indiquant s’ils devaient entrer en quarantaine. La crise sanitaire amènera-t-elle de tels usages de la donnée en Europe dans les mois et années à venir ?