Guide pour un projet data voix compatible RGPD

Cet article a été publié originellement sur mydatacompany.fr

La voix, l’interface de référence de demain des solutions numériques ? Le potentiel est là dans de nombreux secteurs. Voix et données vocales doivent toutefois être traitées dans les règles.

Assistants vocaux et enceintes connectées (HomePod, Amazon Echo, Google Home…) comptent aujourd’hui des centaines de millions d’utilisateurs dans le monde. Ils ont indiscutablement contribué à populariser l’usage de la voix dans le domaine des services numériques.

Mais le succès de ces services auprès des consommateurs a aussi mis en lumière le potentiel des interfaces vocales pour différents secteurs. Dans celui de l’assurance, par exemple, Swiss Life a ainsi développé un assistant vocal, AIDA, destiné à sa force commerciale.

Assurances et banques collectent aussi des données vocales par l’intermédiaire de leurs centres d’appels et services clients. Ces informations peuvent être valorisées grâce à la datascience à des fins d’amélioration de l’expérience client.

Après le tactile, démocratisé par les smartphones, la voix pourrait bien devenir l’interface naturelle, et principale, de demain. Mais attention cependant à ne pas négliger les spécificités juridiques de la voix et des données vocales.

Avant de se lancer dans le développement d’un service digital ou d’un produit data (chatbot, voicebot, etc.) exploitant la voix (et les informations qu’elle véhicule), les entreprises doivent être conscientes de leurs obligations en termes de conformité.

1. La voix, une donnée personnelle par définition

Car, à plus d’un titre, les données vocales ne sont pas des données comme les autres. Suzanne Vergnolle, juriste spécialisée sur les questions de données personnelles, précise notamment que la voix elle-même bénéficie d’une protection juridique.

Suzanne Vergnolle, juriste spécialisée sur les questions de données personnelles

« Les tribunaux ont reconnu la protection de la voix comme élément de la vie privée sur le fondement de l’article 9 du code civil. » Ce n’est pas le seul fondement juridique cependant. La législation française sur les données personnelles considère par ailleurs la voix – mais aussi l’image – comme des données à caractère personnel.

Cette qualification est encore renforcée par un avis du groupe de l’Article 29 (devenu le Comité Européen de la Protection des Données dans le cadre du RGPD). Ce dernier assimile la voix à une donnée biométrique – dont la protection est soumise à des obligations spécifiques.

Sans ambiguïté possible, voix et données vocales entrent de fait pleinement dans le champ d’application du RGPD. Et ceci donc pas uniquement au titre de la nature potentiellement personnelle des informations communiquées par la voix, par exemple au travers d’une interface vocale.

2. Les obligations du RGPD s’appliquent

L’exploitation des données vocales pour la fourniture de produits innovants, comme des assistants vocaux, sera dès lors soumise au respect des règles et principes du RGPD.

Soulignons d’ailleurs que le Règlement général sur la protection des données personnelles consacre notamment deux nouveaux principes qui intéresseront directement ces développements technologiques : le privacy by design et le privacy by default (articles 25, 1 et 2 du RGPD).

Des développements respectueux du privacy by design

Le texte impose en effet au responsable de traitement d’adopter des mesures garantissant la protection des données personnelles, de façon systématique, et ce dès la phase de conception. Ces principes s’appliquent donc aux données vocales.

D’autres obligations sont à prendre en compte. Plus d’un an désormais après l’entrée en application du Règlement, ces dernières devraient aujourd’hui être connues et comprises des entreprises responsables de traitements.

Les projets impliquant des données vocales seront de fait soumis au respect des obligations « classiques » du Règlement : information, sécurité des données, principe de minimisation, consentement…

3. Traitement local ou transfert de données ?

L’existence ou non de transferts de données vocales pour stockage sur des serveurs distants aura des incidences sur les mesures de sécurisation à mettre en place. Pour alléger leurs obligations en matière de sécurité, les entreprises peuvent donc privilégier un traitement local ou adopter des procédés de chiffrement ou d’anonymisation.

Transfert des données sur le cloud bien nécessaire ?

A titre d’illustration, les enceintes connectées se partagent en deux grandes catégories. Des terminaux comme ceux de Google et Amazon transmettent les données vocales sur leurs serveurs et en conservent un historique.

« On peut d’ailleurs se demander si la collecte et le transfert sur des serveurs correspondent au principe de minimisation. Est-il véritablement nécessaire d’envoyer les données pour pouvoir les traiter ? » s’interroge, avec scepticisme, Suzanne Vergnolle.

D’autres acteurs ont fait le choix de traiter localement les données ou de transférer des données anonymisées et chiffrées. C’est le cas du HomePod d’Apple.

En 2017, la startup Snips, qui développe des assistants vocaux non connectés à Internet, soulignait d’ailleurs l’avantage dont elle estimait bénéficier sur ses rivaux américains en matière de conformité RGPD. L’enregistrement des données en local ne l’exempte pas cependant de sécuriser les données.

La collecte et la conservation dans le cloud de ces données personnelles peuvent toutefois répondre à des fins d’améliorations des algorithmes, en particulier de reconnaissance vocale. Cette finalité n’est pas proscrite.

4. Bien informer l’utilisateur sur les différentes finalités

Amélioration du service, oui, mais à condition d’en informer clairement l’utilisateur du service, comme des différentes finalités attachées à un traitement. Cette bonne information, dont les modalités ont été précisées par la Cnil, est un préalable au recueil du consentement.

Cette information paraît d’autant plus nécessaire que des échantillons peuvent être écoutés par des humains. L’information à ce sujet s’est toutefois avérée relativement vague de la part des fournisseurs d’assistants vocaux les plus répandus du marché. Dans une FAQ, Amazon notait ainsi que des extraits de conversations pouvaient être utilisés pour « améliorer les performances » de son assistant.

Assistants personnels : un défaut d’information manifeste

En 2019, une enquête de Bloomberg a révélé qu’Amazon emploie plusieurs milliers de salariés dont le travail consiste à écouter ces extraits de conversation dans le but d’améliorer les performances de l’algorithme.

Pour Suzanne Vergnolle, ces affaires témoignent clairement « d’un défaut d’information sur les usages faits des données ». Elles interrogent même sur la légalité des traitements réalisés. « L’utilisateur n’étant pas informé, son consentement est-il valide ? Potentiellement non et le traitement fait sur cette donnée, illégalement, ne sera pas légal non plus. » 

Les informations communiquées (« complètes, claires, dans des termes accessibles ») au client du service se doivent donc d’être précises quant aux finalités des traitements effectués. Attention donc aux descriptions trop générales de ces finalités – motif pour lequel Google a été condamné à 50 millions d’euros d’amende par la Cnil.

5. Les données ne sont pas conservées ad vitam aeternam

En ce qui concerne la durée de conservation des données, rappelons qu’elle doit être adaptée à l’exécution des finalités. « En la matière, les principes de protection des données personnelles existent depuis 40 ans. Le principe selon lequel la durée de conservation des données doit être conforme aux finalités est extrêmement clair. »

Le délai écoulé, les entreprises doivent dès lors supprimer les données. Elles sont tenues, quoi qu’il en soit, de pouvoir justifier la durée de conservation des données au regard des finalités déclarées aux utilisateurs.

Quid des données utilisées pour entraîner les algorithmes ? Les utilisateurs peuvent à tout moment retirer leur consentement. Cependant, si leurs données ont déjà été exploitées dans l’apprentissage des algorithmes, le retrait du consentement et la suppression des données seront sans effet sur le fonctionnement de ces mêmes algorithmes.

6. Sécurité des données

« Le principe de sécurité est proportionné aux données collectées. Ainsi, plus la collecte est importante et plus la sécurité des serveurs sur lesquels ces données sont conservées devra être forte » résume Suzanne Vergnolle.

La diversité et la variété des données collectées sur le long terme exposent l’utilisateur à une  atteinte majeure à la vie privée. La robustesse des mesures de sécurité attendue s’en trouve dès lors renforcée.

Attention donc pour le traitement des données vocales de mettre en place des mesures appropriées permettant de garantir la sécurité des données, leur intégrité et de contrôler les accès à celles-ci.

Anticiper une probable analyse d’impact du traitement

L’équipe projet se fera accompagner du DPO et du RSSI pour réaliser une analyse de risques, définir ces mesures opérationnelles et les documenter. Cette documentation sera utile en cas de contrôle du régulateur.  

« Il va falloir réussir à prouver que dans la réalisation du produit, on a pris en compte les problématiques de minimisation, de sécurité, et de pertinence. Tous les grands principes de la protection des données devront être démontrés en cas de contrôle » note à ce sujet l’experte.

Etant donné les potentiels effets de la collecte, une analyse d’impact pourrait également s’imposer au responsable de traitement. Cette obligation intervient dès lors que le traitement présente un risque élevé pour les droits et libertés des personnes concernées.

L’AIPD (Analyse d’impact relative à la protection des données) sera toutefois conditionnée à l’usage du service vocal ou de ces données, aux finalités ainsi qu’aux différents paramètres de son fonctionnement, comme le stockage sur des serveurs. Dans le cas d’un assistant personnel type Google Assistant, l’analyse d’impact semble ainsi incontournable. C’est moins probable pour un assistant B2B tel qu’AIDA. 

« Le fait d’enregistrer systématiquement les données vocales, de les analyser, de procéder à des écoutes… laisse peu de place au doute sur les risques pour les libertés auxquels exposent ces traitements. J’ai du mal à concevoir qu’un juge puisse considérer que ces traitements n’engendrent pas un risque élevé pour les droits et libertés des personnes physiques. Ce qui est le critère de déclenchement de l’analyse d’impact. »