Big Data : (La) donnée c'est payant, ou le véritable dataclysme

Je me suis longtemps demandé si le concept de BIG DATA était une mode, un concept éphémère comme on en a connu un certain nombre en informatique ou, réellement une révolution ? Est-ce un eldorado qui nous conduit au graal qu’est la Donnée ? Les « chasseurs de données » sont-ils les mêmes que ceux qui cherchaient de l’or au far West ?

Daniel Benchimol, Président de DigitalPlace

Comment en sommes-nous arrivés là ? Finalement c’est assez simple. Nous produisons, nous, en tant qu’individu mais aussi nos industries, des données en masse. On s’est ensuite demandé si nous pouvions en faire quelques choses, il fallait donc des calculateurs plus puissants mais aussi des analystes qui pouvaient construire des modèles mathématiques statistiques pour en tirer des lois statistiques. Mais pour vraiment peaufiner les modèles, on a bien compris que les données pouvaient être hétérogènes et mélangées, qu’on pouvait croiser, par exemple, des données environnementales, les combiner à des données sociétales ou culturelles, etc…

Pourquoi ne pas aller plus loin ? L’intelligence artificielle embarquée dans des « Machines Learning » pourrait faire mieux avec des algorithmes puissants. Elle pourrait faire du prédictif. Nous maîtriserions le temps et ce qui s’y passerait avec une probabilité forte, l’homme deviendrait maître de son destin… Soyons sérieux. Il y a vraiment deux mondes différents qui s’intéressent aux Big Data. Le monde des Industries et des Entreprises pour l’amélioration de leur business model (production, commercialisation) et ceux qui évoluent dans le B2C, qui doivent toucher les consommateurs comme vous et moi.

Le Big Data Dans le monde de l’entreprise

Dans l’industrie aéronautique, les essais en vol d’un avion produisent deux TéraOctets [1] (1000 milliards d’Octets) de données venant de plusieurs milliers de capteurs. Le Big Data permet d’analyser tous les dysfonctionnements à la vitesse des super calculateurs. Cela permet dès la conception de l’avion de comprendre les algorithmes à mettre en place qui feront de la maintenance prédictive permettant d’anticiper les pannes, et d’optimiser les heures de vol (une heure de vol coûte 10 à 12 000 $). Ainsi, on arrive à faire de l’analyse prédictive de maintenance d’un avion. Cela signifie, une meilleure efficience de la machine avec moins d’arrêts non programmés, une meilleure sécurité pour le passager et évidemment une meilleure optimisation financière avec une réduction des coûts. Cela permet aussi de changer complètement les modèles de commercialisation d’un produit. On peut ne plus vendre un avion mais le facturer à l’heure de vol. Cette meilleure maîtrise rendue possible par l’enrichissement de la connaissance, et par un meilleur traitement de la donnée, permet à ceux qui l’osent de ‘disrupter’ leur business model.

Dans l’industrie automobile

Cette industrie a bien compris l’avancée technologique que représente les Big Data. En effet, plusieurs enjeux sont à considérer. Nous voulons tout comprendre sur la voiture en tant que machine, tout analyser sur les types de conduites des conducteurs (interaction de l’humain avec la machine) mais aussi sur le comportement de la voiture dans son environnement afin d’établir les bases de connaissances indispensables à la voiture autonome. Le véhicule devient ainsi un objet connecté avec son environnement. Sans l’analyse et le traitement en temps réel de données massives intégrant des données hétérogènes et des données aléatoires, nous ne pourrions imaginer un seul instant que demain nous ne conduirons plus nos voitures. Nous serons à l’arrière avec nos tablettes en train de travailler.

Dernier exemple : l’Assurance

Les assureurs entrent dans une nouvelle ère de personnalisation de leurs offres, appuyées sur une analyse très fine des profils de risques de leurs clients. Pour ce faire, l’analyse de données massives leur permet de profiler une offre d’assurance auto en fonction de votre lieu de résidence, de votre façon de conduire, du nombre de km que vous faites, des statistiques météo du lieu où vous conduisez, de votre âge, etc… C’est ce qu’ils appellent le « Pay How You Drive ». Bien sûr, on peut considérer que les incitations au prix que peuvent faire les assureurs est un moyen de prévention pour réduire les sinistres, mais, que les assureurs aient accès à toutes nos données médicales comportent un vrai risque sur lequel je ne m’étendrai pas.

Même si tout le monde n’est pas encore prêt, les exemples sont nombreux et multisectoriels : 60 % des banques disent n’avoir pas encore quantifié la valeur potentielle apportée par l’investissement dans des outils de BIG DATA. Pour autant, il est indéniable de penser que nous sommes dans une démarche vertueuse qui créera de la valeur pour tout le monde.

Quelles conséquences pour les consommateurs ?

Parce que nous vivons connectés en permanence, nous ignorons à quel point nous produisons des données. Nous sommes non seulement utilisateurs d’internet mais aussi utilisés par Internet. Les données collectées à notre insu viennent de toutes les applications que nous avons sur nos smartphones et pour lesquelles nous avons accepté les Conditions Générales d’Utilisation sans les lire (73% n’ont pas lu une seule ligne et les 26% restant n’y sont restés que quelques secondes). Ces applications peuvent accéder à nos données, connaitre tout de notre vie, et conjuguées à la géolocalisation, enregistrer tous nos faits et gestes. Ainsi, une personne qui irait fréquemment (traçage GPS) à un centre anti-cancéreux aurait une forte probabilité d’être malade et pourrait avoir du mal à trouver une assurance. Au même titre, une jeune fille mineure s’est vue recevoir moult publicités pour femme enceinte. L’analyse prédictive a fait qu’elle a été identifiée comme telle. Le fait est, qu’elle était vraiment enceinte et que ses parents ne le savaient pas. Cela a fait scandale aux US.

Les « data brokers » (nom donné aux courtiers en données) peuvent revendiquer des fiches détaillées sur un nombre incroyable de personnes : 700 millions pour l’un des plus importants dans le monde. La donnée se vend entre 0,6 cts et 25 cts d’euros pour les plus complètes et l’industrie de la data devrait générer environ 21 Milliards d’euros en 2016 selon Gartner.

Mais comment ces données arrivent-elles à être dans les ordinateurs ? Simplement, par des moteurs de capture d’informations. L’étude Mobilitics de la CNIL et de l’INRIA montre que sur une période de 3 mois, certaines applications mobiles accèdent 700.000 fois aux données de géolocalisation venant du smartphone. Ainsi, il existe un avatar de chacun d’entre nous, notre « clone digital », qui en sait plus sur vous que vous-même car il a une mémoire infinie. Par exemple, il sait ce que j’ai acheté il y a deux ans, où je suis allé il y a 18 mois en vacances et combien de temps j’y suis resté. Mais le problème c’est que cet autre moi ne m’appartient pas.

Facebook a 1,79 Milliards d’utilisateurs actifs mensuel et 10 Milliards de messages envoyés chaque jour. Par conséquent Facebook dispose de 300 millions de Go de données stockées sur nous. Effrayant ! Avec ces données, il peut faire de l’analyse comportementale avec des outils algorithmiques pour savoir qui écoute quoi et où (cela peut orienter la tournée d’un artiste), qui comporte quel risque pour que les assureurs puissent moduler différemment leurs offres ou qui se comporte comment (politique, religion, sorties, loisirs, préférence sexuelle, …), de telle sorte que des recruteurs peuvent aller loin dans le choix ou le refus d’un candidat. En 2015, Facebook a fait presque 18 milliards de dollars de chiffre d’affaire avec un bénéfice de 3,7 milliards de $ : la donnée rapporte.

Notre capacité d’acceptation de ce contexte s’accroit avec le temps mais aussi avec le progrès que les scientifiques apportent à la Société. En matière médicale, la techno-médecine, l’ingénierie génétique, ont permis de faire des sauts quantiques dans la connaissance de l’homme, grâce aux BIG DATA. La révolution des NBIC (Nanotechnologies, Biotechnologies, Information, Sciences Cognitives) a permis de collecter et croiser d’énormes masses de données. Ces données sont traitées par des ordinateurs qui atteignent maintenant quasi l’ExaFlops (1 milliards de milliards d’opérations par seconde – en 1986 on était seulement à 1 Milliards par seconde). Cela, a permis entre autres, le séquencement de l’ADN et son stockage sur une clé USB et ce pour quelques centaines de dollars. Dans ce domaine, le prédictif est motivant : savoir qu’avec tel gène, nous avons une probabilité importante de développer un cancer à 50 ans. La tentation devient forte de ‘corriger’ le gène à risque.

Mais à qui appartient notre propre ADN ? De là, se pose toute la problématique de la manipulation génétique et des travers auxquels elle expose l’humanité. D’ailleurs, la France ne permet pas de confier son ADN à des sociétés comme 23andMe (créée par l’ex-épouse du fondateur de Google) ou Navigenics. C’est peut-être par crainte de cette étude faite en Europe du Nord où 10 à 24% des enfants n’étaient pas le fils ou la fille de leur père légal, tel qu’ils y figuraient sur l’état civil.

Des dérives existent déjà : la manipulation des idées par des techniques d’influence

Les algorithmes repèrent sur les réseaux sociaux vos idées politiques ou sociétales et vous poussent les informations que vous souhaitez entendre pour vous conforter dans vos idées ou croyances. Les élections aux US en ont été la preuve flagrante. Des études ont analysé les tweets et certains étaient émis par des machines pour influencer l’électorat. Pire encore, Obama a répertorié des ‘fakes’, des informations fausses relayées par des communautés entières sur Facebook. Dans les trois derniers mois précédents les élections américaines, près de 20 histoires mensongères ont généré 8,7 millions de partages, réactions et commentaires sur Facebook. Sachant que 62% des adultes américains écoutent les news sur les media sociaux… Obama s’en est épanché à Mark Zuckerberg sans succès. D’ailleurs, un hackaton a été organisé à l’Université de Princeton pour créer un logiciel à base d’intelligence artificielle qui filtre les nouvelles en leur donnant par recoupement un label de vérification. Bien sûr, ce logiciel ne s’intéresse qu’aux faits, pas aux opinions. La société devient un puzzle de communautés d’êtres humains, séquencés par les technologies Big Data qui dégagent des tendances et modes de vie. De ces corrélations on déduira des tendances prédictives, et l’interaction que l’homme aura avec les objets connectés renforcera la fiabilité de la prédiction.

Bill Gates disait : « On surestime toujours les changements qui se produiront dans les deux prochaines années et on sous-estime ceux qui se produiront dans les dix suivantes. Ne vous laissez par bercer par l’inaction. » Il faut donc agir dans le sens du progrès en se prémunissant de toutes les dérives sur ce qui est d’ordre privé « privacy ». Car la vie privée de chacun est le fondement d’une société libre. C’est un acquis sur lequel il ne faut pas transiger.

Alors, dans ce dataclysme soyons vigilants.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Big Data : (La) donnée c’est payant, ou le véritable dataclysme

Le Big Data Dans le monde de l’entreprise

Dans l’industrie automobile

Dernier exemple : l’Assurance

Quelles conséquences pour les consommateurs ?

Des dérives existent déjà : la manipulation des idées par des techniques d’influence

Suggestion de contenus