samedi 27 janvier 2018


Ces « dark data » que l'intelligence artificielle rend exploitables
source : Usbek et Rica
En marge du Forum international de la cybersécurité qui se déroule cette année à Lille, Regards sur le numérique s’est intéressé à un des sujets phares du forum : les dark analytics. Les progrès de l’intelligence artificielle donnent aujourd’hui aux entreprises l’opportunité de traiter une large quantité de données qui demeuraient jusqu’alors inintelligibles ou trop coûteuses à exploiter, les dark data. Pour mieux les appréhender et en tirer parti, des entreprises développent des outils de dark analytics. Décryptage.
À l’ère de l’Internet des objets, nous générons un nombre de données toujours plus conséquent. Ainsi, lors de la seule année 2017 on aurait produit davantage de données qu’au cours des 5 000 années précédentes de l’histoire de l’humanité.Cette somme déjà considérable de données, devrait doubler d’ici 2020, et tous les deux ans, pour atteindre les 44 zettabytes (soit 44 trillions de gigabytes). Pour les entreprises, ces données représentent un levier considérable afin de mieux comprendre leurs clients, leur marché, optimiser leur fonctionnement, etc.
430 milliards de dollars planqués à l'ombre
Pourtant, une étude de l’entreprise de logiciel californienne Veritas, datant de 2016, pointe que 85 % des données stockées par les entreprises ne sont pas traitées. Ces données qui ne sont pas exploitées à des fins analytiques, et donc non monétisées, sont appelées, « données sombres » (« dark data ») en anglais. On y compte aussi bien des données laissées de côté car redondantes ou sans intérêt, qu’un grand nombre d’informations potentiellement intéressantes. Les données sombres incluent également tout type de données difficiles à trouver ou cachées, soit le web qui n’est pas référencé, ce qui le rend de fait inaccessible. Cela peut être par exemple la partie privée de l’Internet public, les contenus protégés par des mots de passe ou des chemins non partagés, ainsi que celles du darknet, qui nécessitent des logiciels particuliers pour y accéder, tels que Tor.  
Quelle que soit leur localisation, ces données sombres représentent une manne potentielle pour les entreprises. Le cabinet d’études Deloitte prévoit ainsi que les entreprises qui se montreront capables d’analyser efficacement les données sombres totaliseront 430 milliards de dollars de gains de productivité supplémentaires d’ici 2020.
L'IA pour sortir les données de l'ombre
Comment expliquer alors qu’elles aient jusqu’ici été très peu exploitées ? La réponse tient principalement à des limites techniques. Elles étaient, jusqu’à une époque récente, tout simplement trop difficiles ou trop coûteuses à traiter. Mais les choses sont en train de changer, notamment grâce aux progrès de l’intelligence artificielle. En février 2017, Deloitte a consacré une étude aux « dark analytics », ces différents outils qui permettent de faire usage des données sombres. Selon l’étude, on distingue trois types d’outils d’analyse différents. Les premiers consistent à employer l’intelligence artificielle pour connecter des jeux de données internes aux entreprises, qu’il aurait été impossible de corréler à mains humaines . Cela inclut les données textuelles, comme les mails, les documents, les notes, les données statistiques, mais aussi les activités de connexion, les notes de frais, le nombre de réunions effectuées, ou encore les informations dont l’entreprise dispose sur ses employés. À priori pauvres en renseignement, ces données, croisées grâce à l’intelligence artificielle, peuvent fournir de précieuses informations.

Deloitte évoque l’exemple d’une compagnie d’assurances ayant trouvé un lien entre l’adresse de ses employés, la localisation de leurs places de parking et leur indicateur de satisfaction au travail. Cette corrélation lui a permis de découvrir qu’un temps de trajet trop long était la raison principale qui poussait les employés à quitter l’entreprise. L’étude raconte aussi le cas de l’Indiana University Health, un hôpital américain, qui emploie l’apprentissage automatique pour analyser les notes que prennent les membres du personnel médical lors de leurs rendez-vous avec les patients, ainsi que les conversations téléphoniques entre les patients et la réception. Ces données sont ensuite croisées avec des informations externes, comme le lieu de résidence des patients. L’hôpital peut ainsi engranger de précieuses informations supplémentaires pour compléter leurs dossiers individuels et établir des prédictions.
Exploiter les images et les sons
Le second type de « dark analytics » s’attache aux données qu’il était jusqu’à une époque récente très difficile d’analyser, en particulier les images, fichiers audio et vidéo. Là encore, les récents progrès de l’intelligence artificielle en matière de reconnaissance d’image et de son, permettent aux entreprises d’exploiter ces données pour mieux connaître leurs clients, leurs employés ou encore leur marché. Un magasin peut ainsi mieux cerner les habitudes, préférences et réactions des consommateurs, en analysant leurs mouvements et expressions faciales sur les vidéos enregistrées par les caméras. Un parc d’attractions pourrait, de son côté, optimiser son système de transports en analysant les vidéos prises par les caméras à l’entrée, pour comptabiliser combien de visiteurs viennent à pied, en voiture ou par les transports en commun. Il pourrait ensuite agrandir son parking ou mettre en place davantage de navettes. L’entreprise Stitch Fix, par exemple, analyse les images issues des réseaux sociaux pour repérer les évolutions dans les goûts vestimentaires de la population et détecter les tendances émergentes.
« Si l’usage des « dark analytics » constitue un vivier foisonnant pour les entreprises, il suscite quelques inquiétudes quant au respect de la vie privée »

Troisième et dernière catégorie de « dark analytics », toujours selon Deloitte : récupérer et analyser les informations que recèlent le deep web et le darknet. Si l’on sait ce qu’on cherche, les outils de minage et d’analyse de données sont d’heureux alliés. La myriade de données disponibles est en effet trop vaste pour naviguer totalement à l’aveuglette, mais les outils existants permettent aujourd’hui de partir avec une hypothèse en tête et de la mettre à l’épreuve en faisant parler les données. Parmi les outils disponibles, on compte l’entreprise Deep Web Technologies, qui conçoit un moteur de recherche permettant aux entreprises d’accéder aux données (structurées ou non) hébergées sur le deep web. L’Université de Stanford a également conçu un prototype, baptisé Hidden Web Explorer, pour sonder le deep web en quête d’informations précises. Citons également Infomine, de l’Université de Californie, ou encore le site Infoplease.
Dark analytics et respect de la vie privée
Si l’usage des « dark analytics » constitue un vivier foisonnant pour les entreprises, il suscite quelques inquiétudes quant au respect de la vie privée. Une entreprise ou institution mal intentionnée pourrait ainsi recourir à ces nouveaux outils pour espionner ses salariés ou collecter leurs informations personnelles sans leur consentement.
Les choses peuvent aussi vite tourner au casse-tête juridique : « Dans de nombreux cas, les lois qui s’appliquent aux fichiers audio ou vidéo sont celles du pays auquel appartient la personne qui apparaît sur ces contenus. De même, dans certains pays, le simple fait de stocker une adresse IP est une violation de la vie privée »rappelle Deloitte. De même, si le deep web est nommé ainsi, c’est parce que certaines informations qui s’y trouvent ont vocation à rester enfouies : gare aux entreprises qui les exploiteraient sans vergogne. Pour prospérer, l’usage des « dark analytics » doit donc trouver le juste équilibre entre l’intérêt des entreprises et le respect de la vie privée des employés, clients et internautes.

SUR LE MÊME SUJET :

Aucun commentaire: