Que ce soit dans notre vie professionnelle ou dans notre vie personnelle, le numérique prend une place de plus en plus importante. Voire, serait amené à prendre notre place tout simplement ? Pour nous orienter vers des activités plus essentiellement humaines ?
Certes, mais peut-on en toute confiance laisser les algorithmes et les données qui les alimentent étendre leur emprise ? Les programmes sont-ils totalement neutres, loyaux, transparents et orientés vers le bien commun ? Faut-il pour s’en assurer penser une éthique spécifique ? C’est pour tenter de répondre à ces questions que nous avons rencontré Frédéric Bardolle, data scientist et membre de Data for Good.
SOMMAIRE
- Data for good
- Comment ça fonctionne ?
- La motivation des bénévoles
- Qu’est-ce qu’AlgoTransparency ?
- L’algorithme de Youtube
- Comment y remédier ?
- Quelle différence avec les médias traditionnels ?
- La régulation étatique
- Une régulation ex ante et ex post
- L’IA uniformise les comportements ?
- Faut-il craindre les dérives dans le monde de l’entreprise ?
- La profession comptable et l’IA
- Une remise en cause de la profession
- Faudra-t-il apprendre à coder ?
Partager l’article
Notre objectif est de répondre à la question :
comment utiliser la science des données ou « data science » pour le bien commun ?
Si nombre exploitent des données à des fins commerciales, peu se préoccupent exclusivement d’intérêt général.
À l’origine, aux Etats-Unis, il existe bien une association qui s’appelle Bayes Impact². De notre côté, nous avons créé Data for Good pour mener, grâce à des volontaires, des projets purement philanthropiques. On met un point d’honneur à ne pas avoir de salariés pour rester indépendants. Les seules sources de financement dont nous disposons proviennent de dons. Et on s’en sort avec un budget annuel de 400 € !
Aujourd’hui, nous en sommes à la 5ème saison d’accélération après avoir développé 26 projets au cours des 4 précédentes.
On constitue des équipes de bénévoles pour travailler durant 3 mois sur des projets à partir de données disponibles. À échéance, l’équipe présente ses résultats devant des personnalités lors d’un demo day. C’est un temps réduit, très intense pour montrer que le projet est faisable.
Par exemple, en ce moment on développe le projet Diafoirus³ visant à prédire la chute de tension d’un patient qui arrive à l’hôpital en réanimation. Pour cela, on dispose des bases de données ouvertes d’un l’hôpital de Boston. L’équipe les analyse pour voir si on peut établir des scores de prédiction pertinents.
On mène également un projet sur la refonte de la carte électorale dans le cadre de la réforme de l’assemblée nationale⁴. À partir des données dont on dispose, on opère des simulations de redécoupage de circonscriptions homogène en nombre d’électeurs et s’affranchissant des départements pour voir ce que cela implique.
Tous les programmes que nous écrivons sont en open source et peuvent donc être réutilisés par tous. C’est pour cela qu’on s’autorise parfois même à travailler sur des projets de start-up. Le code étant ouvert, on considère que ça peut profiter à tous les autres acteurs.
Grosso modo, il existe trois grandes catégories de volontaires. D’abord les étudiants qui souhaitent se confronter à leurs premiers cas concrets, ceux qui travaillent dans des grands groupes et enfin ceux qui sont issus de start-up. Ce qui les rassemble, c’est l’envie de donner un supplément de sens à leur activité quotidienne, en agissant pour le bien de l’humanité. Pour qu’ils s’engagent, il faut donc que celui qui porte le projet parvienne à les convaincre en ce sens.
AlgoTransparancy a été lancé avec Soline Ledésert, Adrien Moncoudiol et Guillaume Chaslot, un ancien ingénieur chez YouTube. L’objectif est de comprendre comment fonctionne l’algorithme de YouTube.
Vous l’avez sans doute remarqué, sur YouTube, à la fin d’une vidéo, une nouvelle se lance sans explication… et ainsi de suite. Et ça finit toujours par le pire ou l’extrême. Une journaliste américaine écrivait d’ailleurs « on n’est jamais assez hardcore pour YouTube ». Vous commencez par regarder des vidéos de course à pied et vous finissez avec de l’Ultra-Trail.
Pour comprendre ce qu’il y a derrière l’algorithme, il nous fallait des données. On a donc mené plusieurs tests à partir de mots-clés. On a pu établir un arbre de 3000 recommandations. De quoi mesurer les vidéos les plus recommandées par rapport à la recherche d’origine.
On a appliqué cette méthode lors de l’élection américaine de 2016. Or, que l’on cherche Trump ou Clinton, les vidéos de Trump étaient, in fine, beaucoup plus recommandées.
On a poursuivi avec les élections présidentielles françaises de 2017. Quel que soit le candidat recherché, les vidéos des candidats Le Pen, Mélenchon et Asselineau étaient les plus recommandées.
On l’a fait sur plusieurs autres sujets : le vaccin, la terre… et systématiquement ce sont les vidéos les plus complotistes qui ressortaient.
De notre point de vue, tout provient du fait que l’algorithme de YouTube sert à optimiser le Watch time, c’est-à-dire le temps passé sur sa plateforme.
Sur la base de ce critère d’optimisation, une vidéo qui amène un internaute à passer plus de temps sur YouTube, est une très bonne vidéo. Pour l’algorithme, le contenu est totalement neutre : seul le résultat compte. Et ainsi d’exploiter ce penchant humain pour tout ce qui est mystérieux, pour les vérités cachées, pour tout ce qui est extrême…
Tout ceci rentre dans un cadre plus global de « l’économie de l’attention » qui pousse à produire des contenus extrêmes – par exemple anti-vaccin – non par conviction, mais simplement parce que la vidéo sera plus recommandée par l’algorithme de YouTube, ce qui génère des revenus. On a clairement des gens qui défendent des points de vue qui ne sont pas les leurs, uniquement pour gagner de l’argent.
Il faudrait créer un statut hybride entre ceux d’hébergeur et d’éditeur. Un éditeur ne peut pas publier n’importe quoi sous peine d’engager sa responsabilité alors qu’un hébergeur, lui, n’a pas de responsabilité sur les contenus.
Ça ne posait pas de difficulté majeure au début d’internet : un site web qui hébergeait une vidéo n’était qu’un annuaire. Lorsqu’une plateforme utilise des algorithmes pour recommander du contenu qui peut ainsi être vu des millions de fois, cela correspond à une véritable politique éditoriale.
Imaginez que dans une cantine, un algorithme choisisse les plats à proposer aux enfants avec pour but de maximiser la quantité de nourriture à ingérer. Au départ, le choix sera large. Mais, il aura tôt fait d’analyser que les frites et les glaces sont les plus efficaces pour remplir son objectif. Et, au bout d’un mois, il proposera en priorité des frites et des glaces sans se soucier de leur qualité nutritionnelle.
Ce qu’on veut démontrer de manière générale, c’est que lorsqu’on optimise grâce à un algorithme, il peut y avoir des effets secondaires potentiellement néfastes. Notre objectif est de dire en quoi ils peuvent l’être.
Et pour revenir à YouTube, pour changer ça, c’est son business model qu’il faudrait revoir.
Les médias de masse sont obligés de respecter une sorte de modération : ils ne peuvent pas se permettre d’aller d’un extrême à l’autre car ils doivent s’adresser au plus grand nombre. À l’inverse, Internet autorise une hyperpersonnalisation. Ce qui, au passage, ressemble à l’heure actuelle au monde des start-up. Elles font des produits sans se préoccuper de savoir si ça correspond à leurs aspirations. Elles testent et si ça ne plait pas, elles basculent vers un nouveau produit. Elles cherchent à être les plus adaptées possible à l’utilisateur.
De la même manière, les algorithmes permettent de définir des cibles précises auxquelles viennent s’adapter des contenus.
Ce qui finit également par polariser les individus : en les mettant dans des petites niches, on peut aller toujours plus loin, vers l’extrême, ce qui les isole encore plus. C’est un genre de boucle néfaste.
On n’a pas encore trouvé de solution miracle. Mais il y a des pistes et des idées comme celle de faire évoluer le statut des plateformes. Mais également de montrer aux utilisateurs combien de fois un contenu a été « recommandé » par les plateformes, pour leur permettre de mieux prendre conscience de l’ampleur du phénomène.
On pourrait aussi leur imposer de mentionner les objectifs qui ont été optimisés, les paramètres pris en compte…
Nous nous intéressons également en amont aux data scientists en leur proposant un serment d’Hippocrate⁶. Mais ça ne suffira pas. Une régulation étatique est nécessaire, comme l’a d’ailleurs proposé Cédric Villani dans son rapport⁷. Il faut simplement qu’elle soit suffisamment réactive pour pouvoir contrer efficacement les mécanismes.
Exactement. Je pense que l’Europe a vraiment cette carte éthique à jouer. La mise en place du RGPD va dans cette direction. Et je suis convaincu que ce sera un argument de plus en plus différenciant pour choisir un produit.
Il y a déjà des Start-up qui fonctionnent comme ça. Je pense par exemple à Snips⁸, un assistant vocal français qui, plutôt qu’envoyer les données dans le cloud avec tous les risques d’espionnage que cela comporte, traite les données en local. Seules sont transmises des données cryptées pour entrainer l’algorithme. De la sorte, le système global s’améliore sans fuite de données personnelles.
Il y a tout un pan de l’économie qui pourrait se développer sur ce modèle : créer des produits intéressants, bénéficiant de toutes les avancées technologiques, mais qui soient plus transparents, plus éthiques et qui respectent la vie privée des utilisateurs.
Les algorithmes sont, par essence, conservateurs car on les alimente avec des données passées. Essayez dans Google translate de saisir « nurse » et vous obtiendrez en français « infirmière ». Puis « doctor » et vous obtiendrez « docteur ». Pourquoi ? Parce qu’il a vu des milliers d’exemples avec cette traduction qui correspond à un état actuel : le métier d’infirmière est encore majoritairement féminin et celui de médecin plutôt masculin.
Si la société change et que le genre de ces métiers s’équilibre, l’algorithme mettra longtemps à s’en rendre compte. Et peut-être même que cette inertie sera un frein.
Pour prédire, les algorithmes sont paramétrés sur un système sensé rester à peu près constant même si, toutes les nuits, ils sont entrainés avec de nouvelles données ce qui permet une certaine évolution.
En contrepoint, c’est le propre de l’homme d’être plus créatif, de penser à des choses qui n’existent pas et d’essayer de se projeter.
En réalité, quand on parle de prédiction, soyons honnêtes, il s’agit plus de reproduction, ou de prédiction si toutes les choses restent égales par ailleurs.
Il y a des choses plus inquiétantes encore. Prenez le logiciel Compas qui commence à être utilisé aux USA pour calculer des peines de prison. Il tient compte du risque de récidive en fonction des antécédents judiciaires des ascendants. C’est purement inacceptable que le fait d’autrui puisse être ainsi déterminant. C’est nier la responsabilité individuelle que de blâmer pour des choses dont on n’est pas coupable soi-même.
Me vient à l’esprit un projet de la DIRECCTE de Bourgogne Franche-Comté « signaux faibles » qui est l’exact contraire. Il s’agit de détecter les signes avant-coureurs de difficultés afin justement d’aider les entrepreneurs.
Il s’inscrit dans un programme plus vaste d’intérêt général dont l’objectif est de placer des « geeks » au sein des administrations, pour faire émerger des projets d’intérêt général.
Comme pour beaucoup d’autres professions, des fonctions, non plus seulement mécaniques, mais désormais intellectuelles, sont en voie d’automatisation. Mais reconnaissons que ce sont des tâches qui ne sont pas des plus agréables.
Cela doit permettre aux professionnels de se recentrer sur des tâches où se situe leur vraie valeur ajoutée en tant qu’être humain.
Je pense, en particulier, à tout ce qui relève de la créativité ou aux problèmes qui sont si complexes et qui nécessitent des compétences si différentes, que seul un humain peut les traiter.
Car qu’est-ce que fait l’IA ? Elle résout des problèmes hyper-simples dans un domaine déterminé. Par exemple, un algorithme entrainé pour reconnaitre une image ne saura pas faire autre chose. Si vous lui posez une question un tout petit peu à côté, il ne comprendra même pas la question.
Il faut bien voir que pour faire fonctionner une IA, il faut des données d’entrainement labellisées. Elle apprend en fonction de ce qu’a mesuré un humain, ce qu’on appelle dans notre jargon le digital labor. Il existe des fermes où des hommes qualifient les images pour dire « ça c’est un panneau, ça c’est un feu ». On est donc encore très loin d’avoir quelque chose de vraiment intelligent qui sache qualifier de manière totalement indépendante un objet. Ce qui nous laisse du temps pour nous transformer.
Pour autant, il y a des choses à repenser dès aujourd’hui. Je pense notamment aux processus. Au fil du temps, on a bâti des systèmes complexes.
Être confronté à cette transformation doit nous permettre de repenser la manière dont nous fonctionnons pour simplifier en visant toujours l’utilisateur final.
On a trop souvent pensé les projets de manière isolée alors que si on les co-construit avec les utilisateurs, on crée une vraie plus-value : celle qui résulte d’une empathie : une qualité proprement humaine… Et qui le restera encore très longtemps !
Il faut regarder ce qui s’est déjà passé dans des cas comparables. Quels sont les cas d’innovation qui ont détruit ou changé un secteur ?
Prenons l’exemple de l’agriculture qui s’est profondément transformée. Il y a deux résultantes : d’un côté les grands propriétaires terriens qui cultivent en masse et de l’autre les producteurs qui se recentrent sur le bio, la qualité, l’artisanal, proche de la terre. Une direction que pourraient connaitre d’autres secteurs : d’un côté les grands groupes et de l’autre des artisans qui seront plus sur la qualité et le sur-mesure, car plus flexibles et proche des préoccupations.
D’ailleurs la question se pose aujourd’hui aux programmeurs puisque de plus en plus, les algorithmes sont élaborés de manière automatique. Ainsi, dans le secteur du logiciel, on voit monter le software craftsmanship : des programmeurs produisent du code, mais un peu comme des artisans : du code de qualité, dont ils sont fiers et dont ils peuvent parler.
Savoir coder est à la portée de tous. Mais l’essentiel est, avant tout, de connaitre les grands principes, ce qui ne nécessite pas d’être un professionnel du code. Alors effectivement, mettre les mains dans le cambouis permet de mieux comprendre : ça fait partie d’une culture générale qui n’est pas inutile, surtout lorsqu’on voit l’influence de plus en plus grande que ces systèmes ont sur nos vies.
Notes