Les algorithmes, décryptage de Frédéric Bardolle

À la base, les algorithmes sont plutôt neutres. Ce sont leurs objectifs – définis par des humains – qui changent la donne

À force de jongler au quotidien entre Facebook, Netflix et Google, où les algorithmes sont légion, nous avons voulu en savoir plus sur la partie immergée de ces icebergs de données. À l’occasion du Grand Barouf Numérique qui a eu lieu à Lille les 20 et 21 mars, nous avons rencontré un expert en la matière : Frédéric Bardolle. Il a co-fondé Data For Good, une communauté de data scientists bénévoles mais aussi AlgoTransparency, une association qui vise à éduquer les citoyens sur ce qui se cache derrière les algorithmes.

Pouvez-vous nous en dire plus sur Data for Good ?

Aujourd’hui, nous sommes capables de réaliser beaucoup de choses grâce à la technologie et notamment grâce à la science des données. Nous avons lancé Data for Good il y a 4 ans et à l’époque, seules les grandes entreprises et les startups avaient les moyens de se payer des data scientists ou des développeurs. Les organisations d’intérêt général comme les associations, les institutions ou les startups de l’ESS ne pouvaient pas se le permettre alors qu’elles en avaient aussi besoin.

Or il existait une communauté de personnes dans la tech qui voulaient mettre leurs compétences au service de la société en parallèle de leurs activités qui parfois manquaient de sens. Data for Good est né de cette idée, avec l’ambition de faire se rencontrer ces deux mondes et plutôt que de créer une plateforme web sur laquelle les gens ne se parlent pas, nous avons décidé de tout faire « en vrai » : à l’occasion d’événements où les gens se voient, se rencontrent, se parlent et initient des projets ensemble.

Notre fonctionnement s’assimile à celui d’un accélérateur de startups. Nous faisons des saisons d’accélération où nous sélectionnons 5 à 10 projets sur des critères comme l’impact, la motivation du porteur, l’importance de la donnée dans le projet… Nous les proposons ensuite à nos volontaires lors d’une journée de lancement avec tous les porteurs de projets et c’est là que les volontaires choisissent les sujets dans lesquels ils veulent s’investir. Certains projets « meurent » à ce moment là parce qu’ils n’intéressent personne et d’autres deviennent énormes parce que les volontaires se ruent dessus. Ensuite, nous travaillons pendant 2 à 3 mois sur les projets retenus et pour être sûr qu’il y ait une « bonne pression », au bout de 3 mois, nous organisons un « Démo Day » où chacun présente ce qu’il a fait et où en est le projet.

À ce jour nous avons déjà réalisé 5 saisons d’accélération avec de très beaux projets. Récemment nous avons travaillé avec l’hôpital Foch autour de la transplantation pulmonaire. En effet, il y a un instant critique lorsque l’on enlève l’assistance respiratoire, où le patient prend sa première bouffée d’air. Si on se trompe dans le choix de ce moment cela peut être grave. Jusqu’à présent cela était fait par expérience et désormais, grâce au machine learning, avec tous les paramètres mis à disposition et observés, nous pouvons calculer ce moment idéal. Un humain serait incapable de regarder et d’analyser toutes ces données dans leur ensemble. Nous avons travaillé avec des médecins sur ce sujet et même si c’est encore en phase exploratoire, les résultats sont bons.

En plus de la santé, l’alimentation et la démocratie sont les autres grands thèmes qui ont été mis à l’honneur lors de notre dernière saison d’accélération. Du côté de l’alimentation, nous travaillons avec Open Food Facts pour intégrer à leur application le bilan carbone des aliments en plus du NutriScore. Enfin, nous travaillons également sur un projet pour permettre à tous de visualiser simplement les données relatives aux dépenses de l’Etat français et leur répartition pour à la fois bien comprendre les grosses masses financières mais aussi pour accéder aux détails de celles-ci.

Vous êtes aussi à l’origine d’AlgoTransparency, qu’est-ce que c’est ?

C’est un projet que nous avons développé en parallèle de Data for Good avec Guillaume Chaslot dont l’objectif est de montrer aux gens comment fonctionnent les algorithmes. Guillaume est un ancien ingénieur de Google et a notamment travaillé sur Youtube. Quand il y était, il a essayé de comprendre et d’améliorer l’algorithme de la plateforme mais il n’a pas pu mener à bien ce projet en interne et a fini par partir. Il a ensuite travaillé pour l‘association Bayes Impact qui a notamment créé en France Bob Emploi et depuis plus d’un an il est à temps plein sur AlgoTransparency. Il a commencé à développer un programme informatique qui clique sans cesse sur les recommandations de Youtube situées dans la colonne de droite (sur ordinateur). Cela permet de construire un arbre de recommandations en partant d’une seule vidéo. En faisant cela, nous nous sommes rendus compte que des vidéos étaient sur-recommandées par l’algorithme, plusieurs millions de fois !

À l’occasion de l’élection américaine Guillaume a poussé le concept et démontré que sur Youtube, les vidéos pro-Trump étaient beaucoup plus recommandées que les vidéos pro-Clinton, peu importe que l’on commence par regarder une vidéo de l’un ou de l’autre. Nous l’avons ensuite fait en France et le constat était le même pour l’élection présidentielle : toutes les vidéos des candidat-e-s extrémistes étaient surreprésentées et ce n’était pas lié au fait qu’ils étaient plus actifs que les autres sur les réseaux sociaux. Cela s’explique par la donnée que l’algorithme essaie d’optimiser comme le temps passé sur la plateforme. À la base, les algorithmes sont plutôt neutres. Ce sont leurs objectifs – définis par des humains – qui changent la donne. L’algorithme de Youtube est bête et méchant, on lui a dit qu’il fallait augmenter le temps passé sur la plateforme et c’est ce qu’il fait. D’un point de vue business c’est intelligent : le but est de vendre des publicités, donc plus les utilisateurs restent longtemps, plus ils y sont exposés. Il y a un autre phénomène majeur : l’algorithme préfère une personne qui passe 10 heures sur la plateforme plutôt que 10 personnes qui n’y passent qu’une heure. Si certaines vidéos rendent les utilisateurs accros, l’algorithme va comprendre qu’il faut les pousser au maximum. Le problème c’est que ces vidéos sont souvent étranges voire conspirationnistes et en regarder plusieurs d’affilée peut vraiment avoir des effets dramatiques.
Cela incite aussi les créateurs de contenus à jouer le jeu de l’algorithme et à produire des contenus de ce type, même si ils n’y croient pas. In fine, même s’ils ne parviennent qu’à « convaincre » une part infime de leur audience, c’est déjà énorme.

Depuis, Guillaume est parti aux USA et travaille au Center for Humane Technology. Il s’agit d’un organisme fondé par Tristan Harris et d’autres anciens des géants de la Tech qui ont pris conscience que ce qu’ils faisaient n’était pas toujours bienveillant.

Comment rendre le web plus éthique ?

Nous essayons d’agir sur deux volets : le premier, c’est la responsabilité individuelle. Les data scientists sont en situation de pouvoir car il y a plus d’offres que de demandes. Notre volonté est de les aider à avoir des comportements éthiques et pour cela nous avons créé avec Data for Good le serment d’Hippocrate des serment d’Hippocrate des data scientists. Nous avons créé une check list dont l’objectif est de permettre à chacun, à toutes les étapes d’un projet qui implique de la donnée, de s’assurer que tout soit fait correctement et de réduire les biais…

Au delà de cette responsabilité individuelle, il faut des changements au niveau structurel et pour cela nous essayons de proposer des solutions aux grands acteurs de la tech. Par exemple, quelque chose qui pourrait être simple à mettre en place : dès qu’il y a une recommandation faite par un algorithme, le consommateur doit en être informé. Sur une vidéo Youtube il y a le nombre de vues mais pas le nombre de recommandations : si une vidéo a été vue un million de fois mais recommandée dix millions de fois, il y a de quoi se poser des questions. Une solution complémentaire serait de proposer des paliers plutôt que des chiffres bruts, pour éviter aux producteurs de contenus de « jouer » avec l’algorithme, comme c’est le cas sur le nombre de téléchargements des applications sur l’App store.

Quelle responsabilité ont les grandes plateformes ?

Au début du web, elles n’étaient que des hébergeurs de contenus, des gros annuaires. Aujourd’hui, les algorithmes ont un rôle éditorial puisqu’ils prennent des décisions et incitent à regarder un contenu plutôt qu’un autre, ils ne sont pas neutres. Nous considérons donc que ces géants de la tech qui utilisent des algorithmes de recommandation doivent avoir un statut intermédiaire qui se situerait entre le média (100% responsable) et l’hébergeur (0% responsable). Ils pourraient par exemple, au delà d’un certain nombre de recommandations, devenir responsables de ce que leur algorithme a partagé.

Est-ce que la RGPD est une manière d’engager leur responsabilité ?

Nous allons dans cette direction puisqu’il n’y a plus besoin de déclarer tous les traitements à la CNIL (le contrôle se fait à posteriori) mais par contre il faut absolument avoir le consentement des utilisateurs, c’est essentiel. Ce n’est pas un problème que les plateformes poussent du contenu mais il faut impérativement ce consentement : être informé, pouvoir accepter et refuser.

Le CNIL vient d’infliger à Google une amende de 50M€, cela va faire jurisprudence. Il fallait par exemple cliquer sur 5 liens cachés dans un endroit pas du tout explicite pour trouver la durée de conservation de ses données. L’information était là mais ils ont tout de même été condamnés car c’était trop compliqué pour l’utilisateur. Nous n’en sommes qu’aux balbutiements mais je suis convaincu que cela va faire changer les choses.

Quels impacts les algorithmes ont sur nous ?

Il y a une métaphore que j’aime beaucoup de Yuval Noah Harari (l’auteur de « Sapiens ») : c’est comme jouer une partie d’échecs contre Deep Blue, on peut prévoir 3 ou 4 coups à l’avance mais lui a joué des millions de parties. Là, c’est pareil. À chaque fois que l’on va sur une de ces plateformes, un algorithme a joué un milliard de parties sur un milliard d’êtres humains et il sait exactement quelle vidéo va nous faire rester. On ne peut pas gagner, c’est une partie d’échecs perdue d’avance.

Il est important de se pencher sur l’objectif de l’algorithme : si il consiste à nous faire rester sur la plateforme, peu importe le temps qu’on y reste et l’état dans lequel on est ensuite, est-ce le bon critère ? Le débat doit aussi se porter là dessus. L’objectif de l’algorithme doit être connu et ne doit pas nécessairement être de faire rester l’utilisateur le plus longtemps possible sur la plateforme. Et si c’était – par exemple – de rendre l’utilisateur plus heureux que lorsqu’il s’est connecté ? Nous pourrions le mesurer même si ce serait imparfait et cela changerait tout.

En dehors des réseaux sociaux, où y a t-il des algorithmes ?

D’abord il faut distinguer les algorithmes de recommandation et les algorithmes d’apprentissage automatique (=machine learning).

Concernant le premier, il est difficile de savoir si il va recommander des contenus parce qu’il pense qu’ils sont bons pour nous ou parce qu’ils rapportent plus d’argent à la plateforme : est-ce que Netflix recommande davantage de contenus Netflix ? Si il a le choix entre un contenu Netflix et un autre, comment se fait l’arbitrage ?

Pour l’anecdote, Spotify aussi utilise un algorithme de recommandation et un jour m’a fait découvrir un artiste indépendant dont je n’avais jamais entendu parler, j’étais super content. Je l’écoutais en boucle et deux ou trois jours plus tard, sur le périphérique, je vois une affiche gigantesque de ce même artiste. Est-ce que Spotify me l’a recommandé parce que c’était susceptible de me plaire ou parce qu’il y avait une campagne financée pour faire de la recommandation massive ? À l’heure actuelle, nous sommes incapables de le savoir.

Pour les algorithmes d’apprentissage automatiques, d’autres formes de biais peuvent exister. Par essence, ces algorithmes sont conservateurs parce qu’ils sont toujours entraînés avec des données du passé. Par exemple Google Translate (corrigé depuis) traduisait « a nurse » et « a doctor », qui sont neutres en anglais par « une infirmière » et « un médecin » en français, simplement parce que sur tous les exemples qu’il a rencontré, l’algorithme a constaté que c’était l’usage. Même si la société évolue et que nous parvenons à rééquilibrer les genres, l’algorithme sera toujours en retard puisque les données avec lesquelles il est entrainé représentent les biais de la société. Aux USA il y a eu une tentative avec un algorithme sensé aider les prises de décision en justice avec notamment une analyse sur la probabilité de récidive d’un individu. Pour la mesurer, l’algorithme prenait en compte si les parents de la personne avaient eux-mêmes été récidivistes : c’est considérer des choses dont on n’est pas responsable, c’est horrible.

Avez-vous une anecdote à partager liée aux activités de Data for Good et AlgoTransparency ?

Il y a deux ans nous avions remarqué sur Youtube que des vidéos recommandées aux enfants étaient terrorisantes[*]. Il s’agissait principalement de vidéos avec les mêmes chansons, comptines et personnages animés en 3D dont il était difficile de savoir si il s’agissait de contenu créé par des humains ou des robots. Cela a été corrigé depuis mais pose tout de même question quand on sait que des parents laissent leurs enfants regarder Youtube en continu pour s’endormir…

Si vous étiez au procès de « l’algorithme » et que vous étiez à la fois procureur et avocat, qu’est-ce que vous auriez envie de lui reprocher et de défendre ?

Les algorithmes, c’est le remède et le poison : on peut aussi bien réaliser un projet qui permet de savoir à quel moment il faut extuber des patients et potentiellement sauver des vies que détruire des démocraties grâce à du micro-ciblage sur des gens pour leur montrer la vidéo qui va exacerber leur folie.

C’est un outil et c’est ce qu’on en fait qui est important et c’est pourquoi il est nécessaire que ce soit transparent. L’algorithme idéal est un algorithme dont on a fait le choix ensemble, en société. Cela ne veut pas dire que tout le monde sera d’accord mais au moins on saura comment il fonctionne.

Qu’est-ce qui va changer le monde en mieux ?

Les gens. Les algorithmes ont le pouvoir qu’on leur donne. Quand on voit les volontaires de Data for Good, leur motivation alors même qu’ils sont bénévoles, il n’y a pas de doute : ce sont les gens qui vont changer le monde.

Quelle est la dernière découverte qui vous a enthousiasmé ?

Plusieurs personnes ont lancé un projet qui s’appelle « La Grande Annotation »: ils récupèrent les données du Grand Débat et les annotent à la main. Ils listent toutes les réponses pour ensuite entrainer des algorithmes de machine learning le mieux possible, en gardant le sens et en évitant le plus possible les biais. Cela se rapproche du travail d’Antonio Casilli sur les travailleurs du clic : selon lui, il n’y a pas vraiment d’Intelligence Artificielle mais seulement des gens qui entraînent des algorithmes de machine learning en cliquant sur des boutons. C’est un peu le même principe mais pour servir quelque chose d’à priori plutôt positif.

Il y a aussi l’artiste Filipe Vilas-Boas qui fait des choses superbes sur le sujet avec notamment le paillasson de la CNIL qui laisse des traces ou encore le Casino Las Datas qui permet de jouer à des machines à sous en échange de données personnelles.


Découvrir Data for Good ici.

En savoir plus sur AlgoTransparency par là.