 Furi, merci beaucoup de nous suivre. Si vous voulez avoir du, si vous avez des actions de traduction, n'hésitez pas à nous contacter sur Twitter, hashtag C3T ou sur C3Lingo.org. Bonjour tout le monde, merci. Donc, analysez Facebook et retrouvez l'algorithme. Ça c'est le titre un peu simplifié et si vous voulez voir les slides, ils sont disponibles directement sur cette URL. Mon nom c'est Claudio, vous pouvez me trouver sur Twitter avec Vecna ou vous pouvez aussi me trouver ou lire des updates sur ce projet avec le hashtag FBtrex. Donc le projet s'appelle Facebook Tracking Exposed, il n'y a pas de .com, .org ou autre chose, c'est un .exposed. Et on a appliqué cette méthode à Facebook mais on peut aussi l'appliquer à d'autres plateformes, à d'autres plateformes qui personnalisent votre perception de la réalité. Vous avez du contenu personnaliste et quand vous connectez à Facebook en tant qu'utilisateur, vous avez un contenu qui vous est propre mais il y a d'autres plateformes comme ça comme par exemple moteur de recherche de Google ou bien Twitter et bien d'autres. Donc cette méthodologie qu'on a peut être appliquée à d'autres plateformes. Pour le moment on s'intéresse principalement à Facebook mais je suis sûr que beaucoup de gens dans cette audience ne sont pas sur Facebook parce qu'ils peuvent faire 100 et c'est très bien. Mais ce qu'on veut montrer ici c'est que les algorithmes de Facebook ont un impact sur comment la société perçoit le débat politique et perçoit ce qui se passe dans le monde. Donc si vous vous considérez comme libéré de Facebook, pensez à ça, la société est impactée par Facebook et vous aussi. En 2014 Facebook lui-même a montré comment les algorithmes étaient un moyen de contrôle des masses, de contrôle social des masses. Dans cette recherche publiée par des chercheurs de Facebook, ils ont pris 600 000 utilisateurs comme une expérience, ils les ont divisés en groupes, une moitié voyait leur flux de news normal avec leurs amis etc. Sauf le contenu qui avait des sentiments négatifs et l'autre a vu tout ce contenu sauf le contenu positif. Et ils savaient comment ces utilisateurs se comportaient avant le début d'expérience et ils ont regardé comment ce comportement changeait. Donc ce n'était pas de la censure de contenu, le contenu n'était pas supprimé, il n'était pas mis en avant sur le flux. Donc si on s'intéressait à ce sujet, on pouvait aller voir sur la page ou sur le mur d'un ami et on pouvait lire le contenu. Mais ce qui se passait c'est que sur le flux il y a des gens et des applications qui sont en compétition pour notre attention et dans cette expérience ils ont changé la façon de promouvoir ou de supprimer la visibilité d'un contenu. Donc il y a eu cette analyse par Zainab Tufeshki. Quand le mouvement Black Lives Matter a commencé, elle a analysé que dans son flux d'information, dans son flux de news Facebook, il n'y avait absolument rien à ce sujet. Et ça a du sens qu'en comprend, ça a du sens qu'on voit ça de se dire que la façon qu'à Facebook de prioritiser certains contenus, ça a un impact politique puisque si dans votre bulle vous avez accès à cette information vous penseriez d'une façon ou d'une autre. Une autre histoire plus effrayante vient de Karine Vajano qui avait un groupe d'amis qui était en contact les uns avec les autres via Facebook et l'un d'entre eux a été hospitalisé. Il a écrit sur son mur Facebook, je suis à l'hôpital, je vais avoir une chirurgie importante et ils ne l'ont pas vu en fait. Ça n'a pas été rendu visible sur leur mur Facebook et cette personne est morte et ils ne l'ont appris que des mois après. Ils ne s'attendaient pas du tout à ça mais cette information était disponible et n'a pas été mise en avant sur leur mur. Donc ce qu'on peut voir dans ces deux cas c'est qu'il y a quelque chose de lié quand même et on peut juger ça de plusieurs façons, on peut le critiquer ou non mais on devrait quand même s'intéresser à cette question. De plus Facebook insiste pour utiliser toujours des outils qui permettent d'ajuster comment est-ce que les informations sont rendues visibles pour les gens. Donc après un an après les critiques qu'il y a eu pendant la campagne de 2016 et pendant le Brexit, la combattre présidentielle américaine de 2016 et pendant le Brexit, Facebook a décidé de changer en partie les buts du projet et Marc Zuckerberg fondateur de Facebook a dit je change les buts de Facebook, je vais vous aider à trouver du contenu qui vous est utile pour vous aider à avoir des relations sociales qui ont plus de sens. Alors la question c'est comment est-ce qu'il peut lui savoir ou comment est-ce que Facebook peut savoir ce qui est bien pour moi. C'est la question qui est posée à droite ici. La question c'est quel genre d'algorithme pourrait mettre en avant les bonnes choses. Pourquoi est-ce que c'est pas vous qui devriez avoir ce contrôle là ? Ce phénomène, celui de l'accountabilité algorithmique, c'est quelque chose qui prend de plus en plus d'importance. On voit ici une liste d'organisations, de projets offensive, source de projets académiques qui travaillent sur le sujet. Certains d'entre eux sont très inquiets par le statu quo actuel, par le monopoli des gars femmes. Comment est-ce que vous pouvez les repérer ? Bien je ne sais pas encore. Mais il y a le mère de comprendre si quelqu'un fait quelque chose en faveur des grandes compagnies ou pas. Si le résultat de leur rapport, de leur publication, de leur analyse reconnaît que le pouvoir entre les mains des gars femmes est celui d'un monopoli et qui demande plus d'accountabilité, plus de transparence, plus de pouvoir de contrôle sur eux, c'est qu'ils sont contre le pouvoir pour le pouvoir en faveur de ces personnes. Si à l'inverse ils se concentrent sur le pouvoir que les individus ont sur ces plateformes, alors ça pour moi c'est de l'activisme numérique de ce siècle. Ici on a un article publié dans le journal The Guardian qui est un article d'opinion qui explique comment est-ce que les gens qui étaient ou n'étaient pas assez informés étaient influencés par l'information qu'ils recevaient. Donc il y a deux idées qui ont été faites de conclusion. La première a été que pour gagner une élection il fallait gagner sur Facebook. La conclusion qu'ils ont donné c'était que Facebook c'était l'endroit où il fallait être et ça c'est pendant pas vrai. L'autre idée qu'il y avait dans cet article c'était que l'engagement des utilisateurs c'était ce qui allait mener à la victoire. Ça peut sembler être une façon tout à fait viable de gagner une élection et ça en fait c'est des informations qui sont renforcées par des entreprises comme Cambridge Analytica par exemple. Ces entreprises qui elles vont prendre ces nombres les mettre en avant et ensuite vont aller voir des policiens et leur dire moi je peux vous rendre plus visible sur Facebook et regarde c'est comme ça que vous allez gagner. Est-ce que vous voulez acheter mes services ? Donc ça c'est la raison pour laquelle moi je n'aime pas cette analyse. Surtout qu'il y a d'autres années possible dans ce cas présent par exemple tout ce qu'apprécie l'engagement des utilisateurs est mesuré en forme de like et de share et de repartage et de commentaire mais en fait il y a trois variables qui sont en jeu ici pour mesurer l'engagement. Si vous investissez beaucoup d'argent dans une campagne politique pour qu'il y ait beaucoup de personnes qui écrivent votre contenu ou qui le partage ça ça crée plus de contenu et implicitement ça va créer plus d'engagement à cause de cette multiplication. Si vous avez Facebook qui fait des choix de façon cachée pour préférer certains types de contenu comparé à d'autres c'est une variable aussi qui va être dedans. Et il y a enfin ce que les gens veulent dans le sens où si les gens sont intéressés par un message politique ils vont sûrement le prévoir plus. Alors comment est-ce qu'on peut juger si on mesure uniquement l'engagement comme une variable ? On ne peut pas exprimer ces trois composants. De plus si vous utilisez des métriques qui vous sont donnés par le système vous jouez sur leur terrain vous jouez déjà dans leurs mains donc vous avez déjà perdu à la base. On peut regarder ces trois éléments comme des composants séparés qui ensemble servent à composer du contenu sur Facebook. Donc il y a les gens qui produisent ce contenu qui écrivent des articles qui écrivent des postes. La logique de Facebook est enfin les gens. Normalement les gens qui écrivent le contenu qui produisent le contenu devraient être tenus responsables par les autorités en matière de combien d'investissement financier est fait par un parti donné. La logique de Facebook c'est que nous on veut garder responsable on veut se dire responsable et on veut isoler. Et le fait que les gens veuille certains contenus d'autres c'est quelque chose qui ne nous intéresse pas c'est quelque chose de positif. Facebook c'est un acteur passif avec un agenda avec un but. Donc l'agenda c'est pas forcément ce que on pourrait imaginer de façon simplifiée c'est pas on préfère les républicains ou les démocrates ou les populistes ou les héberos. Probablement l'agenda de Facebook est un stade différent. Leur but c'est de conserver de l'argent qui vient vers leur business. Par exemple ici on peut voir avec diverses couleurs diverses sources qui vont écrire des contenus différents. Aujourd'hui ils ont écrit ou partagé du contenu ça ça va dans la boîte magique la boîte noire de Facebook et à 6 heures aujourd'hui l'utilisateur se connecte et voit une timeline une influe personnalisée dans lequel sont mélangés les contenus qui ont été publiés par ces diverses sources et Facebook doit tenir une certaine priorité de comment les postes sont organisés dans cette timeline. Donc nous on veut mettre en avant on veut montrer comment la trac et le suivi des digiteurs permet de profiter et d'influencer la société. Pour faire ça il faut qu'on recueille des preuves. Les algorithmes modifient d'une percession en promovant ou en cachant certains faits. Alors pour faire ça il faut qu'on voit ce que fait Facebook précisément et là on va avoir besoin d'un plug-in pour le navigateur internet et c'est ce qu'on a fait. Mais ça c'est très dur hein parce que Facebook collecte beaucoup de données mais il reste peu de transparence sur ce qu'il en fait. Donc pour ça il va falloir réduire le nombre de variables qu'on a. On a fait un compte pardon quelqu'un qui aurait zéro ami qui va toujours à la même fréquence sur son profil et qui fait ça durant les actions italiennes. On a utilisé les mêmes pages pour 30 comptes et on a fait ces comptes de liker différemment différents groupes. Certains le groupe centriste, certains le groupe de droite, certains le groupe de gauche, certains les pages et enfin le dernier profil quelqu'un d'un des 6, quelqu'un qui n'a pas liké de pages de groupe politique. C'était donc des sortes de bottes que nous contrôlions et ils ne faisaient rien à part voir ce que Facebook sélectionnait pour eux. Ensuite avec un autoscroller 13 fois par jour de 7 heures du matin à 7 heures du soir, on se connectait une fois par jour, on récoltait certains postes et on les gardait et on a fait ça pendant 3 mois. Ensuite on a commencé à faire nos premières comparaisons. Donc voilà on voit toutes nos variables et on peut vérifier si par exemple le contenu qui compose un flux d'activité est du même genre entre les différences à compte et entre les trois différents comptes. Est-ce qu'il y a beaucoup plus de photos, de postes, de vidéos entre les comptes ? Et là on voit déjà quelques différences. Santiago le profil centre-gauche avec 39% de photos alors que Michelet qui était pour l'extrême droite on avait 53%. Contre 38% de postes alors que Santiago on avait 57%. Alors déjà on voit que là il y a une différence bien que les visiteurs soient soumis au même genre de postes et non pas les mêmes postes. Andrea à droite par exemple on s'est plus de postes en forme de textes. On a remarqué que ce pattern se répétait entre quelques heures du jour et on peut voir que ce pattern reste le même bien que les différences ne soient pas toujours les mêmes. On dirait que Facebook derrière l'écran a designé une dose sur ce qu'il faudrait qu'il y ait sur les timelines, sur ce qu'il faudrait qu'il y ait comme profilé. Donc c'est métrique, c'est moyen de comparer les données et de comprendre les algorithmes. On les a appliqués à nos propres profils pour comprendre à quel profil on ressemble à celui qui ressemble beaucoup de textes ou celui qui ressemble beaucoup de photos. Voilà un exemple de ce qu'on a obtenu. On a anonisé nos noms des utilisateurs. Par exemple on a Papaya Chawarma Ice Cream, un utilisateur qui recebe un certain pourcentage de photos, vidéos et de textes. À l'impers, le utilisateur qu'on voit tout en bas recevra surtout des vidéos et des postes très très peu de photos. On peut voir concrètement comment l'algorithme donne des choses différentes à des comptes différents. Un autre métrique qu'on peut utiliser c'est à quelle fréquence le même poste est répété quand vous accédez à votre compte Facebook avec par exemple un écrément d'une heure à chaque fois. Facebook peut ou non vous montrer des postes plus anciens. Sur ce graphe on voit le nombre de fois qu'un poste est répété sur le mur Facebook. Tout a été observé au moins une fois. Tout a été vu au moins une fois et ensuite au fur et à mesure que ça descend ça a été vu au moins deux fois sur la timeline et ainsi de suite. De la même façon là on voit qu'en réal celui plus droit vous voyez beaucoup plus de compte neuf donc la chance qu'un contenu à réapparaissent quand il rafraîchit la page était moindre. À l'inverse le personnage qui s'estu politiquement à l'extrême droite envoyait beaucoup plus de répétition et puis on voit par exemple que pour certains comme Sentigo c'est plus équilibré. Quelque chose qui est considéré comme intéressant peut être répété beaucoup plus que quelque chose qu'il n'est pas. Ça ça a été fait entre le 8 février et le 24 février et quelques semaines plus tard entre le 19 et 26. On voit que l'algorithme comme l'algorithme n'arrête pas de changer il est intéressant de faire des comparaisons entre différents moments dans l'année. Alors cette idée d'un monopole de l'algorithme c'est un problème pour les gens qui aussi investissent dans cette plateforme ou qui dépendent de cette plateforme pour diffuser du contenu. Par exemple on a pris trois des principaux éditeurs de journaux en Italie et le journal est il fait au quotidien no et la République. Et ce qu'on peut voir ici c'est que on voit uniquement le volume de contenu qu'ils ont publié ces trois journaux pendant la campagne électorale. Donc le journal est à publier beaucoup plus que la République. Peut-être parce qu'ils ont plus d'éditeurs ou peut-être qu'ils ont d'autres règles sur le fait de diffuser des choses sur Facebook. Je ne sais pas. Ensuite on peut supposer que si on a un monde juste l'effort devrait être exprimé. Cet effort devrait être reflété sur à quel point les gens qui suivent leur page voient le contenu. Ou alors si on pense qu'il y a une bulle de news de façon binaire on peut imaginer que l'utilateur qui a liké des contenus de ce journal envers et de journal est ne va avoir que des postes des journalistes. En fait ce qu'on voit c'est qu'on est quelque part entre les deux. Il y a deux cipottes soit le marché est juste soit il y a cette bulle de news. Mais la réalité est plus complexe. On peut voir ici que la République a qui publier moins que ces deux autres journaux. On peut voir que la République a été représentée dans toutes les timelines à des quantités différentes. On peut voir ici que malgré que Andrea qui du coup allait liker des publications des journalistes envers la République a été quand même représentée dans ce fil d'actualité. En regardant à nouveau entre le 29 et le 26 février on peut voir que c'est encore plus extrême. La République a est visible dans toutes les timelines alors que le journal est envers et de moins en moins visible. Et on peut voir que ceux qui l'aïe avec publication des ilfates ocotiano en jaune il y a Brita qui envoie énormément mais on peut voir que le coup l'impact de cette bulle est beaucoup plus visible pour les utilisateurs. Donc c'est intéressant de voir que moi quand je parle de ces résultats avec d'Italiens ils connaissent bien sûr ces trois journaux et ils ont tendance à justifier ça de diverses façons. Par exemple, et le journal est c'est des spammer ils publicent trop de contenus, c'est normal qu'ils soient filtrés. Alors peut-être que c'est possible je ne sais pas mais si votre business passe par Facebook parce que vous êtes un journal qui plus dessus c'est important quand même. Une autre hypothèse c'est la République a c'est un média plus partisan et que du coup il est mieux traité. Donc parce qu'il est plus bipartisan pardon il est plus au centre et que du coup il serait mieux traité. L'idée serait ici du coup que l'algorithme a plati en ce que sorte la société et qu'il a tendance à réduire la diversité de la formation et aller vers des choses plus consensuelles. Une autre hypothèse c'est que la République a reçoit plus de like que les autres et que du coup il est plus republié. Mais du coup ça ce qu'a veut dire c'est qu'en 2018 les trois plus gros journaux sont les trois sujets les plus représentés sont Cristina Ronaldo, Cristina Aguilera et j'ai raté le troisième pardon parce que ces trois personnels qui reçoivent le plus de like mais on peut voir que Facebook ne publie pas que ça non plus. Donc on veut pas juste nous à faire un rapport avec ces nombreux-là et même une analyse on veut aller plus on veut agir sur une analyse. Si on voit ici Copernic qui a inventé le théorie héliocentrique et représenté ici comme parlant avec Dieu et ici on peut voir Galileo Galilei qui lui a inventé de nombreux outils qui ont permis à tout le monde de vérifier la théorie héliocentrique et lui est présenté face à l'inquisition romaine puisque bien sûr l'église n'était pas d'accord avec ces théories. Donc la question ici c'est quelle est la tout comme l'inquisition romaine de l'époque notre extension qui permet d'analyser a été supprimée par Google pour des questions de violation de marques déposées de trademarks donc c'est intéressant de se dire que si une institution voulait défendre ce statu quo du monopole des algorithmes Google serait en bonne position pour faire ça et on doit nous pour notre analyse utiliser leurs outils afin de pouvoir atteindre les gens donc on sera toujours sujet à ce genre de censure. On veut défendre une avroche ouverte qui laisse les gens comprendre comment les algorithmes affectent leur vie. On n'a utilisé que les élections car c'est une histoire assez simple finalement et oui c'est le moment où les pays du nord se sont exploitées. Quand on parlait de vie privée avant Snowden en Europe généralement on était vu comme quelqu'un de paranoïaque et si on parlait de l'influence des algorithmes et de manipulation des élections on était vu comme paranoïaque et après grâce à Snowden ou l'affaire commerciale et les perceptions ont changé. Utiliser les élections pour raconter cette histoire pour expliquer notre analyse à une période donnée sur certains partis. Ça nous fait un projet plus facile à se reconstruire mais notre but c'est de vous aider à comprendre comment l'algorithme impacte sur tous les moyens de la vie. Il y a une certaine méthode, une méthode assez simple qu'on peut vous proposer pour faire cela. Si vous écoutez cette présentation et que vous comprenez ce que je dis vous reconnaissez assez pour savoir. Si vous connaissez dans votre vie certains groupes de personnes qui sont en conflit avec d'autres alors là vous pouvez essayer de comprendre comment l'algorithme traite ce groupe comment traite la narration de ce qu'ils essaient de raconter. Est-ce qu'ils sont pour le status quo ou est-ce que dans ce cas ils disent une histoire que l'algorithme a modifié. Donc nous il faut qu'on vous propose une méthodologie, notre but c'est de proposer une méthodologie qui vous permet de comprendre quel est l'effet de l'algorithme. On ne veut pas juste venir à plus arrive pour faire un rapport sur ce qui s'est passé. Mais l'air simple de faire ce test c'est d'utiliser notre extorsion, ouvrir le panel, activer la ligne qui dit je suis fait partie d'un groupe d'études et vous taguer votre contribution avec un certain codename que vous pouvez donner et tous ceux qui font partie du groupe pour rapprocher ce nom de tag peuvent analyser cela. Ça vous peut faire ça avec votre classe, avec votre famille ou peu importe. Le troisième point c'est que peu importe si vous faites des faux utilisateurs pour faire ce test ou des bottes ou des autoscrolleurs ou que vous le faites avec vos profils si c'est tagué pour être comparé c'est un bon moyen de commencer à comprendre comment l'algorithme vous affecte. Bien sûr si vous avez vu South Park l'épisode 4 de la 21e saison il explique très bien comment vous pourrez chanter Facebook mais nous on n'est pas aussi cool que ça on va dire n'effacer pas Facebook donner votre profil à la science. Votre profil est une manière unique de voir le réseau unique dans le sens où vous avez sélectionné certaines sources et dans le graphique que l'on a il n'y a pas de personne comme vous. En effet Facebook fait un profil donc on ne sait pas comment il est fait exactement mais vous êtes à point d'observation pour mieux comprendre comment Facebook se comporte. Bien sûr si on manipule les données personnelles de tiers il faut qu'on soit responsable dans notre installation de la technologie sinon on n'est pas mieux que Facebook. Et là vous avez à voir toute la liste de nos engagements et tout éthique qui explique ce que l'on fait ou pas. Par exemple vous allez voir qu'on n'utilise pas notre outil pour regarder ce qui se passe sur les profils individuels ou les pages individuels. On regarde seulement le news feed. Si vous allez sur une page avec un URL facebook.com slash quelque chose ça on ne va pas le regarder par exemple. Également on respecte le choix des gens. On regarde par exemple seulement les postes publics ceux qui sont en accord avec les conditions d'utilisation. C'est d'ailleurs les contenus où les gens savent que ce contenu peut être accessible au public et le RGPD demande qu'on en fasse plus et donc par exemple si on collecte des données sur un d'un auteur et bien on va être sûr de respecter ses droits du RGPD. Et pour ça on regarde s'il y a des données dans facebook sur une personne. Et là on donne la possibilité de publier ou pas ça c'est quelque chose qu'il va falloir qu'on travaille avant l'approcher rapport. De plus on considère le fil actualité comme de l'information personnelle. Donc à chaque fois qu'un poste apparaît on a une bannière qui apparaît au dessus qui vous dit que ce poste a été registré ou qu'il ne l'a pas été. C'est l'unique vérification côté client. C'est à dire que le code HTML de Facebook change très souvent. Il n'était pas possible pour nous de faire l'analyse dans l'extension de navigateur. Donc si l'extension décide de sauvegarder ce poste il est envoyé tout le HTML du poste est envoyé sur le serveur c'est là qu'on fait l'analyse. Alors quelles données on collecte uniquement les données publiques pas les choses qui sont partagées par vos amis par exemple si vos amis les partagent uniquement à leurs amis ça on ne le sauvera pas. Ou quelque chose qui est partagé uniquement à une audience personnalisée avec la petite roue dentée là ça on ne collecte pas non plus. On collecte des données de nos tests donc pour nos tests on collecte certaines choses et par les autres adopteurs de notre outil comme vous on collecte les choses qui sont publiques mais on les protège également on ne les publie pas. Est-ce que vous êtes sûr? Il ne reste que 10 minutes. 15 minutes bon c'est bon. Allez on va aller un peu plus vite. Les gens qui utilisent notre outil doivent avoir un contrôle exemplaire sur leur données. On sait qu'on veut pouvoir donner des capacités en matière de contrôle d'avis privé à nos utilisateurs mais on a des problèmes d'expérience utilisateur dessus dans la façon dont on présente ça. Mais à ce qu'on fait depuis décembre de cette année sans observer les données qui sont observées sur le profil ne sont que les vôtres uniquement vous pouvez avoir accès ce qui vous permet de savoir comment ce n'est utilisé et agrégé. On veut laisser les utilisateurs avoir du contrôle sur la suppression de leur données à l'heure actuelle la suppression de données est manuelle sur demande donc à l'heure actuelle les utilisateurs sont en plus identifiés sur le serveur parce que votre extension sur la victoire génère une clé publique qui vous est unique donc ça nous permet d'identifier aux utilisateurs comme ça associé à une clé publique et nous faudra avoir une meilleure définition de la politique de sécurité qu'on a associé à ça pour que les clés publics soient plus stables que surtout entre plusieurs machines pour les utilisateurs. On veut que l'utilisateur puisse partager une partie uniquement de leur expérience par exemple un exemple de ce que quelqu'un voudrait pouvoir donner. Miquelet à l'extrême droite, Brita à la centrale de Sonietta qui est à l'extrême gauche voit des données différentes mais bien plus tard ça c'était quand des groupes racistes sont mis à crier sur des immigrants et nous on voulait voir comment est-ce que cet événement dans les journaux il était perçu par ses utilisateurs. Ce diagramme de Venn ici c'est un moyen de visualiser les données. Il vous permet de voir par exemple entre vous et vos amis, vos partenaires, vos collègues comment est-ce que vous voyez quelle vision vous avez d'un même sujet. De cette façon c'est un outil d'analyse qui vous permet de chercher des mots-clés et on a limité ça aux mots-clés uniquement qui ont une entrée Wikipédia. Ça permet de nous de trier des mots qui ne sont pas représentatifs ou qui ne correspondent à rien. Donc l'analyse des données agrégées est faite sur nos bases de données mais à nouveau on veut permettre à d'autres personnes de faire des analyses. Donc comment est-ce qu'on peut trouver un compromis ici ? L'idée c'est que personne n'accès à la base de données accepté nous et on va avoir une forme de protection qui va permettre de tenir responsable les gens qui veulent faire des formes d'analyse. Mais si quelqu'un a une question de recherche intéressante qu'on peut faire de base de données, on peut créer un dataset, un set de données qui peut être utilisé à but public. Ça ce serait acceptable si on n'expose pas de comportement individuel mais ça ne peut pas être vérifié de façon formelle. Il faut le faire au cas par cas. Un exemple de question intéressante c'est Volfik Christel qui remarquait qu'un post sur cas de son file d'actualité Facebook semble être des publicités. Donc on s'est dit qu'on a regardé le pourcentage de post-ponsorisé dans les timelines, dans les files d'actualité, mois par mois en considérant uniquement les files d'actualité avec plus de 5 impressions. Et on s'en rend compte qu'il y avait entre 10 et 15 % en janvier et qu'en février on a changé. Ici c'est un petit peu plus précis, c'est ajusté pour être arrondi par 3 et là on voit qu'on appique aux alentours de 12 donc que 12 % c'est le pourcentage le plus probable de contenu sponsorisé. Mais on peut voir qu'en avril ce nombre commence à augmenter. C'est toujours représenté ici comme pourcent et le code pour faire ça c'est ce script que vous pouvez voir ici, c'est un script assez simple, c'est une roquette sur MongoDB qui réduit le dataset en supprimant les données identifiables, qui identifie personnellement pour calculer ce données. Mais Facebook a dit bien sûr qu'il s'engage à faire de l'or mieux pour plus de transparence en matière de publicité. Donc ça c'est ce qu'ils ont dit, bien sûr ils le disent, ils font beaucoup d'éclarations mais derrière on peut voir quand même qu'ils font beaucoup d'efforts pour empêcher des tiers de parti comme nous d'analyser ce qui se passe. Donc voici un file sur Twitter qui explique comment est-ce qu'il crée un nombre aléatoire de balises, spannes et divs et aussi de classes CSS sur les éléments pour découper ce mot sponsored en plusieurs sections avec d'autres morceaux au milieu et il y a une équipe entière qui est dédiée à empêcher le scripting de contenu et ça c'est pas nouveau, c'est quelque chose qui est très visible depuis un an mais qui est devenu vraiment très difficile maintenant. Au début c'était pas évident, ici on peut voir donc c'est Patrocinado qui est le mot sponsorisé en portugais et ça c'est quelque chose qui est dans tous les postes c'est à dire que dans les postes non sponsorisés ça apparaît quand même et c'est invisible pour l'utilisateur. Donc ça ce graph ici c'est ce à quoi ressemble à un mauvais matin pour moi, ça c'est ce qui se passe quand le HTML a changé et que mon parser n'est plus capable d'analyser les données. Donc après ça moi je vais prendre un café et je vais commencer à adapter le parser. L'avantage c'est que comme on garde tout le HTML on peut quand même récupérer les données manquantes à posteriori. Je pense que c'est vraiment un cas d'étude pour le Lucice et le Libre, parce qu'on fait tout sur GPL avec en backend du HGPL mais pour le parser là je peux pas vraiment rendre tout ça public et retravailler dessus parce que j'ai l'impression que Facebook un peu comme Jupiter et quelque chose de massive, une espèce de planète dans le système solaire, une journal gazeuse et que nous nous sommes capés dans l'espace. Avec ce genre de différence entre nos capacités entre les acteurs, avec Facebook qui peut payer des gens pour lutter contre nous, on ne sait pas trop comment faire. Bon si on a une communauté assez robuste et assez grande pour réagir à tous les changements que Facebook fait, on va continuer à travailler en GPL et ça sera bien mais dans ce cas là je suis un peu un peu soucieux de partager tout le code. Il y a une sorte de souci éthique qui peut être sujet à débat. Est-ce que les algorithmes peuvent prendre d'autres formes d'oppression ? Si vous regardez les débats qu'on a couramment, vous pouvez voir que beaucoup de groupes ont sponsorisé des organisations ou des politiciens qui ont demandé à ce que l'intelligence artificielle soit capable de lutter contre les fausses informations. Mais conceptuellement ça c'est dangereux et ça peut être et ça peut se retourner contre les gens et il va falloir expliquer aux gens pourquoi c'est une mauvaise idée et comment on peut résister à cette idée. Mais c'est parlant de nous à Tracking Exposed, nous sommes des formes défenseurs de la diversité algorithmique puisque c'est à vous de pouvoir définir vos propriétés et alors que c'est le modèle contraire c'est quand la plateforme décidide ce qui est important pour vous. De notre côté nous on est pour des citoyens qui ont le pouvoir de décider ce qui est important pour eux et qui soient indépendants. À l'inverse eux sont pour des valeurs qui décident eux-mêmes d'une manière obscure et qu'on ne peut pas contrôler et ça s'est mauvais pour votre cité pour votre communauté. Mais bon rien n'est aussi simple on a déjà vu qu'il y a des problèmes de polarisation, de complotisme, de mouvement anti-vaccin et c'est grâce à ces formes de communication médiatisées qui peuvent se diffuser. Et oui parce qu'en fait au milieu il y a une entité qui contrôle de quelle manière l'information est répandue et répartie. Alors nous on est contre le status quo. Sur le long terme bien sûr il va falloir qu'on trouve un terrain d'entente et il va falloir qu'on trouve un moyen pour que les gens puissent exercer leurs pensées critiques et sur les informations qu'ils reçoivent. Ce qu'il nous faut c'est des outils simples et qui n'appartient pas à l'éteint pour qu'ils puissent être utilisés pour donner plus de pouvoir aux gens sur les algorithmes qui les concernent. C'est à dire qu'il faut qu'ils puissent avoir des variables qu'on puisse voir, contrôler et avec lesquelles on puisse expérimenter. Il y a une opportunité de faire une expérience dans beaucoup de pays qui arrivent bientôt. C'est les actions européennes de mai 2019. Si vous regardez sur le lien URL si contre, il y a un plan d'action sur comment on veut aborder ces sujets. On ne veut pas utiliser juste des bottes, on va avoir des gens qui nous fassent des... qui nous aident dans beaucoup de pays européens. Mais malheureusement, la mode ces dernières années c'est que les politiciens veulent être sur les réseaux sociaux parce que c'est des intermédiaires puissants. Ils croient que c'est des outils en fait des intermédiaires, ils peuvent communiquer directement ou ils peuvent avoir accès à une odeur très large. Ça, ça rend les réseaux sociaux plus puissants qu'ils peuvent décider. Qu'est-ce qu'ils doivent être voir par qui ? Ça nous donne plus de raison encore de continuer à faire cette analyse. On va voir comment ce contenu politique est traité par Facebook. Et j'annonce ici que nous allons publier en stade alpha, stade alpha, un outil qui va utiliser le flux RSS du feed de Facebook et qui va regarder tout ce qui correspond en termes de flux entre différents... entre différents murs. Il va aller en analyse sémantique, par exemple, démo-clé. Et on va pouvoir regarder sur RSS, sur cette base de données qu'on a. Par exemple, si vous êtes abonnés à l'URL qui s'affiche ici, vous verrez tous les posts qui concernent... enfin dans lequel il y a la recherche sémantique Facebook, le mot Facebook. Ça permet un plus grand contrôle de l'utilisateur en tant que lecteur des postes. Et ça permet de choisir par quel critère on veut le concerner. Comme on est un outil libre, on est bien sûr disposé à discuter avec vous de quel critérien, de quel critère on devrait disposer dans cet outil. Et sous quelle condition on peut faire que cette approche soit vraiment... puisse vraiment empuyer l'utilisateur. Et ça c'est utiliser RSS. Donc si vous avez un de ces lapins nabastag, vous pouvez l'utiliser pour vous lire à haute voix ces flux qui parlent de Facebook. Donc on a d'autres plans pour le futur. On va travailler avec des activistes et des gens qui font des campagnes sur les réseaux sociaux puisqu'on va pouvoir leur expliquer comment les algorithmes de Facebook s'empêchent de faire le travail ou comment ça peut les blesser. On va travailler avec des designers puisque là on a une alpha qui est très limitée mais c'est pas assez. On veut communiquer, on veut expliquer aux gens comment est-ce que notre technologie fonctionne après qu'elle est collectée vous donner. Donc il faut nous qu'on trouve, si vous avez des idées, on est très ouvert à des gens qui voudraient rejoindre le projet, qui veulent travailler sur ce système et on est tout à fait prêt à prendre à bord de notre projet des gens qui sont intéressés. L'intérêt pour nous c'est l'intérêt public de tout ce qui est la question de tenir responsable ces plateformes. Et si il se pose des questions sur notre responsabilité à nous en tant que chercheurs, on veut pouvoir répondre. De plus l'essentiel de notre plateforme est écrit en JavaScript avec également un accès pour faire de l'analyse par exemple en Python et on a publié énormément de nos outils sur GitHub. Donc si vous êtes intéressé et certains l'ont déjà fait, n'hésitez pas à nous contacter pour contribuer à ça. Donc si je comprends bien le CCC à la fin, on applaudit à la fin des conférences mais s'il vous plaît n'applaudissez pas pour moi, applaudissez pour les contributeurs. Merci beaucoup Claudio. Je pense qu'on a beaucoup de questions pour cette présentation vraiment excellente. Si vous ne vous voie pas de questions urgentes ici, si allons-y. Première question. Bonjour, merci pour cette présentation intéressante. J'ai une question sur pas tout à fait cet aspect de la grenouille Facebook mais sur un autre. Je me suis rendu compte que moi et mes amis à diverses occasions, Facebook nous a affiché des publicités qui semblent avoir pas de contexte, qui n'était pas passé sur le contexte de notre histoire de navigation mais basé peut-être sur les conversations qu'on avait eues à proximité de nos téléphones. Par exemple, une fois mes amis a parlé de voyager vers, de partir dans un petit village d'Autriche et peu de temps après il a vu des pubs qui lui proposait de partir à cet endroit précis. Est-ce que vous pensez que c'est vrai que le téléphone peut nous écouter pour cibler ces pubs ou est-ce que c'est un phénomène qui est que même si on n'a pas cherché il y aurait d'autres raisons pour lesquelles faire ça ou est-ce que vous pensez au contraire que Facebook écoute peut-être nos conversations pour cibler ces pubs ? Je pense que j'ai la réponse. Mac Zürkerbach, quand il a fait son témoignage devant le Facebook, il a dit, il a commenté sa question. Il y avait un article de Maverboard qui a montré que certaines applications utilisées, le microphone pour utiliser, pour faire un profil des utilisateurs et que ces informations peuvent ensuite être vendues à Facebook à mon avis selon ce que je comprends. C'est comme ça que ça se passe. C'est une question de sécurité du téléphone mobile et il faut pouvoir voir ceux qui écoutent et ceux à quoi on va accéder ce téléphone. Facebook apparemment n'utilise que ces données en tant que partie tiers en rachetant des données de profilage. Bonjour. L'utilisateur qui voyait le contenu d'extrême droite et qui voyait plus de vidéos, est-il possible que c'est juste parce que cet utilisateur a mis des likes sur plus de vidéos avant et que du coup ce serait simplement une forme de reconnaissance du type de post par Facebook ou est-ce que c'est une reconnaissance plus profonde du fait que l'extrême droite publie plus de vidéos ou quelque chose comme ça ? Pour être honnête, il va falloir qu'on s'occupe encore de ça, mais c'est vrai que pour l'instant les likes étaient répartis sur différentes sources. Il n'y avait pas de source, il n'y avait pas de méthodologie derrière la manière de créer ces profils au départ. Mais c'est vrai qu'on pourrait refaire un test pour tester ça. Oui, parce que peut-être que la source de contenu publie beaucoup de vidéos et que du coup les utilisateurs like plus de vidéos. C'est une théorie. Bon, c'est une théorie. Bonjour. Alors Facebook n'est pas juste payé pour afficher des pubs, on peut aussi payer pour promouvoir un post sur une page qui permet d'atteindre plus de followers, de gens qui suivent la page. Et du coup ça donne quelque chose qui est plus accessible pour exposer son post à plus de gens. Est-ce que vous avez aussi regardé à ce côté là, du côté des posts sponsorisés par des pages ? Non, pas encore. On observe seulement ce qui apparaît sur le newsfeed pour l'instant sur le mur. Si on regardait plus derrière la logique publicitaire, ça pourrait être intéressant, mais c'est un développement sur lequel on n'est pas encore engagé. Question de Happy sur IRC. Comment est-ce que Facebook devrait gérer la situation en l'Union européenne ? Quelle situation ? Qu'est-ce que Facebook peut faire de mieux ? Qu'est-ce que vous pouvez améliorer ? Ah, bonne question. Bon, je ne suis pas représentant de Facebook. En théorie, imaginons que Facebook ne laisse que du contenu de manière chronologique et qu'ensuite, vous de votre côté, vous pourriez avoir votre propre algorithme qui décide comment vous voulez voir ce que ça fait. Ça, ce serait le meilleur scénario. Parce que Facebook serait une plateforme neutre à l'intermédiaire NOTE qui transmet des données sans appliquer aucune forme de filtre. Et vous, votre propre algorithme, vous pouvez l'utiliser. Et vous pouvez par exemple, si vous voulez comprendre un phénomène social ou avoir une nouvelle perspective sur un certain phénomène dans votre région, c'est un contexte. Et voilà, donc vous pouvez avoir besoin d'utiliser d'autres sources. Et donc votre newsfeed, vous pouvez choisir ce que vous intéresse ou pas. Ça serait une distribution de la responsabilité à plusieurs entités qui pourraient décider qu'est-ce qui influence la perception des ministres ou pas. Et en plus, la chronologie pourrait être plus facilement respectée. Bon, sinon, ils peuvent aussi rendre leur algorithme plus customizable. Merci pour cette présentation. Est-ce que Facebook a moyen de réaliser ou de se rendre compte que les données de ces utilisateurs sont collectées par votre service ? Non. Notre extension, je ne vois pas quelle application de Facebook pourrait voir ou tester que vous utilisez cette extension. Si on déteste actifs pour détecter une présence active d'extension, nous, on pourrait le repérer. On n'a pas encore cette capacité pour l'instant, mais si certains travaillent sur le développement d'extensions web, ils peuvent nous aider dans cette course. Mais bon, sinon, il n'y a aucun moyen de savoir si l'utilisateur a copié des data depuis sa timeline. Alors, je suppose que l'algorithme de Facebook change constamment. Comment est-ce que votre projet de recherche s'adapte à ça ? Est-ce que vos découvertes ne vont pas être obsolètes très rapidement ? Oui, mais en fait, je m'en fiche. Le but, ce n'est pas de faire du reverse engineering de l'algorithme, c'est-à-dire que c'est trop difficile de comprendre la complicité de toutes les variables qu'ils ont. Ce qui nous apporte, c'est de montrer que cet algorithme existe, cette section algorithmique existe, et que de toute façon, nous, ça ne nous intéresse pas de savoir quel serait les intérêts qu'il faudrait qu'une personne n'ait ou comment il faut éclairer le reste de répondre. Mais c'est vrai que l'algorithme de Facebook peut changer, et ce qu'on vous montrait, c'est que ce n'est pas forcément dans votre intérêt. Alors, au début de votre présentation, vous avez parlé du fait que vous avez créé des faux comptes pour votre recherche. Est-ce que vous avez rencontré problème avec Facebook qui bloque faux comptes ou qui demande une vérification ? Oui, on a fait d'autres expériences sur la création de comptes. Effectivement, le but, c'était d'avoir des utilisateurs viages. Il n'y a rien, des utilisateurs qui auraient liké les mêmes pages. Mais bon, si vous avez un compte avec zéro ami, Facebook ne finira pas leur réparer et leur regarder. Après la publication de nos rapports, je vais bien suggérer qu'on peut faire d'autres expérimentations par exemple en ajoutant des amis ou d'autres interactions. Et pour ce qui concerne la suppression de comptes d'apport de Facebook, ça nous est arrivé une seule fois. Vous avez divisé les publications entre photos, vidéos et postes. Est-ce que vous avez fait une analyse visuelle dessus ? Parce qu'on a aussi fait une recherche d'autres côtés et on s'est rendu compte que certains comptes ne peuvent pas créer certains postes. Par exemple, des postes créés par l'AFD, le Parti de l'Extrême droite allemand, publient des photos qui sont au sein d'un poste texte. On a l'impression qu'il y a plus de postes textes mais en fait ce sont des photos. Mais ça se voyait pas à partir de l'URL à cause de la structure du poste ? Vous avez raison, on n'a pas encore cette possibilité d'extraire des méthodes d'état, des méthodes données. Par exemple, si vous faites une photo, vous pouvez mettre beaucoup de texte par dessus et nous on a commencé à avoir des manières plus fines d'analyser cela. Mais dans ces analyses, on n'utilise que l'URL pour comprendre quel genre de contenu c'est pour l'instant. Bonjour, merci pour cette recherche très intéressante, très importante que vous faites. Je me demandais si est-ce que vous voyez des opportunités pour des chercheurs en sciences sociales dans votre recherche notamment par design et en matière d'implémentation. Pour la recherche sociale, je ne comprends pas vraiment le but de cette recherche, je ne comprends pas vraiment ce qu'elle fait. Mais par exemple on a eu de l'aide durant nos tests, quelqu'un qui sélectionnait des pages Facebook et qui voulait être à travers tout le spectre politique ou alors des gens qui savent quels sont les mots-clés qui permettent de bien cibler certaines problématiques. Par exemple une femme en Catalogne qui faisait des enquêtes sur les speeches machistes, elle utilisait beaucoup de profils de femmes pour voir comment ce genre de contenu pouvait faire surface et du coup elle connaissait bien le genre de mots-clés qu'on pouvait utiliser. Voilà ça c'est le genre de métadonnées qu'on peut utiliser produite par les chercheurs en sciences sociales et on peut développer nous à partir de ça. Une autre recherche c'était par exemple quelqu'un qui en suivant des pages au hasard pouvait voir à quelle vitesse le discours d'un homme politique apparaissait dans un newsfeed. Donc ils avaient une référence et pouvaient analyser la vitesse de publication et pouvaient vérifier si ce qui apparaît dans une page random dépend d'eux ou pas. Donc voilà avec beaucoup d'outils les chercheurs en sciences sociales peuvent mieux comprendre ce qui se passe sur les fidèmes utilisateurs. Ou alors il y a aussi les gens qui participent activement au projet si vous faites partie d'un groupe de recherche de 15 millions de personnes et vous partagez une URL et vous leur dites si vous êtes en optine pour cette recherche on va se mettre d'accord pour faire des recherches sur des sujets A, B ou C et on va voir la différence qui est entre nos fidèmes. Alors j'utilise moi-même Facebook et je vois souvent ces publicités qui sont payées mais parfois les gens qui payent pour ces pubs ne semblent pas vraiment savoir comment cibler et je me demandais du coup si vous voyez ces pubs avec vos comptes puisque vous aviez déjà ciblé certains comptes à suivre certaines pages à suivre. Oui alors pour être vrai on collecte tout ce qui est public donc si une publicité apparaît sur une newsfeed publique nous on le collecte après si c'est considéré comme de la publicité sur votre mur ou pas et à quel genre de targeting vous faites face nous on ne peut pas vous expliquer comment c'est pas vraiment notre domaine de recherche ici mais le fait que vous avez été victime de ce ciblage ça on peut le récolter. Pour l'instant nous on récolte tout ça mais on a un problème encore à voir pour quelle raison on vous a montré ce poste. Après novembre comme on l'a vu dans les statistiques plutôt les postes publicitaires sont devenus de plus en plus prégnants c'est quelque chose sur lequel il va falloir qu'on travaille dans les dans les prochaines semaines si vous voulez nous aider à travailler dessus on serait bienvenue. Alors si j'ai bien compris vous parchez le contenu de la page facebook et vous ajoutez un tag spécial sur tous les postes qui ont été collectés par votre adon. Oui je pense que puisque c'est sur la page de facebook je pense que ce serait assez simple pour facebook de traquer le texte que vous vous ajoutez et de voir quel utilisateur participe à votre recherche à votre collecte de données. Seulement si l'extorsion web de facebook regarde activement dans les changements que vous faites au domaine. Ça on peut le vérifier de notre côté nous. Ça veut dire qu'au facebook on voit à notre application des choses pour observer les changements qu'on fait. On peut le tester ça. Si on passe le message on met aussi un message sur la transparence pour rappeler aux utilisateurs qu'ils utilisent cette extension et si ça devenait un problème on pourrait mettre un pop-up qui dit aux utilisateurs. Ne oubliez pas que vous avez ce tracker installé et rien ne changerait. Donc c'est une possibilité mais pour l'instant on ne peut pas vraiment travailler là-dessus. Mais si vous êtes un expert sur les extensions web pareil vous êtes le bienvenu pour nous d'être là-dessus. Alors très rapidement quand Zeneb Tufaski a commencé à parler de la radiculation sur YouTube il a semblé y avoir une réaction un peu de panique autour YouTube. YouTube semble avoir essayé de chercher mais pourquoi est-ce que l'atmosphère sur YouTube est comme ça. Pourquoi l'algorithme se contente comme ça et d'essayer de le résoudre. Est-ce que vous avez l'impression que c'est la même chose sur Facebook ou est-ce qu'ils ont l'impression d'avoir perdu le contrôle de quand marche le fil d'actualité et de ce que fait leur algorithme. Ça fait déjà plusieurs années qu'ils ont Facebook envoyé des liens aux éditeurs en disant vous savez les algorithmes sont complexes on sait pas vraiment comment ça fonctionne. Personne ne sait vraiment quel est le statut de ce qui se passe dans les raisons neuro qu'on nous n'a mis en place. Le but c'est peut-être pour Facebook. Ces questions politiques sont peut-être trop éloignées du développeur Facebook moyen. Si vous voyez que dans la majorité de vos graphiques les vidéos font de meilleurs résultats que les selfies ça c'est les données que vous avez et c'est quelque chose qui aura un impact politique mais vous le savez pas forcément. Donc je peux comprendre que c'est quelque chose où ils ne sont pas forcément responsables mais j'estime qu'ils le sont parce que s'ils changer leur logique alors c'est inacceptable que ce que qu'on voit dans les discours publics soit modulé par des raisons auxquelles on n'a pas accès. Donc la réponse ne peut pas être de promettre de mieux faire et de continuer à être secret de leur côté. Ça n'a pas de sens et ça n'a pas de sens de dire qu'on veut fixer, réparer ce genre de problème depuis la Silicon Valley. La diversité du monde n'est pas quelque chose qui peut être recouverte par ce genre de l'hégorisme. On va plus avoir de temps pour beaucoup de questions, c'est des questions à aller voir le présentateur après. Dernière question. Alors vous parlez d'éthique dans votre présentation. Est-ce que vous pensez que votre approche ou que les résultats que vous avez peuvent être utilisés à des fins néfastes ? On veut l'éviter. Pour faire au mieux, la seule pays qu'on est, c'est celle qui est accessible à celui qui produit les données. Et voilà, les données agragées ne peuvent pas permettre de remonter à un seul individu. C'est des phénomènes agrégés qu'on peut observer. Moi je travaille avec ce groupe de développeurs, on a par exemple des développeurs à Amsterdam qui nous aident en tant que tierspartie à faire des analyses d'impact sur notre programme. On a confiance dans le fait que ça ne peut pas arriver. Mais bien sûr, autant que possible, on reste ouvert aux feedbacks et à tout ce qui est révision et amélioration de la production de la vie privée. Et là on s'appelait par mauvais usage. Donc ça dépend de ce que vous entendez par ce terme. Mais on essaye de prévoir ce qu'il pourrait mal tourner et de l'éviter. Merci beaucoup. Tonnerre d'applaudissement s'il vous plaît.