 J'ai parlé tout à l'heure du fait que Snowden nous a regardé et il nous a appelé à faire quelque chose. Aujourd'hui, on va voir un talk qui s'appelle « Fabriquer votre propre NSA ». Les services secrets collectent des données, mais ce n'ont pas les seuls. Il y a aussi des entreprises comme Google et Facebook qui, ici, ont un compte Google, levé la main. Il y en a beaucoup. Qui a un compte Facebook ? Il n'y a pas que les grandes entreprises comme Facebook ou Google qui collectent des données. Il y a aussi des entreprises un peu plus petites ou même complètement inconnues. Et des gens dont on ne s'y attend pas. Par exemple, moi, je suis sur la scène, je sais qu'il y a un compte Facebook ou Google. Merci pour l'info. Ces entreprises ou moi pourrions y aller et changer ces données ou les vendre à des gens qui paient. Ma petite expérience était un peu banale et pas très intéressante. Sven Eckhart et Andreas Dewis ont fait une autre expérience et se sont rendu compte de quelles données on peut collecter. Ils vont nous dire non seulement qui, comment et pourquoi collectent des données, mais aussi comment on peut protéger nos données personnelles. Andreas est data scientist et développe des technologies pour extraire du savoir des données. Sven est journaliste bénévole et écrit des articles pour Tageshaw et Tagestem. Je vous remercie de saluer les deux personnes ici présentes et de leur donner un tonnerre d'applaudissements. Amusez-vous bien. Bonjour à tous. On serait jouis d'être là aujourd'hui. J'ai fait les listes de données et je vais laisser la parole à Sviya. Moi je travaille pour ARD et on a fait une recherche à propos du hashtag NAKTIMNEC. Vous avez peut-être déjà vu quelque chose en parlant de ça. On sait que l'on ne sait pas ce qu'on a fait. Il y a des entreprises qui le savent et des entreprises qui notent notre comportement. Par exemple, ils voient sur quel site on surf. Par exemple, ici, avec cette petite application, je peux voir qu'il y a un certain de sites qui voient que je suis sur ce site-là et qui ont donc la possibilité de me suivre sur Internet. Je pense que tout le monde le sait ici et que c'est connu. Mais quand même, ça dérange quand même pas un certain nombre de personnes. Beaucoup d'Iran, j'ai rien à cacher, ça devrait pas être méchant. Quand on regarde dans l'industrie, l'excuse est que ces données seront de toute façon anonymisées. Il n'y a aucun souci à avoir. Les vendres, non, personne ne fait ça. Vraiment ? Nous, on la voulait savoir plus précisément. Comment on accède à ces données ? Je suis une entreprise. J'ai fabriqué un site web, c'est assez facile. Quelques photos, un génestionnaire de contenu, un peu de vocabulaire marketing. Mon entreprise fait un mélange de technologie et de créativité et propose aux clients de faire des campagnes personnalisées. Qu'est-ce qu'on a besoin pour ça ? Beaucoup de données utilisateurs. Dans ce cas-là, il m'a fallu une collègue efficace. Anna Rosenberg, ici présente, travaille pour Miss Technology et est basée à Tel Aviv. Ne parle pas un mot d'ébreu. Mais il n'y avait pas de souci. J'ai choisi Tel Aviv, même si je ne connais pas la ville. Parce qu'on m'a dit qu'Israël était très bon pour les données. Il ne fallait pas que je crée une entreprise allemande, parce que, soi-disant, je n'aurais rien comme données. Anna Rosenberg, c'est mis à la chasse par téléphone. Donc l'entreprise qui collecte les données, c'est-à-dire que les firmes ont eu la question de vendre leurs données. Si les données collectées n'aimaient pas de samples, parce qu'ils n'avaient pas de samples, si je pouvais avoir un échantillon gratuit, pour vraiment faire quelque chose. Et donc j'ai reçu, c'était gentil. Par exemple, c'est intéressant. C'est d'une entreprise d'analyser et donc une autre. Et donc l'un ou l'autre était prêt à me donner un échantillon pour que je puisse estimer la qualité des données, un échantillon gratuit. Ces données sont arrivées, ces échantillons. Et donc de ces échantillons qu'on va parler, qu'est-ce qui était là-dedans ? On avait un accès quasi instantané pendant 14 jours de données utilisateurs qui s'actualisaient en temps réel. C'était 3 millions d'utilisateurs allemands dans cet ensemble de données. Et c'était les flux de clics pendant un mois. Donc le flux de clics, c'est un peu le mot valise pour historique du navigateur. Et donc on a joué de manière exploratoire avec ces données. On a fait un grep dessus et on a regardé ce qui se passait. Par exemple, quand on cherchait arobazpolitai.de, c'est-à-dire des adresses mails de la police allemande. J'en ai mis une nette, change d'identité. Tout ce qui est en X, c'est moi qui l'ai enlevée pour des raisons de confidentialité. Par exemple, le 1er août 2016, un ordinateur sur Google à 5h30, il peut aller en colère et aller en colère. Il cherche un Volkswagen dans cette catégorie. Quand on sait ce qu'il a à faire avec la police, on peut demander ce qu'il va y avoir avec la police et qu'il y ait cette personne. Si on va un peu plus loin dans ces données, c'est donc un stream vidéo que j'ai fait pour que vous puissiez comprendre la masse d'informations qu'il se trouve là-dedans. Qu'est-ce qu'il lit, qu'est-ce qu'il cherche ? Qu'est-ce que cette personne cherche et à quel moment il a été sur le site de la police ? Par exemple, le processus de... J'ai un décoder. Il cherche un décoder. Avec les actes d'accueil, je n'ai quitté la personne. Et donc, cet utilisateur a laissé son nom, son nom de famille et son numéro de téléphone. On peut voir ce qu'on peut apprendre d'une personne par rapport à ces données. On peut continuer à regarder, à descendre dans les données et voir qu'on peut comprendre qu'il travaille et qu'il enregistre des signalements de malware qui l'écoutent SWR et qui a quelques difficultés dans la vie. Là, on voit une recherche. Qu'est-ce que c'est l'IP 127.0.0.1 ? Donc, il y a aussi des résultats de ce genre-là. Et là, on a recherché que pour arobazpolize.de. Mais qu'est-ce qu'il serait si c'était sur ce blog-là ? Il y a une up-frage. C'est ce qu'on a fait, par exemple, pour explorer un peu les données. L'important, c'est ce qu'il y a entre les guillemets. Donc, la commande veut dire donne-moi toutes les utilisateurs qui ont visité ce site-là. Et donc, on a vu qu'il y avait ces personnes-là. Qu'est-ce qui se passe si on voulait les anonymiser ? Est-ce qu'on pourrait le faire ? Oui. Ce que nous avons vu, non. Dans le meilleur des cas, c'est un peu compliqué. Ça peut même devenir dangereux. C'est pourquoi, dans les 15 minutes suivantes, je voudrais vous expliquer ce que c'est être anonyme et quel peut être le problème. Il y a des données anonymes au début. Et donc, elles ont des caractéristiques différentes. Donc, elles sont par rapport au droit des données personnelles. Donc, dans ces données, par exemple, on n'a pas le droit d'avoir des identifiants qui permettraient d'identifier directement la personne. De l'autre côté, il y a aussi des informations publiques. Par exemple, depuis Internet ou depuis d'autres sources qui sont disponibles librement. Ces données ont des caractéristiques de ces personnes qui permettent de remonter à la personne à l'origine. Donc, la désanonymisation, c'est une recherche de corrélation entre les deux ensembles de données qui permettent d'identifier les personnes. Et par exemple, à des fins statistiques ou de machine learning, on peut essayer d'identifier les candidats ou au moins réduire l'ensemble de candidats potentiels au plus bas. Et dans le meilleur décal, identifier une seule et unique personne qui correspond à cet ensemble de données. Et donc, si j'arrive à faire ça, j'ai désanonymisé l'utilisateur. Comme Svea l'a dit, dans les données qu'on a reçues, il y a des choses qu'on pouvait repérer assez facilement parce que ce n'était pas désanonymisé en profondeur. Par exemple, il suffisait d'être d'une seule URL pour récupérer tout ça. Et donc, par exemple, une fois par Twitter ou par Xing, il y avait dans l'URL des informations du pseudonyme de la personne, voire de son vrai nom. Et donc, dans la première adresse, on voit que cet URL ne marche que pour les gens qui sont connectés sur le site. Et donc, je peux partir du principe que le nom d'utilisateur qui est là c'est en fait celui de l'utilisateur courant. Et donc, le deuxième qui est un peu moins clair. Ici, on se rend compte qu'on a une adresse de profil. Et ce qui fait la différence, c'est cette requête particulière. Et ça, c'est rajouté dans l'URL seulement. En tant qu'utilisateur enregistré, je me connecte sur mon propre profil. Et donc, ça nous a permis, dans les deux cas, d'identifier de manière unique l'utilisateur qui a été analysé. Et donc, on a eu beaucoup d'utilisateurs de cette façon-là. Et donc, Xing, par exemple, fait beaucoup de modifications par rapport à ça. Et Twitter ne considère pas ça comme un problème et ne souhaite pas faire de modifications de ce point de vue-là. Donc, comme chose à retenir, il vaut mieux pas stocker des informations personnelles dans les URL. Ensuite, ils utilisent des comportements un peu plus avancés pour anonymiser des ensembles de données. Donc, cet article, par exemple, des années 2007 de recherche ou des chercheurs ont travaillé sur des données publiées par Netflix. Donc, elles étaient des données anonymes d'utilisation Netflix. Ces données ont été envoyées sur une plateforme d'analyse de données et dans le but de faire analyser ces données par des data scientists. Et l'idée, c'était de développer de nouveaux algorithmes pour suggérer des films, par exemple. Et la dédenominisation était possible. Donc, dans ce cas, c'était, par exemple, nutzers qui puissent aussi faire des films comme Netflix. Et donc, des comptes client avec, par exemple, le nom réel de l'utilisateur. Et donc, on a comparé ces deux éléments. Donc, on a comparé, en fait, les commentaires sur IMDB avec les commentaires sur Netflix. Et ça nous a permis aussi de se rendre compte que les deux utilisateurs ont regardé exactement les mêmes films. Et donc, ces techniques, on peut aussi les utiliser sur nos données à nous. Et donc, il y avait à peu près 3 milliards d'URL sur 9 millions de domaines qui concernaient 3 millions d'utilisateurs. Donc, étant donné que les données étaient anonymisées, on est parti du principe que le fournisseur était intéressé par vraiment anonymiser les données proprement. Et donc, on a enlevé toutes les données de l'URL, par exemple. Et on a juste gardé les informations. Est-ce que l'utilisateur a fréquenté ce domaine-là pendant cette période? Et donc, de cette façon, on permet de protéger les utilisateurs d'une autre désanimisation. Et donc, on a regardé les utilisateurs avec beaucoup suffisamment de domaines, parce que sinon les données n'étaient pas utilisables. Et donc, ici, on a tracé l'indice de popularité des domaines, donc plus c'est à gauche, plus c'est populaire. Et sur l'axe vertical, il y a le nombre d'URL qui a été concerné pour ce domaine-là. Et on voit que si on regarde les domaines les plus populaires, ça représente plus de 99% de l'ensemble de données complète. Donc, la plupart des recherches concernent ce domaine. Et donc, par contre, on a aussi des domaines qui ont été consultés par un nombre très restreint de personnes. Et donc, on a la différence entre des domaines très populaires qui ont été visités par quasiment tous les utilisateurs. Et aussi, ces domaines qui ont été fréquentés par très peu d'utilisateurs. Et donc, ça, ça permet d'identifier assez facilement des utilisateurs individuels. Donc, le premier pas pour la désanonymisation, c'est de catégoriser les utilisateurs. Donc, on va faire un tableau où chaque ligne correspond à un utilisateur et chaque colonne a un domaine. Et chaque élément, soit zéro soit un, c'est un, si l'utilisateur a consulté le domaine en question. Donc, on obtient une matrice avec 9 millions d'entrées pour les domaines et un million pour les utilisateurs. Et donc, cette matrice peut être représentée assez facilement parce qu'elle contient beaucoup de zéro. Donc, l'algorithme qu'on a utilisé, c'est très simple. Donc, on génère cette matrice M que j'ai montrée et on génère un vector. Et dans ce vector, on met différents informations que nous voulons comparer avec ce qu'on trouve comme données dans le profil de l'utilisateur. Et donc, on prend ce vector et on le multiplie avec la matrice. On a un résultat et pour chaque utilisateur, un seul chiffre, et donc avec ce chiffre, on peut trouver la personne qui correspond le plus à la question qu'on a posée, au problème qu'on a posée. C'est donc très robuste et relativement effectif pour des musées. Bien sûr, c'est très abstrait. C'est pour ça que je vous propose un exemple d'utilisateur choisi. On va donc aller point par point et à chaque point, on va voir ce que l'utilisateur a visité comme domaine et combien d'utilisateurs ont visité ce domaine. On va commencer à gauche avec 1,1 million. On voit déjà qu'on a une rédiction dans la quantité des données par rapport aux utilisateurs qui ont réellement visité ce domaine. Ensuite, on peut comprendre que cet utilisateur est utilisateur de Telecom, il a donc Telecom.de. Il a donc visité ce site. Et on arrive donc à 377 entrées. Et enfin, on regarde cet utilisateur et un utilisateur de la Sparda Bank. On arrive à 11 solutions et pour final, on trouvera que l'utilisateur a visité le site du journal Handle Plat. Donc, on arrivera à une entrée finale. Avec ces informations, qu'on extrait d'ensemble public, on a réussi avec ces quatre informations à identifier l'utilisateur. À quel point ça fonctionne cette procédure ? On a vu que dans l'ensemble de données, on a vu toutes les informations du comportement de l'utilisateur. Et là, on a utilisé qu'une dizaine de milliers de domaines sur le script. Et donc, l'efficacité de la méthode en fonction du nombre de domaines qu'on a à disposition. On regarde par exemple sur un ensemble de 200 utilisateurs. Par exemple, pour 50 domaines, il y a à peu près 160 utilisateurs qui pourraient être à peu près similaires à l'utilisateur qu'on cherche. Et donc, si on monte à 100 domaines, on descend ce chiffre à 25 à peu près. Et si on ajoute encore plus des domaines, on arrive très vite à identifier de manière unique l'utilisateur. Et donc, pour l'identification, on n'a grosso modo pas d'erreur possible. Donc, c'est une plus de théorie. Enfin, c'est encore pas complètement stable. Et c'est relativement peu probable qu'on arrive à de telles données. Je vous montre maintenant trois exemples. Donc, ça va voir avec l'analyse de Twitter. Il y a un utilisateur dans notre compte de données. Et on a regardé quel URL il a utilisé. Et sur ce tweet, on a extrait un URL. Et on a utilisé ce domaine dans notre algorithme. Comme on peut le voir, pour cet utilisateur, on a huit domaines qui ont été extraits, qui sont relativement populaires, github, change.org, change.org, ou bien paper.ly, etc. Et donc, maintenant, quand on regarde quel utilisateur on consultait au moins un de ces domaines dans la période correspondante. Et qu'on note le nombre d'utilisateurs, on a ce graphique-là. Et donc, on a à peu près 11 000 utilisateurs qui ont cherché sur un de ces sites. Et en fait, là, on voit qu'il y a un seul utilisateur qui a consulté tous ces sites. Donc, on a beaucoup d'utilisateurs qui ont vu un, deux ou tout. Trois de ces sites voire quatre. Mais pour cet, comme dit, il n'y en a vraiment qu'un seul. Et du coup, c'est l'utilisateur qu'on voulait desanonymiser. Et donc, on a à nouveau un moyen à 100 % de détecter cet utilisateur. Donc, parfois, on n'arrive pas à avoir l'utilisateur de manière unique, mais on peut quand même réduire jusqu'à 10 ou 20 utilisateurs. Le deuxième exemple que je voudrais montrer, ce sont des données YouTube. Enfin, ça a été fait avec des données YouTube. Et donc, il y a pas mal de données qui ont été anonymisées, mais il y a beaucoup de choses qui permettent d'analyser, même par exemple, avec les URL YouTube, on peut voir quel utilisateur à regarder, quelle vidéo. Et on pourrait penser que cette information de vidéo publique n'est pas très critique. Mais ce qu'on a fait pour voir si c'était vraiment pas très critique, c'est qu'on a extrait un utilisateur de notre ensemble de données. Et on a regardé ces vidéos favorites pour cet utilisateur, qui est public aussi. On peut choisir de ne pas publier ça sur son compte YouTube, mais 90 % des utilisateurs le laissent par défaut ce qui est public. Et donc, de manière automatique, on a récupéré les IDs des vidéos. On les a mis dans notre algorithme. Et on a récupéré les domaines qui contenaient ces IDs dans l'URL. On a justement ces IDs et on regarde le nombre d'utilisateurs qui ont vu au moins une de ces vidéos. Donc il y a maintenant à peu près 20 000 utilisateurs qui ont vu une de ces vidéos. Et le nombre de viseurs potentiels pour ces URL décroît vite quand on augmente le nombre d'URL qu'on veut visiter. Et par exemple, ici on récupère un seul utilisateur qui a regardé la majorité de toutes ces vidéos. Et donc ça nous permet d'identifier un nouveau utilisateur qu'on cherchait. Et donc ça veut dire qu'avec les données qu'on a, même plusieurs millions d'utilisateurs, on peut remonter à une personne avec le compte YouTube. Et on voit que ça marche même mieux qu'à partir du compte Twitter que je vais montrer précédemment. Et donc un ID YouTube est vraiment encore plus simple qu'une URL Twitter à déchiffrer. Le dernier exemple que je voudrais vous montrer est basé sur l'analyse des géodonnets qu'on extraite de notre ensemble de données. En fait, c'est relativement simple à partir de Google Map URL. Et le plupart du temps, au-dessus de l'URL, il y a les données du GPS. On peut donc, à partir de ça, une carte d'utilisateur. On peut aller à une carte d'utilisateur. On peut donc... Donc les géodonnets sont particulièrement intéressants parce que c'est relativement difficile de les falsifier. Par exemple, il est facile de transformer les vidéos qu'on voit, mais relativement difficile. Il est difficile de changer les lieux où on va. Donc c'est relativement facile de savoir quel l'utilisateur s'est déplacé dans quel cercle. Donc on a extrait des données à partir de Google Maps. À partir des données qu'on trouve dans les photos. On peut donc, à partir de quelques points, identifier les utilisateurs à nouveau. Est-ce que je peux me cacher dans mes données? Et donc, par exemple, est-ce que je pourrais tromper des données sur Google Maps? Et donc, on peut donc... On peut donc... Par exemple, est-ce que je pourrais tromper l'algorithme en ouvrant des sites que je n'ai pas l'habitude de consulter? Et ça, je voudrais dire que ça ne fonctionne probablement pas. Pour la simple raison qu'ici on fait une correspondance entre des caractéristiques qui sont réalisées ou non. Et on cherche... Ça va rajouter des données à notre vecteur, mais ça ne peut pas en enlever. Et donc, on peut rajouter autant de données qu'on veut. Ça ne changera pas le résultat de l'algorithme. Et on ne pourra donc pas être confondus avec un autre utilisateur juste à cause de ça. Et donc, c'est très robuste par rapport à des perturbations ou des modifications des données de l'utilisateur. On peut donc dire que cette sorte d'ensemble de données des caractéristiques très particulières sont vraiment difficiles à analyser. On ne peut jamais être vraiment sûr que les processus d'analyse ou bien qu'on puisse vraiment protéger l'utilisateur par rapport aux données qu'il laisse. Par exemple, des données qui ont été rendues anonymes il y a 10 ans, 5 ou 10 ans. C'est toujours possible à posteriori d'identifier à nouveau des utilisateurs, même par rapport à des données qui sont relativement anciennes. Donc, on peut de cette manière identifier très facilement un utilisateur. Qu'est-ce que cela signifie quand on est confronté avec ses propres données? En tout cas, quand quelqu'un d'autre est confronté avec ses données propres. On a donc fait des recherches pour un magazine politique et on a donc regardé le profil d'hommes politiques ou de femmes politiques. Donc 3 personnes du SPD et là en dessous il y a encore quelqu'un des personnes qui a parti le Parti des Verts. On voit donc ici, dans un bureau du Stade du ministère... Et donc les statisticiens travaillent beaucoup pour les hommes politiques. C'est relativement difficile d'avoir quelqu'un qui vient de devenir devant la caméra et donc on a pris ici une personne qui a accepté. Pour la conférence, cette personne a donné ses données, accepté de les données. Donc, je n'ai pas eu besoin de les anonymiser précédemment. Dans le premier temps, banking, donc des données bancaires on peut donc une manière très claire voir où est-ce que les gens ont leur compte bancaire. On ne peut pas exactement savoir ce qui s'y passe mais on peut savoir en tout cas en fin août, beaucoup de gens ont déclaré leur déclaration d'impôt et donc on va descendre un peu dans les données et donc on va parler de ces déclarations d'impôt et on peut voir ici sur Elster Online On ne peut pas vraiment savoir ce qui s'est passé parce qu'ici un mode passé demandé on peut savoir qu'est-ce qu'ils ont cherché et qu'est-ce qu'ils ont rempli comme formulaire et en tout cas qu'est-ce qu'ils ont pensé intégrer leur déclaration d'impôt c'est vraiment plein de détails en tout cas riche en détails qu'est-ce qu'elle a dit quand on s'est retrouvé dans son bureau on peut l'écouter tout est à voir merde il y a une autre histoire avec une autre histoire dont on a parlé avec elle donc Tébonine c'est quelque chose qu'on appelle quand on a des problèmes quand on a des problèmes de santé un problème bien particulier que je ne sais pas de radio ou de la pression en tout cas on peut savoir quelle sorte de médicaments pour cette personne ça peut être aussi un moyen de pression de connaître la santé je ne sais pas pourquoi ce que j'ai regardé cette Tébonine maintenant je vois bien que c'est relié à mon nom donc voilà c'était Valérie Vims qui réagit aux données qu'on lui a montré ses propres données en tout cas en tout cas on peut imaginer où les personnes vivent en ligne en tout cas à quel moment ça peut apparaître parce que les gens ont des traces en ligne en tout cas les gens ont des rêves et des pensées des choses qui ne peuvent pas être normalement entendues par un tiers mais à partir de ces recherches c'est relativement clair et la plupart des personnes qui ont été confrontées à leurs données ont été relativement choquées et donc qu'est ce qu'on peut faire sur qu'est ce qui donne ces informations sur les navigateurs on s'est rendu compte qu'en fait il y avait beaucoup d'extensions de navigateurs qui étaient des sources de données donc on a par exemple testé et désactivé successivement des extensions par exemple ici WOT qui fait de l'exploration entre guillemets sûr d'internet qu'on suppose enfin qu'on suspecte on a aussi testé pendant qu'on avait un accès direct au données on a contacté un spécialiste de la sécurité et il a mis en place un environnement où il y avait uniquement ce plugin et donc on pouvait voir que c'était ce plugin qui dénonçait et qui donnait des informations pourquoi est-ce que est-ce que le tracking par application par extension est si intéressant par exemple je voudrais obtenir une idée globale du comportement d'une personne donc comme un utilisateur je récupère le site dans mon navigateur ensuite je récupère un script javascript ce script javascript peut mettre des cookies d'autres informations qui me suivent pour les utilisateurs maintenant il y a eu des extensions qui ont été mises en place pour bloquer ce genre de choses et qui coupent par exemple la communication au serveur de tracking et donc ça devient plus et plus difficile de récupérer ces données et donc c'est pour ça qu'il commence à y avoir beaucoup de mécanismes qui passent par d'autres applications qui permettent de contourner assez facilement les limitations de ces applications de blocage et donc ça a encore un autre avantage pour ces fournisseurs de données parce que ça donne pas seulement les données des sites sur lesquels il y a un tracker mais aussi les autres sites qui ne tracent pas leurs utilisateurs et donc ça permet d'avoir pour quelques utilisateurs un spectre de données beaucoup plus large et on voit quasiment l'intégralité de l'historique de navigation de cette utilisateur à nouveau on a analysé combien de données chaque extension il y a un graphique logarithmique dans les deux sens donc vous avez à chaque fois à gauche le rang de l'extension c'est-à-dire les extensions les plus fréquentées et verticalement on a les extensions les plus populaires par exemple web of trust le plus haut et donc quand on prend les 10 premières extensions on voit que 95% des données sont dévoilées par cette extension et donc ce sont que quelques extensions qui génèrent la majorité des données qu'on récupère et donc quelques extensions peuvent fournir quelques milliers voire quelques centaines de milliers de données et donc ça il faut savoir que c'est quand même un maximum et donc on a regardé à nouveau on a fait un test avec une automatisation qui testait différentes extensions et donc on a suivi quelques sites et on a essayé de voir quelles URL étaient visitées par le navigateur quand on ouvrait certains sites et donc on voyait aussi quelles autres URL étaient consultées par rapport à la liste URL qu'on voulait consulter à la base on peut voir que la plupart des extensions n'ouvrent que les URL auxquels on s'attendrait par rapport à l'ensemble de données de test mais il y a quelques extensions qui se comportent de manière un peu suspecte et donc après qu'une analyse plus détaillée on a regardé que l'application a envoyé des données à un site web tiers et donc dans ces extensions il y en avait que quelques-unes qui dénonçaient le comportement de l'utilisateur et donc dans la major partie des cas on voit que il y a peu de données qui fuite mais il y a quand même quelques cas ou des quantités de données considérables sortent est-ce que je peux me protéger de ça ? c'est donc c'est toujours plus difficile de bloquer les trackers comme on peut le voir, à partir de moins en moins de données on arrive à identifier des données anonymes c'est-à-dire que à partir d'informations qui bloquent les trackers je peux donc quand même je peux quand même arriver à être identifié à nouveau si je veux être sûr quand je suis sur internet il faut que je pense à faire tourner les caractéristiques qui pourraient m'identifier bien que ce ne soit pas une garantie que c'est quelque chose qui ne puisse pas être qui ne peut pas être tracké il est en fait quasiment impossible d'être sur internet sans risquer sans rencontrer le risque d'une déanonymation c'est-à-dire qu'il y a eu des recherches vo-t verschwant relativement à la publication vo-t vo-t donc relativement on a été utilisé très vite sur Chrome et sur Mozilla et ensuite les plugins qui ont été installés ou qui n'ont pas été ensuite désinstallés ensuite ça on continuait ma inclusion personnelle c'est-à-dire on ne peut pas faire confiance au store magasin en ligne qui propose des applications et des plugins nous sommes à la fin de notre conférence notre présentation mais on peut dire qu'il y a une grosse équipe qui nous soutient c'est-à-dire une grosse équipe qui nous soutient je les remercie je les remercie et je remercie pas actuellement il y a une caster qui est assise au premier rang ma collègue il nous reste du temps pour les questions donc si quelqu'un veut proposer une question je vous en prie, allez au micro je vois des mouvements peut-être j'en sais pas mais c'est très intéressant à l'arrivée de la question je vous en prie, le micro 6 prenons que si la personne qui analyse n'est pas dans la base des données si la personne n'est pas dans l'ensemble de données est-ce qu'il y a un risque de faux positif alors oui, il y a potentiellement un risque de faux positif après il faut voir si c'est vraiment gênant pour le fournisseur qu'il puisse y avoir des faux positifs pour certains utilisateurs ça peut être suffisant de connaître l'utilisateur il y a une probabilité de 10% d'avoir raison et donc ça peut faire beaucoup de problèmes si l'utilisateur n'est pas dans cette base de données et qu'on l'identifie à tort et donc typiquement pour un crédit ça serait dangereux que ce soit d'autres données mais du coup ça me joue du tort qu'est-ce que ça coûte la question qu'est-ce que ça coûte la question qu'est-ce que ça coûte la question donc on peut donc est-ce qu'on a une la réponse on paye pour une licence pour un mois ou un an c'est environ pour un chiffre assis d'entrée vous avez parlé d'Eddy plus grave on s'est demandé si on pouvait si on pouvait dévoiler les extensions et je ne voudrais pas dénoncer les extensions on va essayer de tous les identifier mais on veut être sûr de dénoncer les vraies extensions avant de donner les noms question d'internet je résumais quelques questions d'internet je résumais quelques questions d'internet je résumais quelques questions d'internet est-ce qu'il y a des solutions techniques ou juridiques de se protéger de ça est-ce que ça a été proposé par exemple de dénoncer en justice de pouvoir porter plainte donc pour l'instant je crois pas que quelqu'un ait porté plainte des possibilités techniques il en existe beaucoup et en fait le problème c'est que la plupart des utilisateurs ne connaissent pas le problème en cas de doute la responsabilité est chez le développeur des navigateurs et par exemple pour Google Chrome on a vu que WOT était vite intégré dans le store et donc la responsabilité est au fournisseur de ces logiciels de gérer ces extensions et c'est aussi une bonne idée de regarder de temps en temps d'autres fournisseurs de navigateurs parce qu'il y en a qui font en sorte qu'on puisse même pas installer plugin donc il n'y a pas de risque à ce niveau-là est-ce que ça serait possible de publier la liste des entreprises qui publiaient ce genre de données par exemple comme une liste d'entreprises où il faut pas travailler il manque un nom celui de l'entreprise avec laquelle je suis rentré en contact et c'est aussi possible que la liste d'entreprises soit en fait des raisons juridiques pour lesquelles on n'a pas le droit de les dévoiler et aussi par peur de ces entreprises et par peur des plaintes qui pourraient en suivre et donc pour l'instant on n'avait pas le droit de dévoiler ces noms mais c'est un travail qui reste en cours pour l'instant donc un classique ça serait de désactiver les cookies et le JavaScript sauf pour les sites qu'on fait confiance qu'est ce qu'on pourrait faire contre des données qui dépendent uniquement de l'adresse IP par exemple donc maintenant il y a beaucoup de fournisseurs qui ne dépendent plus des cookies et donc qui utilisent d'autres sources de données qui sont difficiles à changer par exemple l'adresse IP ou d'autres identifiants qui sont fixés qui sont difficiles à changer donc c'est facile ou moins pas très difficile de suivre des utilisateurs sur différents moyens identifiants micro 6 la désanonymisation est-ce que c'est possible de rendre cette désanonymisation plus difficile avec des extensions pour la vie privée donc ça ça peut être utilisé mais ici pour les données le problème c'est que l'utilisateur ne connaît pas les données et à aucun moment la permission est demandée donc la seule possibilité que j'ai en tant qu'utilisateur c'est de rajouter des faux points de données mais j'ai aucun moyen d'en enlever donc c'est plus difficile de le faire par contre ce qui est vrai c'est que il faut donner le moins d'informations possible parce qu'on voit que quand il y a des petites informations c'est assez facile de réduire l'ensemble de données et donc en fait pour cela on peut pas faire grand chose j'ai une question un peu plus naïve c'est une question juridique ça me semble est ce que vous pourriez m'expliquer qu'est ce qui vous empêche juridiquement de donner ces noms on s'est penché sur les problèmes juridiques il y a eu beaucoup de discussions avec des organismes de protection des données on s'est demandé est ce que ça pourrait être autorisé de divulguer ces données en Allemagne c'est interdit de dévoiler ces données parce que c'est interdit par la loi parce que l'utilisateur n'a pas donné son accord et ça pourrait en fait être condamnable via des organismes de défense des droits pour l'instant il y a personne qui s'est senti appelé à apporter plainte mais ce qu'on fait pour l'instant c'est de faire en sorte qu'il y ait une déposition auprès du défenseur des droits et c'est très difficile surtout pour les entreprises étrangères de pouvoir se plaindre et de pouvoir agir sur le plan juridique et donc c'est difficile de menacer des entreprises étrangères donc il n'y a pas beaucoup d'informations sur ces données une question d'Internet une question d'Internet une question d'Internet une question d'Internet est-ce qu'on peut récupérer les informations que vous avez eues de nous et donc la réponse facile pas du tout parce que ces données on les a plu on n'y a plus d'accès une dernière question je suis un ami de la défense de soi est-ce que c'est vraiment possible parce que je veux dire le thème est tellement complexe que les gens qui sont ici peuvent se protéger uniquement si ils prennent vraiment le temps de le faire qu'est-ce qu'il y en est par exemple de ma mère ou de mon oncle qui n'y comprennent pas grand chose donc ça c'est le problème dont on a parlé pendant la présentation c'est que les utilisateurs ne se rendent même pas compte parfois qu'ils ont ce genre de problème même si les gens qui lisent le bloc fait fait sont plutôt courants il y a quand même des utilisateurs qui ne se défendent pas et donc il y a des gens qui parlent du principe qu'il est tombé et qui se laissent tracer et c'est très difficile de savoir en fait ce qu'on peut faire avec tous ces données et donc non il n'y a pas pour l'instant de bonne solution pour ça si vous avez des questions vous pouvez encore venir devant et poser les questions directement à l'orateur