 Vorhin erzählt, dass Snowden uns heute zugeschaltet wurde und er hat uns aufgerufen, etwas zu tun. So, wir haben hier Snowden calling us, who asked us to do something. So, here we have another talk, how to build your own NSA. So, the security services are collecting data, but not only that, they also crack data. So, thank you. So, please raise the hands of those that trust the data to Google. That seems to be in many of you. Who's got a Facebook account? So, but these are not just big firms that collect the data. There are also small companies. The names of each you might have never heard of. Like, for example. I'm standing here on the stage and now I understand how many of you have Facebook or Google accounts. And what do these companies with the data they have on you? Well, they can do something, but they might just sell it to others. So, our experiment is quite joyful. But our speaker has done a big experiment. And he has found out what kind of data can be collected. And this talk will not just talk about who, how and where to collect the data, but what can we do to protect our private life. Andreas is a data scientist. Svea is a free journalist. She researches IT topics. She was a sugar board on the documentation, on the Facebook and the NSA scandal, which Snowden became so well known. Now I am asking all of you for a big applause to these people. And enjoy. Thank you. Hello, everybody. Of course, we are also happy to be here. As has been said, I have done data analysis for a company. Ja, ich bin Svea Ecker. Ich arbeite für den LA, beziehungsweise die ARD. Und wir haben eine Gruße für die ARD. Die ging über den ganzen Sommer und mündete. Ich habe ein big research during the summer. Ich habe einen Berichterstattung Anfang November unter dem Hashtag nackt im Netz. Da seht ihr was. Ihr seht, was wir wissen. Wir wissen, dass wir die Nutz bewegen. Das wirn das mitbekommen. Das wirn das mitbekommen. Das wirn das mitbekommen. Das wirn das mitbekommen. Und wir wissen, dass wir verschiedene Parteien beteiligen. Es gibt viele Parteien, die das in der Erwärmung sind. Das haben wir jetzt verstanden. Jetzt, wie wir es auf dieser Foto sehen, haben wir einen der Webseiten analysiert. Es gibt 80 Parteien, die wir auf der Webseite sind und folgen uns. Ich denke, dass alle hier wissen, dass es bekannt ist. Und es ist ein Teil dieses. Aber diese Sorgen haben wir noch. Die meisten Internet-User sagen, sie haben nichts zu tun. Sie haben nichts zu tun. Sie haben nichts zu tun. Sie haben nichts zu tun. Sie haben nichts zu tun. Wenn man in der Industrie nachfragt, ist die Aussage in der Industrie. Diese Daten werden total gut anonymisiert. Dann sagen die Leute, dass diese Daten anonymisiert werden. Und dann ... Und niemand macht das. Das wollte ich genauer wissen. Wie kann ich die Daten bekommen? Ich bin also im Juli auf eine Webseite aufgesetzt. Es ist relativ trivial. Ich habe ein paar schöne Fotos und ein bisschen Marketing. Meine Firma Meats Technology, die Vereinigung von Technologie und Kreativität, macht data-driven Consulting. Die Firma soll die Daten und Kreativität über Daten und Kreativität und die Kreativität übernehmen. Wir bekommen Daten auf die User. Wie können wir die Daten bekommen? Wir brauchen jemanden, der gut arbeitet. Wir bekommen jemanden, wie Anna Rosenberg. Hallo. Anna Rosenberg arbeitet für Meats Technology. Sie sitzt in Tel Aviv. Sie ist in Tel Aviv. Sie ist nicht für die Recherche. Sie ist nicht für die Recherche. Aber niemand hat sie nachgefragt. Ich habe sie ausgesucht. Ich habe sie ausgesucht, weil mir jemand gesagt, Israel sei gut für Daten. Ich habe sie ausgesucht, weil mir jemand gesagt, es sei eine coole Stadt für die Startups. Ich habe sie ausgesucht, weil mir jemand fragt, ob ich sie ausgesucht habe. Das waren die Filme, die in Frage kamen. Wir haben ein paar Foto- und Recherche gemacht. Die Unternehmen sammeln, die Daten sammeln und die Daten sammeln. Das sind die Daten, die ich brauchen. Da haben sie ausgesucht, dass sie das Geld zu übernehmen wollen. Das sind die Daten, die ich habe. Die Daten, die ich着mrei habe. Das ist ein gigantisches Universum. Das ist ein gigantisches Universum. Es ist ein gigantisches Universum. Ich habe die Daten, die ich sellsen würde. Das ist ein gigantisches Universum. Besonders interessant ist diese Firma hier. Sie analysieren das Internet-Market. Das ist ein ziemlich wichtiges Internet-Market. Sie haben viele Daten. Ich habe mich bereit, mir ein kostenloses Sample zur Verfügung zu stellen. Viele dieser Firmen haben mir die Daten, die ich hatte, eine freie Sample gegeben. Also, ein oder zwei Samples kamen. Eine war wirklich groß. Was war da drin? Wir hatten ca. 14 Tage live Zugriff. Die Daten, die immer wieder frisch waren, waren updateiert. Es waren 3 Millionen Jungen. Wir hatten die Zugriff-Daten von einem Monat. Wir hatten die Zugriff-Daten von einem Monat. Wir hatten die Zugriff-Daten von einem Monat. Wir haben uns geschaut, um zu sehen, was passiert, wenn wir an die Polizei und die EU schauen. Anas-Party ist vorbei. Alles, was ich gemacht habe, ist, um die Privaten zu protekten. Das ist der Blick, wenn Sie es schon ein bisschen haben. Sie sehen, in dem 2016-System Google aktiviert. Dann schauen wir uns für ein Auto. Bei 5.30 Uhr kann man alles gleich eingeben. Man kann die Daten schon benutzen. Das ist interessant. Jetzt wollen wir wissen, was man mit der Polizei tun muss. Was ist das, was hinter der Daten ist? Wenn wir die Daten durchschauen, habe ich ein Video gemacht, um die Daten zu sehen, wie tief sie gehen, wie intensiv sie sind. Man kann schauen, was er ist, was er ist, was er ist. Er ist auf der Website von der German-Polizei-Union. Er ist ein Dekoder. Hier haben wir eine Investigation für die Computerflotte. Ich brauche some information regarding an IP-Adress, which I have privatized. On that time, the data is needed for an investigation. And the person already translated his own e-mail address. So, that is a request for personal data from an internet service provider, which the commissar translated. So, what we will find about this person in this data, we can scroll further through his life on the internet. And now we see, he is working. And what he is doing, he uploads Melvert, Melvert-Portals, he is tracking IP-Adresses, he is listening to German radio. And something, which is slightly funny, looks like he somehow looked up the local host IP-Adress in Google. Jetzt haben wir nur mal nach adpolizei.de gesucht. Now we looked at adpolizei.de. What if we look for block.feifei.de, a German IT portal. So sieht dann so eine Abfrage aus. That is how the query looks. Man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, man sieht, Es ist ja auch sehr komisch, wenn man in diesem Datum identifiziert ist und es ist gefährlich. In den nächsten 15 Minuten möchte ich zeigen, was die Analymisation ist, wie es funktioniert und was das Problem ist. Wir beginnen mit dem Datensatz. Es gibt immer ein Datensatz von einem analymierten Datum, die man analysieren will. Das Datensatz hat viele Artikel. Einige von diesen Artikeln sind identifiziert, das heißt, sie sind nach Datenschutzrechten schützt und dürfen nicht mit einer bestimmten Person verknüpft werden. Sie sollten nicht zu einer eigentlichen Person verknüpft werden. Und das ist, warum das Datum in der ersten Pläne ist. In diesem Datensatz haben wir eine Idee oder eine Identifier, die den Namen der Person verknüpft hat, und die man nicht mit einer realen Person verknüpft hat. Auf der anderen Seite haben wir auch öffentliche Information. Auf der anderen Seite haben wir auch die Internet- und anderen Sources, die man für frei und öffentliche Information verknüpft. Das haben wir auch mit den Attributs von Personen. Und da haben wir die realen Names oder anderen Daten, die man mit einer realen Person verknüpft hat. Das zeigt, dass man eine reale Person verknüpft hat. Und die Anonymisation ist usually searching for attributes, which you find in both datasets in the public and in the anonymized user data. And they allow, based on statistical data, machine learning, the real candidates to select the real users by comparing both data. So, I can tell that a user, which is specifically identified in public data, is a specific user in the anonymized data. And then the user has been de-anonymized. As we have said, the dataset we used, it is not anonymized very well. It was very easy to identify the actual users and the real person's name. And usually one URL was enough. I have a few examples from Twitter and from Xing. And both are URLs, which show either the user account name or the real name or the additional data on the person. And what allows the identification is, since the analytics page is only seen by the logged individual, if I have this URL in my dataset, then I know the username is the username of the actual anonymized person. In the second case, it's not as clear. There's a public profile address, which you could also find on the Internet. But the difference is, there's a specific query that is only added in the URL, if you are logged in and you are clicking on your own profile. And here's also a very high probability to identify the user in the data and match it to the owner of the profile. In our dataset we identified 100.000 people and we notified both companies. And Xing already made changes. And Twitter does not think this is a problem and does not want to make a change. The first takeaway is, basically you should not put person or person will identify information in your URL and your applications. Natürlich gibt's noch etwas weitergehende Verfahren und additional ways to de-anonymize data, which are better anonymized. Eine schöne Arbeit hierzu ist das Paper. Das ist ein guter Publikation. Wo ist die Forscher mit einem Datensatz beschäftigt haben, der von Netflix publiziert wurde und der also anonymisierte Bewertungsdaten von Netflix-Usern. Sie analysen die Datenanalyse-Plattformen mit dem Ziel, dass andere Data-Scientists, Datenforscher sich mit den Daten auseinandersetzen können und auf die Weise bessere Bewertungsalgorithmen für neue Filme finden können. So, bei Netflix, was Algorithmen besser als die Datenanalyse für die Menschen, die für verschiedene Infos schauen. In diesem Fall war das beispielsweise die Nutzer auf der Plattform IMDB abgegeben haben, wo also Nutzer auf Filme bewerten können wie bei Netflix und wo oft Nutzer, Accounts oder Konten mit dem wirklichen Namen des Benutzers verknüpft haben. Die Forscher haben also geschaffen, indem sie die Bewertung von IMDB herangezogen haben und diese mit den Bewertungen auf Netflix verknüpft haben. Und die Nutzer auf Netflix haben hohen Wahrscheinlichkeiten, mit denen die Nutzer auf IMDB zu identifizieren. Das heißt, hier war eine Analyse, wo ein paar da ist, dass es sehr, sehr viele mögliche Kombinationen für das gibt. So, da sind sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr, sehr. So, das ist der gesamte Steller Tumblr-awayồi. Hier ist der convers次 gesenden�니다. Auf jeden Fall, Und das hat uns die ganze sämtliche Information, außer der Domain und der Nutzer-ID aus dem Datensatz entfernt, die Informationen über die User-IDs und alles, based auf den Fakt, dass der User-Domain diese Partikel-Domain hat, um die Nutzer dafür zu schützen, wieder deanonymisiert zu werden. Wir haben weiterhin auch die Anonyme von den Anonymisation-Techniken, die wir nicht genug haben. Und wir können die Verkonstruktion der exakten Data-IDs für die User. Für Nutzer, die relativ wenige Datenpunkte haben, auch die meisten Techniken nicht anwendbar sind. So, wenn man sich jetzt die Verteilung der Häufigkeiten der Domain-ID-Domain schaut, hier auf der Exakt-ID, die Popularitätsrang, eine entsprechende Domain-ID-Domain, dann hat man hier beispielsweise Google, Facebook, Google, Facebook und other Candidates, auf der Exakt-ID, die von dieser entsprechenden Domain in dem Datensatz stammt. Und wie man sieht, wenn man die 100 populärsten Messungen in der Datensatz nimmt, sind die schon bereits verantwortlich für mehr als 99% der gesamten Daten in unserem Datensatz. Also, wenn man die Verteilung danach relativ schnell hat, also es gibt eine Menge Domains, und es gibt auch eine Menge Domains, die von einem Nutzer besucht wurden. Das hat mit den Visiten einfach gesagt, für etwa von einem User, den man nicht will. So, es hat es ziemlich leicht gemacht, die Anonymaise von den populären Domain-ID-Domains auf Google und Facebook anzuwenden. Aber es war sehr schwierig, die eigentlich nicht möglich, die Anonymaise auf der Webseite, die von einem oder zwei User oder Datenpunkten wieder zu identifizieren. So, den ersten Schritt, den wir noch mitkommen, unsere Deanalysierung vorzunehmen, in our Deanalysing. Dafür legen wir eine einfache Tabelle an, wo wir in jede Zeile entsprechend einen Einzug für einen Nutzer machen und in jede Spalte einen Eintrag für eine Domain. Und in every cell of it, wir puten Domain. So, basically, wir haben hier 0, 1 und all those cells. So, if the user has visited that particular domain, we'll put 1, we'll fill it with color. So, we have, say, for example, one median entries for a user. And we can also representate and can easily be processed for the next steps. Then after we fill these metrics, we'll easily use it for the next steps. So, again, the first step is to generate these metrics. Then we calculate the vector and fill it with information about the domains that the user has visited. And then we will compare it to the data that we have on the dataset. Then we'll multiply it to the metrics. And we'll get for every user, we'll just get one number. And then we'll get a very, very simple method. It's very robust und auch sehr ... This will allow us to easily figure out how to find that user in the dataset. So, this has been always quite abstract. So, we'll just go through the steps one by one. We'll take the different domains which the user has visited and see how many users have visited the same, could have visited the same site. So, for example, we'll get 14.000 480 users. And then we'll see that 15.000 of them have visited the site geog.com. And we'll also see that there are out-of-the-sets there are 366 users of the Kunden Santa Telekom. And we'll see that out-of-the-sets that also use the backing to Sparta.de, then we get the number of users that use the backing in this particular backing by users of the Telekom.de and the visited geog.com. Das heißt, hätten wir diese 4 Informationen aus öffentlichen Datenquellen extrahiert, könnten wir schon mit Sicherheit sagen, welcher Nutzer in unserem Datensatz wird. So, jetzt ist natürlich die Frage, wie gut funktioniert das Verfahren in Abhängigkeit auch davon, wie viele Informationen ich denn überwachen kann von dem Nutzer. So, obviously the quality of this approach will be based on how much information we have about the user. This will also depend on what websites we have actually the scripts installed in the user. So, in this case we will try to download my say 200 users in diesem Fall, we directly in our site 100 users in this case we try to download my say 200 users in this case we try to download my say die anderen Daten übereinzustimmen als der wirkliche Kurser. So, wenn wir diese andere Domezzer links erhöhen, also wir können zum Beispiel 100 gehen, sehen wir, dass dieser Wert schon rapide abfällt. Das heißt, hier habe ich schon die Anzahl der möglichen Nutzer. Ich habe jetzt die Anzahl der number of additional users accounts, which could be mapped to our real user. Und ich habe das 225 und wenn ich die additional domains adde, dann würde ich in der Lage wirklich den Nutzer eindeutig wieder zu identifizieren. Dann würde ich den User ohne Probleme identifizieren, so dass es keine Schwierigkeiten gibt, in identifizierenden E-Aktionspersonen zu identifizieren. Natürlich ist das alle eine Theorie, ob ich diese öffentlichen Informationen somehow bekommen kann oder ob es unrealistisch ist, um die actualen Daten zu bekommen. Also, ich habe die Daten und die additional öffentlichen Informationen gebraucht, um die realen Menschen als Experiment zu de-analysen. Das sind drei Gesamte, die dieses Twitter-Datac erfüllt haben. Wir haben, wir haben eine Person, die einen Twitter-Account hat, durch die Vendant-Chance verwendet und die URLs, die dieser User in eine spezifik timeframe die URLs, die er liked und provided to others, we generated the domains from these shares and we used our algorithm on these domains. Wie wir sehen haben wir, wir haben einen Nutzer dabei, wir haben H-Domains für diesen User in den Time-Frame, die wirklich populäre Domains wie Github, Github, Change.moral und Blocks, which is our tab.wordpress.com, which only 129 people are visiting and a few smaller websites. Wenn wir uns anschauen, wir schauen, welchen Nutzer aus unserem Datensatz haben, in welchen Users in our dataset visited at least one of these domains in the specific timeframe und match these users against the domains from these datasets, we get this graphic as a result, which has at least 110.000 users, who we did at least once and how many of them are. Es gibt sehr, sehr viele Nutzer, die mindestens eine hier konzentrieren. There are a lot of users who visited at least one of the pages. If we go up to three or four of them, the number is reduced. And when we look at seven domains, we have one user and that is actually the user we want to do the anonymize. So we have 100% success rate to the anonymize people. In den meisten Fällen, we tried to identify the correct user, but in most cases it was at the end 10 to 15 users at the end. Das zweite Beispiel, das ich jetzt noch zeigen möchte, anhand von YouTube-Daten, ist YouTube-Data gemacht worden. Oft ist es so, dass viele Daten in solchen Daten analysiert werden, dass es indeed anonymisiert werden. Aber die Daten sind ausgestattet, weil die Firma auf hoher Interesse mit Daten verwendet hat. Für Beispiel YouTube. Für die Kunden wollen wir wissen, welche Videos und Kombinations die User haben, welche Videos, die Marketing-Infekt haben. Ihr denkt nicht, dass die Daten auf öffentliche Videos sind. So, wir versuchen, das zu verwerfen. Wir haben eine Person von Chancen getestet. Wir haben die Favoriten der YouTube-Videos angeschaut. Diese sind in Ordnung ein Publikum. Und der Accountowner kann das machen, aber 90% von den User haben sie nicht. Also, der Watchlist ist ein Publikum. Wir haben eine YouTube-Ati, um alle Video-IDs zu bekommen. Wir haben diese Video-IDs mit den kompletten URL-Daten. Die Domain ist ja nicht die Video-IDs enthalten, weil die Domain nicht in der ID ist. Es ist nur in der URL. Also, wie vorher haben wir diese IDs? Wir haben die IDs und haben auf der anderen Seite sämtliche Nutzer. Und hier haben wir alle User, die einen von diesen Videos angeschaut haben. Und diese sind rund 20.000 Menschen. Und viele Leute haben einen von diesen Videos angeschaut. Aber es ist weniger und weniger angeschaut. Wir haben mehrere dieser Videos angeschaut. Für vier oder fünf Videos haben wir nur ein Handvoll von User. Und da ist ein Hit sehr hoch. Es sind neun Videos. Und wiederher, das ist der User, der wir in den ersten Platz schon selektiert haben. Es ist einfach, einfach mit ein paar Datapoints. Auch wenn es viele User sind, über 1 Million User zu locken. Und es ist so, dass das YouTube-Verfahren besser funktioniert. Das funktioniert besser als Twitter. Weil wir denken, dass es mehr Videos auf YouTube gibt, als Domain. Die YouTube-Video-IDs sind gut. Es ist besser als Twitter. Das letzte Beispiel, das ich zeige, ist auf der Analyse von Geodat. Wir haben geografische Data. Wir haben aus unserem Datensatz Geodaten gefordert. Und wir haben herausgefunden, dass es sehr einfach ist, mit Google Maps-URLs. Wenn du an einen bestimmten Ort schaust, dann gibt es die Koordinaten. Wir konnten aus unserem Datensatz einige Millionen von diesen Koordinaten several Million Geodata von unserem Datensatz eine Gruppe der Accounts. Wir haben einen Map der User-Aktivität in Europa gemacht. Was haben sie angeschaut, wenn sie nach ihren Arbeitsorten oder für den Weg in die Magierbeschreibung, oder für eine Spezifik, eine Wege, eine Route. Wir haben geografische Data. Geodata sind sehr interessant, weil es sehr schwer ist, um sie zu ändern. Es ist sehr leicht, um die Videos zu verbinden. Aber es ist sehr schwer, um die Plätze zu verändern. Diese Informationen sind sehr dick. Sie können auch wieder aus verschiedenen öffentlichen Quellen informationen externiere. Sie können auch auf several Public Sources, Flicker oder Ficker, weil viele Fotos Geodata sind. Sie können dann mit dem Datensatz viele Informationen mit dem Datensatz geredet werden. Hier ist es auch so, dass wir über eine kleine Anzahl, also weniger als die Datenpunkte im Idealfall, entsprechend den einzelnen Nutzer ein bisschen mehr Datum zu benutzen. Eine Frage, die ich häufig gestellt bekommen, ist, kann ich mich... kann ich in meinem Datum halten? Kann ich, weil ich unruhig oder verändert bin, bei den Webseiten zu sehen, das schaue ich mir nicht an. Kann ich nur den Algorithmen feststellen? Das probably won't work, für den einfachen Grund, was wir machen, über die Relation der Person, der in ist oder nicht in ist. Ich kann nur Datum zu meinem Vektor geben, aber ich kann nicht mehr nehmen. Also, wo ich die Datum zu identifizieren habe, kann ich mich als viele Datum zu identifizieren, als ich möchte, aber ich werde nicht für einen anderen User verletzt werden. Das ist sehr robust gegen Data-Changing bei den User. Ein weiterer Punkt ist, dass diese Data-Poins, die viele Dimensions und Informationen haben, es ist wirklich schwer, die Analyse zu entdecken. Es ist wirklich schwer, die Analyse zu entdecken. Man kann immer sicher sein, dass all das, dass die Daten von den anderen User verletzt werden. Mehr und mehr public information Data-Poins ist available. All das, dass Data-Poins mit neuen Data verletzt werden. All das, dass die Analyse mit neuen Data verletzt werden. Und wie wir das gesehen haben, sind manchmal viele Data-Poins zu identifizieren, zu identifizieren. Aber was bedeutet das für uns? Was bedeutet das, wenn man mit ihren eigenen Daten die Data-Poins verletzt werden, wenn jemand anderen mit ihren eigenen Daten konfrontiert? Die Data-Poins war für eine politische Magazine und wir schauen für Politiker und their employees, some from the SPD, some from the Grünen and one from Lars Klingbe, and up to the another employee of the transitory. But because the employees are much more interesting than the politicians themselves because they plan the travels, they do all the political work. So, not everybody wanted to talk with us especially not in front of the camera. One who did it was Valerie Williams before we listened to her let's look in her data. She was okay with publishing it in this talk because here I did not anonymise everything like in the last data set. So in the first of the eight she got up early, first banking, even more banking. So we already know that for example she has these bank accounts. We can't access the bank accounts themselves but we know where they are. A bit less favourable trust the end of August. A lot of people have done their taxes and we can scroll down here in the videos so we can see more of her tax report. So first of all we can see also online we can't access the URLs we can get more information because they will request a password. However we can't see which preprints we are looked at and we can get information about her through those through the things she intends to pay taxes on. There are a lot of details about that. Yes. What did she say about that when we asked her in her office? Let's listen to her. Shit, everything can be seen. There was another story we talked with her about they are not only taxes but you can also look at medicine which is taken with tinnitus and this is especially a big problem for politicians. When these information are published people might take wrong conclusions or they can force you to do something about it. So we talked with her and I don't want to I don't know why I looked at Tibonin. It's not nice to read this afterwards especially if it's connected with your own name. Yes, that's Valerie Wilms about her data. So this short clip shows us how complicated the data is. I didn't show about the contracts where people talk about their sexual preferences because this is about relevant political positions of course there are judges in this data of course there are of large companies in this data they are all humans and they all have dreams and thoughts and it isn't something that should be placed in the hand of third parties so everybody we talked about in this research were very shocked about it but who spied on them where is this data from was it a shady trojan on their computer that are we quite early noticed that there were browser plugins and we did a small test we asked the user to deinstall addons and we noticed that web of trust what do they do save web search and browsing yes we tested that again the clean browser in the virtual machine while we had the opportunity to look live into the data and one security specialist did that for us we tried a clean browser in just this one plugin and we could see him in the data so we could be sure that this plugin really published this data to this data being there so why is this tracking by app or extension so interesting for the companies everybody wants data about every customer as possible want every data about the user with most trackers as a user you look at a website and then a javascript app or a different tracking methodology is used and connects with a tracking server or saves some data that follows you as a user a lot of people went on the barricades against that and many users use blockers against those tracking scripts all that block reconnection so it's harder and harder for the tracker to get a good data so it's obvious to use such methods as add-ons and use them to open the security features of the browser and use the side channel to give this information to the tracking server that has another advantage for those who offer the data they can't they can not only track all data with tracking pixels but also without tracking pixels for example so we can we have data about fewer users but a lot more data about those and in the worst case a complete browsing history of that specific user and we can we looked at our data at how many extensions there are and we have another double logarithmic plot we have the range of that extension so extensions with better data get more hits or more points on the other side we have the number of data points so the most popular extension was already used for up to billion data points so 10% 10% of the data is covered by them so few extensions offer the most of the data nearly 10.000 different application IDs are here some have a few hundred or sometimes up to a million data points it isn't always sure that there are really 10.000 different extensions we have no way to know what applications are behind those application IDs so to have a better view how bad a web store is we looked at an behavior so we took a chrome browser automatically installed different extensions and with this web driver we browse different to different websites while we looked logged which websites are called by the browser when we looked at specific sites so we could follow and we could see whether the browser sends additional information to third parties when opening a website so we looked at 500 plugins and as you can see most are expected the expected number of URLs for the test data we used and at the same time there are a few extensions like this one that are strange that does a lot of URL requests but looking at it more closely this extension also sends data onto a third party service with every open URL from those 500 supervised URLs just a few really had were malware so the probability that you infect yourself with such plugin is not that high at the moment but it appears to grow can I protect myself against such data such leaks so I assume that in a few years despite clients blocking of trackers it gets harder and harder to move anonymously in the internet because just a few data points are enough to identify data of a certain anonymized user so even if I block all trackers there's still my AP address and my user agent the combination of several such identifiers can't be enough to identify myself so if I want to be securely on the internet I will have to be sure that I change a lot of these data commonly maybe using VPN with commonly changing AP addresses but that is no guarantee that you are not tracked so it gets harder and harder to move in the internet without being in the risks of being the anonymized so so what are the results for this study like conclusions so these came soon after the application so WOT und das haben natürlich sehr viele Nutzer ist no longer became available in the Chrome Web Store so it also is no longer the Mozilla Store aber natürlich so there was a number of users who uninstalled the plugin but there is still a number of users who still keep using those plugins at least a couple of weeks after the end of the research so mein persönliches Fazit so my personal takings from these Andreas hat schon angedeutet so Andreas hat schon nicht auf die Stores verlassen so we cannot rely on the stores und selbst überlegen for them to protect us actually look into the plugins or prevent the spine so we are getting to the end of our talk so this is just like some overview of a huge topic sitzen in der ersten Reihe danke schön and like in on the first round there is one of the big people helped me in this research thanks a lot so wir haben noch ein wenig Zeit für Fragen so we have a little time for the questions if anybody has got a question please move to one of the microphones so ich sehe Bewegung so I can see some movement so it's gonna be the first question maybe no one for those who don't speak English but it's been okay so we got a microphone 6 angenommen die Person oder die man die öffentlichen Daten sammelt ist nicht im Pool von den anonymisierten Daten dann gibt es die Möglichkeit für ein false positive und dann kann man das aussehen if the people that we are looking for are not in the data set then we can come to the false positive yes, of course we can come to false positive von der Nutzung der Daten ab ob das problematisch ist oder nicht für den Anbieter es kann auch sein, wenn ich beispielsweise Nutzern veranzeihe und den Nutzer mit einer Wahrscheinlichkeit von 10% schon identifizieren ich kann auch mit false positives oder der andere kann mit false positives ich kann natürlich immer die Möglichkeit geben dass der Nutzer nicht im Datensatz vorhanden ist, auch entsprechend identifiziert wird und das kann natürlich für den Nutzer selber zu großen Problemen führen wenn ich da mal identifizieren kann dass dies nicht über Maschinen-Berlin wo ich als Beispiel in der Kredit-Score meine Maschinen-Berlin und Datenpunkte die ich nicht kontrollieren kann entsprechend meine Kreditwürdigkeit dann bei einem Fussendrücken gut, eine Mikro 3 bitte meine persönliche Frage ist, was genau ist was genau kann sich die kleinere, mittelgroße, private Adektheit, die auf Datenschutz scheißt können die sich züggeruhen ja weiß nicht was die sich mit dc haben aber also diese Daten werden letzensiert, in der Regel ist halt man halt für die Lizenz so vereint ja, ist es so im sechstelligen Bereich und die Braces sie hatten von den 10 schlimmsten gesprochen aber die Liste vergessen was sie gesagt haben also wir haben auch lange überlegt dass wir die Extensions-Berlin veröffentlichen können wir haben allerdings noch keine Zeit gehabt und ich möchte keine Namen von denen, wo sich einander rausstellt dass es eigentlich gar nicht problematisch ist das heißt, wir werden auf jeden Fall dranbleiben und versuchen alle von diesen Extensions-Dienemdatensatz drinnen auch zu identifizieren dass auch entsprechend wir die korrekten Extensions rausfiltern können bevor wir die Namen dann veröffentlichen of course we want to publish that list of the 10 words but we are not sure about all of them so we are looking into that and publish them at a later point hopefully we have another question of the internet so i'm just taking a few questions from the internet to get the main point is there any technical or heuristical means to protect yourself against that kind of attack or has somebody tried to sue against them yes some some information i can give from this we looked at not one of them sued but you can protect yourself against it in some point the problem is most users no problem that the data is connected to this extension so there is a responsibility by the browser creator and we are quite at the point that web of trust is again in the chrome web store and some of those extensions that had been installed previously were not removed so the creator of the browser should be the one to protect the user by checking the extensions before publishing them but they don't do that so do look at different browser creators and maybe look at even shorter smaller browsers which lets use a base they might do a better job is the possibility that the list that has been used for the research is basically being removed from the data set that they provide to other users es fehlt natürlich ein Name der Name der Name ist dafür eingeschoben der Marketing derbeanés style ein Micro 1. Micro 1. Micro 1. Einer der Klassiker ist ja... Was ist die Klassik? Ja, ein JavaScript. Die man vertraut, passen. Wie weit würden wir denn kommen, wenn man jetzt versucht, dass es ein Webpikabogen über IP basiert wird? Kann man sich vertraut, wie sich die IP-Adresses und die Daten ausnehmen? Wie weit wird die da oben in die Misi kommen? Die viele Anbieter bereits verfahren einen. Also, die Meinladung ist, also, wenn die verpuppert sind und die stattdessen auf anderen Identifikationsmerkmalen basieren, die sprechen schwerer zu ändern sind, beispielsweise der IV-Derasse oder der Device, die, oder andere IDs, die entsprechend fix sind und getrackt werden können über die Zeit. Also, relativ einfach, zumindest eine Ohr-Wahrscheinlichkeit möglich, Nutzer über für viele MP, die identifizieren. Und ich kann mich natürlich gegen der freien Seite getrackt schützen, aber das heißt nicht, dass ich mich gegen diese anderen Tracking-Maßnahmen auch schützen kann. So, there are, of course, different ways you can protect a particular user, but they might not be for other users to on the question of deonymizing. Ist es eigentlich possible to make deonymizing more difficult? Ja, das ist in bestimmten Kontext. Anwendbar. Hier, bei den Daten, ist ja das Problem, dass ich selbst in der Data nicht kontrolliere, was ich von mir generiere, weil die Daten entweder unbewusst oder ohne meine Stimmung oben werden. Das heißt, ich kann das Einzige, was ich tun kann, als Nutzer, als zusätzlichen Datenpunkt zu liefern. Ich habe aber keine Möglichkeit, Datensunkte zu zelten oder nur einen sehr geringen Umfang zu nehmen oder auf Datenpunkte wieder zu entfernen. Das heißt, den Sinn haben wir das vermutlich, der weniger angebracht, aber klar, an zweitfallig ist es immer besser, eine Menge Informationen rauszugeben, obwohl es schon ausreicht, wenige kleine Informationen schnipst so zu haben, die man relativ schnell auch zusammenfühlen kann, wie wir gesehen haben. Das heißt, es ist auch wirklich sehr abzuschärft, man denkt auch immer sehr stark von der Natur des Datensatzes ab, wie verräterlich in dem Sinne einzelner Datenpunkte von mir sein können. Ich habe eine naive Frage stellen, die eigentlich quasi möglich oder erlaubt. Es scheint mir doch ein gewisses Gefälle zu sein zwischen dem, was auf der einen Seite gemacht wird und Sie, die jetzt Sorge haben, diese Namen zu nennen, auf der anderen Seite. Es scheint mir ein gewisses, juristisches Gefälle zu geben, das ich gerne vergehen will. Ich habe eine sehr gute Frage, vielen Dank dafür. Wir haben tatsächlich diesen juristischen Aspekt für diesen Vortrag. Der ist aber trotzdem hochspannend und wir haben viele Gespräche mit Datenschützern darüber geführt, auch mit Juristen darüber geführt und haben tatsächlich auch Paragraphen, die wir jetzt genau so diese Frage beschäftigt hat, kann das überhaupt sein? Zumindest was man für Deutschland sagen kann, das ist nicht erlaubt. So was wir sagen können, zumindest für die Germany, ist nicht erlaubt, dass es irgendwo dazu zugestimmt hat. Also keiner der Nutzer, die wir besuchten, hat irgendetwas angekriegt. Ja, ich möchte bitte, dass meine Daten irgendwie so anfangen. Keiner. Das kann sogar nach Aussage kommen. Es könnte sogar eventuell strafrechtlich relevant sein. Also sprich in Richtung... Bislang hat sich noch niemand berufen gefühlt, da tatsächlich sich auch mal jemand dahinter klemmt. Also was wir jetzt so machen, ist, was wir hier machen, ist mal eine Eingabe gibt beim Datenschützer und das dann tatsächlich sich auch mal jemand dahinter klemmt. Also was wir hier tun, ist eine Erweiterung, sodass du vielleicht zu oder zu jemandem zu... ...long a complaint, if you are... On the other hand also the problems, there's a problem that the companies won't have a lot of fines to pay and we would have, if publishing, we would have a high risk. So that's, yeah, a problem. So, what information can I get from you or maybe not get from you? Difficult question. Es ist recht einfach, die Antwort gar nicht. Die Antwort gibt's nicht mehr. So that we don't have the data anymore. Sorry. Kommen wir zu unserer letzten Frage. Okay, the last question please. Hallo? Ich bin immer ein Freund von Selbstvertragungen. Ich bin ein Freund von Selbstvertragungen. Aber die Frage ist, ist das überhaupt möglich? Ist es möglich? So, so komplex. So, so komplex. Die meisten hier sind. Die meisten, die hier sind. Die meisten, die hier sind. Die meisten, die hier sind. Die meisten, die hier sind. Die meisten, die hier sind. Die meisten, die hier... Die meisten, die hier... Ja,iteitendes auch. Das istолько Selbstvertragungen, ja, alles. In der Dataset, so auch diejenigen, die es wissen, können noch geträgt werden, weil wir nicht alle möglichen Werte auf den Aktuellen gehen können und sich gegen sie beschreiben. Es ist wirklich schwer zu wissen, was mit der Datas tun kann. Also, es ist wirklich schwer, es ist keine gute Lösung im Moment. Also, es gibt noch weitere Fragen, aber es gibt noch keine Zeit. Also, wir wollen auch Dankeschön,