 erzählt, dass Norden uns heute zugeschaltet wurde. Und er hat uns aufgerufen, etwas zu tun. Heute hören wir hier ein Talk. Und zwar build your own NSA. Bauer deine eigene NSA. Geheimdienste sammeln Daten, aber sie sind nicht die einzigen. Es gibt auch die sogenannten Datenkragen. An wen denken wir da alle an Google, an Facebook. Wer hier hat einen Google Account? Hände hoch, traut euch. Das sind ganz schön viele. Wer hat einen Facebook Account? Es sind allerdings nicht nur die großen Firmen wie Facebook oder Google, die Daten sammeln. Es sind auch die kleineren Firmen oder Unbekannte, wo wir die Namen noch nie gehört haben. Und Leute, wo wir es nicht erwarten. Wie zum Beispiel ich auf der Bühne. Ich weiß jetzt, wer an Google und Facebook Account bei euch hat. Vielen Dank für die Info. Diese Firmen oder auch ich könnt jetzt hingehen, diese Daten tauschen oder auch einfach an die Leute, die Zahlen verkaufen. Mein kleines Experiment hier war ziemlich lächerlich und natürlich banal, aber Svereckard und Andreas Devis haben ein größeres Experiment gemacht mit einfachen Techniken des Social Engineerings und herausgefunden, was für Daten gesammelt werden kann. In diesem Talk werden sie uns nicht nur erzählen, wer, warum und wie Daten sammelt, sondern ob es auch noch eine Möglichkeit gibt, unsere Privatsphäre zu schützen. Andreas ist Data Scientist und entwickelt Technologien, damit wir Wissen aus Daten extrahieren können. Svereckard ist frei berufliche Journalistin und recherchiert IT-Themen und berichtet darüber für die Tagesschau und die Tagesthemen. Sie hat auch mitgewirkt bei Dokumentationen zu Themen wie Wikileaks, Facebook und dem NSA-Skandal, wo gerade etwas nur in einen großen Teil eingenommen hat. Ich freue mich herzlich, die beiden hier zu begrüßen und bitte euch jetzt um einen ganz ganz lauten Applaus für die beiden und wünsche euch allen viel Spaß. Ja, hallo zusammen. Also wir freuen uns natürlich sehr, dass wir hier sein dürfen heute. Ich habe, wie gesagt, die Datenanalyse für die Recherche gemacht und darf mich daher erst mal entspannen jetzt und übergebe dann das Wort an Svereckard. Ja, ich bin Svereckard, arbeite für den NDR beziehungsweise die ARD und wir haben eine große Recherche gemacht, die ging über den ganzen Sommer und mündete in eine relativ aufsehend berichtende Berichterstattung Anfang November unter dem Hashtag nackt im Netz. Der eine oder andere hat vielleicht dazu sogar was gesehen. Was wir wissen, also wir wissen, dass, wenn wir uns im Netz bewegen, das Firmen das mitbekommen und das Firmen unser Verhalten aufzeichnen und zumindest ein Stück weit sind da verschiedene Parteien beteiligt, die sehen, auf welcher Webseite wir zum Beispiel sind. Also hier jetzt mit einem kleinen Tool, einfach nur so kurz analysiert, sind das jetzt 68 Pantheien, die wissen, dass ich auf dieser Webseite bin und die zum Teil auch die Möglichkeit haben, mich durchs Netz zu verfolgen. Ich denke, jeder hier im Publikum weiß das und also das ist bekannt. Trotzdem stört es die Allerwenigsten, also die allermeisten Internetnotzer sagen, ich habe doch nichts zu verbergen. Da wird schon nichts Böses damit passieren. Die machen ja nichts mit meinen Daten. Es ist ja sowieso nur für Werbezwecke und wenn man mal in der Industrie nachfragt, dann ist die Aussage, also diese Daten werden total gut anonymisiert. Da stecken wir ganz, ganz großen Aufwand rein und verkaufen. Das macht, das macht niemand. So was würde niemand tun. Wirklich? Das wollte ich mir genauer wissen. Wie komme ich an solche Daten? Ich gründe eine Firma. Ich habe also im Juli eine Webseite aufgesetzt. Das ist relativ trivial, Content Management System, paar schöne Fotos, Stockfotos und ein bisschen Marketing-Sprech. Meine Firma Meats Technology, die Vereinigung von Technologie und Kreativität, macht Data Driven Consulting und bote eben Kunden an, Customized Campaigns zu machen. Was brauchen wir dafür? Ganz viele Nutzerdaten und diese Nutzerdaten, an die wollte ich gelagen. Er braucht hier eine tatkräftige Mitarbeiterin, hier ist sie, ihr habt sie mitgebracht. Anna, Anna Rosenberg speaking. Anna Rosenberg arbeitet also für Meats Technology, sitzt in Tel Aviv, spricht kein Wort Hebräisch, konnte ich mir dann nicht aneignen für die Recherche. Barbara nicht schlimm, hat auch niemand nachgefragt und ich hatte Tel Aviv ausgesucht, wo ich die Stadt eigentlich gar nicht kenne, aber ich hatte Tel Aviv ausgesucht, weil mir jemand sagte Israel sei ziemlich gut für Daten, der wäre man nicht so spitzfindig und ich sollte ja kein deutsches Unternehmen gründen, sonst würde ich gar nichts bekommen. Also habe ich Meats Technology in Israel angesiedelt und Anna Rosenberg hat sich auf Telefonjagd gemacht. Das waren die Firmen, die in Frage kamen. Die Firmen, die von uns Internet-Nutzern Daten sammeln, die Daten verarbeiten und meine Frage an diese Firmen war, ob sie mir als junges aufstriegendes Start-up ihre Daten verkaufen würden oder viel eher noch, ob sie mir ein kostenloses Sample geben würden, weil ohne ein kostenloses Sample könnte ich die Qualität der Daten gar nicht beurteilen. Ich habe ziemlich viele von diesen Firmen angerufen, angeschrieben, deren Website mir angeschaut. Ihr seht, dass es ein gigantisches Universum ist und es sind noch längst nicht alle. Besonders interessant sind diese Firmen hier, die machen sozusagen, die analysieren den Internetmarkt, reichern Daten an. Das sind so ziemlich wichtige Player in diesem ganzen Spiel, weil um den Internetmarkt analysieren, brauchen die sehr viele Daten. Der eine oder andere war dann auch tatsächlich bereit, mir ein kostenloses Sample zur Verfügung zu stellen, damit ich die Güte, die Qualität seiner Daten einordnen konnte. Also ein kostenloses Sample. Dieses Sample kam dann auch, also eines ist besonders groß, deswegen ist es auch das, worüber wir jetzt dann sprechen. Was war da drin? Wir hatten 14 Tage so eine Art quasi Live-Zugriff auf Nutzerdaten, sprich Nutzerdaten, die sich immer wieder aktualisiert haben, die immer wieder frisch waren. Das waren drei Millionen deutsche Nutzer in diesem Datensatz. Und das waren sozusagen die Clickstream-Daten, also ihre Clickstream-Daten von einem Monat. Das Clickstream ist sozusagen das Buzzword für Browser-Historien. Wir haben dann am Anfang sehr relativ explorativ mit diesem Datensatz umgegangen, haben einfach mal gegreppt und mal geschaut, was passiert denn, wenn wir in diesem Datensatz nach atpolizei.de suchen? Ist jetzt mal die Brille wieder ab, weil anders teil ist nämlich jetzt durch. So. Alles was geext ist, habe ich gemacht, um die Privatsphäre dieser Person zu schützen. So sieht es dann aus, wenn es ein bisschen aufbereitet ist. Man sieht jetzt hier zum Beispiel 1.8. 2016, 5.17, Rechner an, Google. Dann wird relativ schnell nach einem Auto geschaut, 5.30, das habe ich jetzt mal offen gelassen, kann man dann auch alles gleich eingeben. Alles klar, er sucht ein Volkswagen, in der in der Kategorie. Interessant. Gut. Jetzt wollen wir natürlich wissen, was hat der mit der Polizei zu tun? Was für ein Mensch steckt hinter diesen Daten? Und wenn man jetzt sozusagen sich da mal ein bisschen durch scrollt durch diese Daten, ich habe das jetzt als Screenvideo gemacht, damit man mal so ein bisschen auch besser die Dimension begreifen kann, wie groß die Tiefe dieser Daten ist und wie intensiv die sind. Man kann also gucken, was liest der, was sucht er und irgendwann ist er mal auf der Webseite von der Deutschen Polizei Gewerkschaft und auf dem Deutschen Beamtenbund. Könnte ja ein Polizist sein. Schauen wir doch mal nach so einem typischen Wort wie Ermittlungsverfahren. Ah, okay. Ein Google Translate Link. Schauen wir doch mal, ich schmeiß mal ein Decoder, da ist es. Sehr geehrte Damen und Herren, im Rahmen eines hier bearbeiten Ermittlungsverfahren wegen Computer- Betrugsakten zeichnet habe ich jetzt rausgenommen, benötige ich Bestandsdaten zu folgende IP-Adresse, habe ich rausgenommen, Zeitstempel und netterweise hat dieser Nutzer in Google Translate auch seine E-Mail-Adresse mit übersetzen lassen, seinen Vor und Nachnamen den Ort und die Telefonnummer. So, wir können jetzt schauen, was erfahren wir über diesen Menschen in diesen Daten? Können also noch mal weiter scrollen durch sein Leben im Netz und sehen, dass er arbeitet, also sehen ungefähr, was er arbeitet, dass er Malware Submissions macht, zum Beispiel, dass er IP-Adressen verfolgt, aber auch, dass er SWR hört und natürlich so die Peinlichkeiten im Leben sind da natürlich auch drin. Jetzt haben wir nur mal nach adpolizei.de gesucht, was wäre, wenn wir mal hier gucken, haben wir auch gemacht. So sieht dann so eine Abfrage aus, wenn man das so, sag ich mal so, explorativ einfach macht, wie wir das gemacht haben. Wichtig ist, dass was zwischen den Anführungszeichen steht. Man sagt mit diesem Befehl dem Computer, gib mir alles, gib mir jeden Nutzer, der jemals diese Webseite besucht hat. Und man sieht also, dass auch Leute, die, ich würde mal sagen, sicherheitskritisch sind, in diesen Daten drin sind. Was passiert, nur, wenn man all diese Nutzer de-anonymisieren würde, könnte man sie denn alle de-anonymisieren? Ja, wie wir gesehen haben, ist es im besten Fall etwas peinlich, wenn man als Nutzer in solchen Daten identifiziert wird. Im schlimmsten Fall kann es auch gefährlich sein für die eigene Person. Deswegen möchte ich in den nächsten 15 Minuten ein bisschen darauf eingehen, was de-anonymisierung eigentlich heißt, wie das funktioniert und was das Problem dabei ist. Dafür können wir anfangen mit dem Datensatz. Es gibt immer Datensatz von anonymisierten Nutzerdaten am Anfang, den man analysieren möchte. Und dieser Datensatz enthält viele verschiedene Eigenschaften. Und einige von diesen Eigenschaften zumindest sind sensitiv, das heißt, sie sind nach Datenschutzrecht geschützt und dürfen nicht mit einer bestimmten Person verknüpft werden. Weswegen der Datensatz ja im Endeffekt auch anonymisiert wurde. Und statt einer Zuordnung zu einer konkreten Person hat man in diesen Datensätzen daher einfach beispielsweise eine mehrere ID oder ein Identifier, der keine Rückschlüsse im Idealfall auf die wirkliche Person, die sich hinter den Daten verbirgt, erlaubt. Auf der anderen Seite habe ich aber auch öffentliche Informationen, zum Beispiel aus dem Internet oder aus anderen Quellen, die ich mir frei zusammensuchen kann. Und solche öffentlichen Informationen enthalten auch Eigenschaften von Personen und enthalten zudem oft den Namen oder andere Identifikationsmerkmale der Person, die also Rückschlüsse auf die wirkliche Person zulassen. Und Deanonymisierung beinhaltet in diesem Sinne eine Suche nach Eigenschaften, die ich in beiden Daten setzen, entweder direkt oder indirekt identifizieren kann und die mir erlauben aufgrund von beispielsweise statistischen Verfahren oder Machine Learning, die möglichen Kandidaten aus dem Identifizier, aus dem anonymisierten Datensatz soweit zu reduzieren, dass ich mit entweder absoluter Sicherheit oder mit relativ hoher Wahrscheinlichkeit sagen kann, das Einnutzer, den ich hier in den öffentlichen Daten gefunden habe, dem Nutzer in dem anonymisierten Datensatz entspricht. In dem Sinne habe ich diesen User dann deanonymisiert. Wie es wer gesagt hatte, ist der Datensatz, den wir bekommen haben, absolut unzureichend anonymisiert worden. Das heißt, es war sehr, sehr einfach möglich aus den URL-Daten, die wir erhalten haben, entsprechende Nutzer und Personennamen zu extrahieren. Im Zweifelsfall hat er für eine einzige URL ausgereicht. Hier habe ich zwei Beispiele. Einmal von Twitter und einmal von Xing. Das sind also beides URLs, die Rückschlüsse entweder auf den Nutzernamen oder sogar auf den Klarnamen und weitere Angaben von der Person zulassen. Und das, was die Identifikation hier ermöglicht, ist bei der ersten Adresse oben, dass diese Analytics-Page nur im Normalfall dem eingelockten Benutzer zur Verfügung steht. Das heißt, wenn ich diese URL in meinem Datensatz sehe, kann ich mit relativ hoher Wahrscheinlichkeit davon ausgehen, dass der Nutzername, der hier auftaucht, dem Nutzernamen des anonymisierten Nutzers in meinem Datensatz entspricht. Im zweiten Fall ist es etwas weniger offensichtlich. Man kann also nur sehen, dass man hier eine öffentliche Profiladresse hat, die man auch so im Internet finden kann. Was aber den Unterschied macht, ist diese spezielle Query, das hinten dran hängt und das nur in die URL hinzugefügt wird, wenn ich als eingelockter Benutzer auf mein eigenes Profilbild klicke. Das heißt, hier ist wieder mit einer relativ hohen Wahrscheinlichkeit die Möglichkeit gegeben, einen Nutzer, der in den Daten drin ist, eindeutig mit dem Besitzer dieses Profils zu identifizieren. Und in unserem Datensatz haben wir über 100.000 Nutzer auf diese Weise identifiziert. Wir haben auch die beiden Firmen übrigens auf diese Sicherheitsprobleme aufmerksam gemacht. Xing hat hier entsprechend schon Änderungen eingeführt und Twitter hält das nicht für ein Problem in diesem Sinne und möchte da keine Änderungen machen aktuell. Also das erstes Takeaway könnte man vielleicht von dem Vortrag auch mitnehmen, dass man bitte, bitte keine persönlich identifizierbaren Informationen in URLs packt, wenn irgend möglich. Natürlich gibt es noch etwas weitergehende Verfahren, um auch Datensätze zu anonymisieren, zu deanonymisieren, die etwas besser anonymisiert wurden. Ein schönes, eine schöne Arbeit hierzu ist das Paper, das aus dem Jahr 2007 stammt und wo sich die Forscher mit einem Datensatz beschäftigt haben, der von Netflix publiziert wurde und der also anonymisierte Bewertungsdaten von Netflix-Usern enthielt. Der Datensatz wurde auf eine Datenanalyseplattform hochgeladen mit dem Ziel, dass andere Data Sciences-Datenforscher sich mit den Daten auseinandersetzen können und auf die Weise bessere Bewertungsalgorithmen oder Empfehlungsalgorithmen für neue Filme finden können. Und die Deanonymisierung dieses Datensatzes war in diesem Fall möglich, ebenfalls durch die Nutzung von öffentlich verfügbaren Informationen. In diesem Fallen war das beispielsweise Bewertungen, die Nutzer auf der Plattform IMDb abgegeben haben, wo also Nutzer auch Filme bewerten können wie bei Netflix und wo oft Nutzer, Accounts oder Konten mit dem wirklichen Namen des Benutzers verknüpft sind. Und die Forscher haben also geschafft, indem sie die Bewertungen von IMDb herangezogen haben und diese mit den Bewertungen auf Netflix verglichen, die User auf Netflix mit einer hohen Wahrscheinlichkeit, mit denen Usern auf IMDb zu identifizieren. Das heißt, hier war eine Deanonymisierung einfach dadurch möglich, dass es sehr, sehr viele mögliche Kombinationen von Filmen gibt und es sehr unwahrscheinlich ist, dass zwei Personen die gleiche Anzahl von Filmen auf die gleiche Weise bewertet haben. Und diese Technik kann man auch auf unseren Datensatz anwenden. Diese enthält wie gesagt circa drei Milliarden URLs von neun Millionen Domains und wurde von circa drei Millionen Usern generiert. Da die Daten wie gesagt unzureichend anonymisiert wurden, haben wir für die weitere Analyse einfach mal angenommen, dass der Anbieter wirklich ein Interesse daran hätte, die Anonymisierung korrekt oder möglichst gut durchzuführen und dementsprechend sämtliche Informationen außer der Domain und der Nutzer-ID aus dem Datensatz entfernt. Das heißt, wir haben alle Informationen weggeworfen, bis auf den Fakt hat dieser Nutzer diese Domain in dem Zeitraum besucht, ja oder nein. So, also man könnte annehmen, dass diese starke Form der Anonymisierung doch ausreichend sein sollte, um die Nutzer dafür zu schützen, wieder deanonymisiert zu werden. So, wir haben weiterhin auch eine Auswahl getroffen von einer Million Nutzern, von denen wir über zehn Datenpunkte haben, weil das die Analyse für die weiteren Schritte vereinfacht und für Nutzer, die relativ wenige Datenpunkte haben, auch die meisten Techniken nicht anwendbar sind. So, wenn man sich jetzt die Verteilung der Häufigkeiten der Domains in dem Datensatz anschaut, also hier auf der X-Axis immer der Popularitätsrang in einem entsprechenden Domain aufgetragen, das heißt je weiter links die Domain hier auftaucht, umso populärer ist sie. Man hat hier beispielsweise Google, Facebook und die anderen üblichen Kandidaten. Und auf der Y-Axis ist die Anzahl der URLs aufgetragen, die von dieser entsprechenden Domain in dem Datensatz stammen. Und wie man sieht, wenn man die hundert populärsten URLs, Domains, Entschuldigung, nimmt, generieren, sind die schon bereits verantwortlich für mehr als 99 Prozent der gesamten Daten in unserem Datensatz. Das heißt, die meisten Seitenbesuche finden auf den Top 100 Domains dieser Liste statt. Wie man sieht, fällt die Verteilung danach relativ schnell ab, also es gibt eine Menge Domains, die nur ein paar hundert Mal oder sogar nur zehn oder ein einziges Mal von einem Nutzer besucht wurden. Das hilft uns bei der Anonymisierung, weil wir gleichzeitig die Möglichkeit haben, über diese populären Domains, die fast jeder User besucht hat oder von denen jeder User fast eine besucht hat, eine entsprechende Auswahl zu treffen und unsere Kombinatorik darauf anzuwenden, aber wir gleichzeitig auch diese Long-Tail-Domains haben, die also nur von wenigen Nutzern besucht wurden und die entsprechend sehr gut sich eignen, um einzelne Nutzer wirklich mit wenigen Datenpunkten wieder zu identifizieren. So, den ersten Schritt, den wir machen müssen, um unsere Deanalysierung vorzunehmen, ist das Katakulisieren der Nutzer. Dafür legen wir eine einfache Tabelle an, wo wir in jede Zeile entsprechend einen Eintrag für einen Nutzer machen und in jede Spalte einen Eintrag für eine Domain anlegen. Und jedes Element hier, also ist entweder Null oder Eins und ist genau eins dann, wenn der entsprechende Nutzer die entsprechende Domain besucht hat. Das heißt, das ergibt eine Matrix mit neun Millionen Einträgen für die Domains und einer Million Einträge für die User, wobei die meisten Elemente dieser Matrix Null sind. Und so eine Matrix lässt sich sehr effizient auch repräsentieren und kann leicht verarbeitet werden für die weiteren Schritte. So, der Algorithmus, den wir einsetzen zu der Deanalysierung, ist wirklich sehr, sehr einfach. Wir generieren im ersten Schritt diese Matrix M, die ich gerade gezeigt habe, generieren dann weiterhin einen Vektor. Und in diesem Vektor packen wir alle Domains, die wir aus anderen Informationsquellen, also aus unserer öffentlichen Information gewonnen haben und die wir vergleichen wollen mit den Nutzern, die sich in den Datensatz befinden. Das heißt, für jede Domain, die wir irgendwo gesehen haben, würden wir eine Eins in diesen Vektor schreiben und würden dann entsprechend den Vektor nehmen und ihn mit der Matrix multiplizieren. Das Ergebnis enthält dann wieder für jeden Nutzer eine einzige Zahl und indem wir den Maximalwert dieser Zahl nehmen, können wir den Nutzer finden, der in unserem Datensatz die beste Übereinstimmung hat mit den Domains, mit denen wir ihn vergleichen wollen. Also wirklich ein sehr, sehr einfaches Verfahren, das allerdings sehr robust und auch sehr, wie man sehen wird, effektiv ist für die Deanalysierung. So, das ist natürlich alles sehr abstrakt, deswegen habe ich hier mal ein Beispiel von einem Nutzer, den wir zufällig ausgewählt haben aus unserem Datensatz und wir gehen jetzt einfach mal durch die einzelnen Punkte durch. Hier würden wir jedes Mal in jedem Schritt eine Domain hinzunehmen, die der Benutzer entsprechend besucht hat und dann schauen, um wie viele Nutzer verringert, dass die möglichen Nutzer in unserem Datensatz, die diese Domains besucht haben, könnten. Wie wir sehen, wir fangen hier links mit ca. 1,1 Millionen Nutzer an. Dann nehmen wir unsere erste Domain, das ist GOG.com, das ist eine Gaming-Webseite und da sehen wir schon, haben wir eine extreme Reduktion in der Anzahl der möglichen Nutzer in dem Datensatz, weil jetzt nur 15.000 Nutzer drin sind, die wirklich diese Domain besucht haben und die halt der potenzielle Nutzer sein könnten. Wie wir auch sehen, ist dieser Nutzer hier Telekom-Kunde, das heißt, er hat auch diese Kundencenter.telekom.de Domain besucht, was nochmal die Anzahl der möglichen Nutzer in dem Datensatz extrem reduziert, in diesem Fall auf 367. Er ist auch Spaderbank-Kunde, deswegen auch diese banking.spada.de-Adresse hinzunehmen können, was nochmal die Anzahl auf 11 reduziert und das geniale Stück des Puzzles, das wir noch benötigen, ist hier die Information, dass der Nutzer auf handelsblatt.com unterwegs war, was dann nur noch einen einzigen Nutzer ergibt in unserem Datensatz, den wir der mit diesen Daten kompatibel ist. Das heißt, hätten wir diese vier Informationen aus öffentlichen Quellen extrahiert, könnten wir schon mit Sicherheit sagen, welcher Nutzer in unserem Datensatz hier entsprechend der richtige Nutzer ist. So, jetzt ist natürlich die Frage, wie gut funktioniert das Verfahren in Abhängigkeit auch davon, wie viele Informationen ich denn überwachen kann von dem Nutzer. Wir haben ja gesehen, dass wir in unserem Datensatz eigentlich den Nutzer komplett überwachen können, das heißt, wir können jede URL sehen, die der Nutzer mit seinem Browser aufgerufen hat, aber die viele Tracker sehen im Prinzip nur einige hundert oder vielleicht einige tausend oder zehntausend Domains, auf denen entsprechende Skripte installiert sind. Was ich deswegen hier zeige, ist die Effektivität dieser Methode in Abhängigkeit der Anzahl der Domains, die wir in unserem Datensatz verfügen haben. Wir fangen also an hier links, wo wir nur die Top 50 Domains in unserem Datensatz zu verfügen hätten und schauen uns an, wenn wir ein zufälliges Sample von User in diesem Fall 200 versuchen zu deanonymisieren, wo befindet sich denn der korrekte User unter all den Nutzern, den wir in dem Datensatz drin haben. Man sieht hier, für 50 Domains ist das ungefähr 160. Das heißt, es gibt 160 andere Nutzer im Schnitt, die eine höhere Wahrscheinlichkeit haben, mit den Daten der wirklich gesuchten Nutzer. Wenn wir jetzt die Anzahl der Domains allerdings erhöhen, also wir können zum Beispiel auf 100 gehen, sehen wir, dass dieser Wert schon rapide abfällt. Das heißt, hier habe ich schon die Anzahl der möglichen Nutzer, die zu einem wirklichen Nutzer gehören könnten, extrem reduziert auf ungefähr 25. Und wenn ich die Anzahl der Domains entsprechend erhöhe, auf 200 oder 300 sogar, bin ich sehr schnell auch in der Lage wirklich den Nutzer eindeutig wieder zu identifizieren. Also es gibt keine Fehler in diesem Sinne dann für die Entwicklung eines bestimmten Nutzers. Das ist natürlich alles graue Theorie und stellt sich die Frage ist es überhaupt möglich, solche öffentlichen Informationen zu gewinnen oder ist das eher unwahrscheinlich, dass man an solche Informationen rankommen würde. Deswegen habe ich versucht, anhand von den Daten, die wir haben und anhand von öffentlichen Informationsquellen, wirklich die Anonymisierung durchzuführen mit den Usern, die wir haben. Und ich zeige hier jetzt drei Beispiele. Das erste beruht auf der Analyse von uns. Ja, da haben wir also einen Nutzer aus unserem Datensatz, der ein Twitter Account hatte, zufällig rausgesucht, haben uns dann angeschaut, welche URLs dieser Nutzer an dem entsprechenden Zeitraum, über den wir die Daten hatten, geteilt hat und haben dann aus diesen Tweets hier den entsprechenden URLs extrahiert, davon wieder die Domains generiert oder extrahiert und diese Domains dann mit unserem Algorithmus genutzt. So, wie wir für diesen einen Nutzer dabei, acht Domains extrahiert über den entsprechenden Zeitraum, also wir haben hier relativ populäre Domains wie Github, Change.org, aber auch viele Blocks, beispielsweise hier, atapp.wordpress.com, was nur von 129 Nutzern aus dem Datensatz besucht wurde und auch andere kleinere Webseiten. So, wenn wir jetzt uns anschauen, welche Nutzern aus unserem Datensatz haben mindestens eine dieser Domains besucht in dem entsprechenden Zeitraum und die Nutzer gegen die Anzahl der Domains aus diesem Satz von Domains besucht haben auftragen, bekommen wir diese Grafik hier, also die zeigt ca. 110.000 Nutzern, die mindestens eine dieser Webseite besucht haben und zeigt gleichzeitig davon an, wie viele von den entsprechenden Domains der Nutzer wirklich besucht hat. Es gibt sehr, sehr viele Nutzern, die mindestens eine hier von besucht haben. Wir können allerdings hochgehen zu 2, 3 oder 4. Davon verringert sich die Anzahl sehr schnell und wir sehen hier, dass wir oben bei 7 einen einzigen Nutzer haben und dabei handelt es sich wirklich um den Nutzer, den wir entsprechend deanonymisieren wollten. Das heißt, hier ist eine Zuordnung mit 100-prozentiger Sicherheit möglich für diesen Nutzer. Wir haben das auch für andere Nutzer durchgespielt. Wir konnten nicht immer den korrekten Nutzer rausfiltern, aber wir konnten in den meisten Fällen die 10 bis 20 reduzieren. Der zweite Beispiel, das ich jetzt noch zeigen möchte, ist anhand von YouTube-Daten gemacht worden. Oft ist es so, dass viele Daten in solchen Datensätzen wirklich anonymisiert werden, aber bestimmte Daten davon ausgenommen werden, weil es ein starkes Interesse gibt, seitens der Unternehmen, diese zu nutzen. YouTube-Videos sind ein gutes Beispiel dafür, weil Unternehmen beispielsweise wissen möchten, welche Videos haben sich bestimmte Nutzer angeschaut und welche Kombination, um daraus für Marketing-Erkenntnisse abzuleiten. Man könnte auch meinen, dass diese Informationen über öffentliche Videos, die eigentlich jeder sich anschauen kann im Internet, auch nicht sehr kritisch ist. Was wir gemacht haben deswegen, um zu zeigen, ob das wirklich so ist, ist, dass wir wieder aus unserem Datensatz einen Nutzer extrahiert haben, von diesem Nutzer die Favoritenliste der YouTube-Videos im Normalfall, also man kann das einstellen natürlich, dass es nicht öffentlich ist, aber 90% der User machen das nicht und haben das entsprechend dann in der Öffentlichkeit und haben uns aus dieser Liste per YouTube-API automatisiert sämtliche Video-IDs besorgt. Mit diesen Video-IDs haben wir wieder unseren Algorithmen gefüttert, diesmal allerdings mit den kompletten URL-Daten. Da werden die Domains ja nicht die Video-IDs enthalten. Falsch gedrückt. Also wie vorher haben wir also diese IDs, das sind ungefähr 20, und haben auf der anderen Seite sämtliche Nutzer die mindestens eins von diesen Videos angeschaut haben. Wie wir sehen können, sind das in dem Fall circa 20.000, wobei wieder eine Menge von den Nutzern sich mindestens eins angeschaut haben, aber die Anzahl der potenziellen Nutzer, die sich mehrere angeschaut haben, rapide runter geht. Und wir sehen hier beispielsweise für 4 oder 5 oder 6 haben wir nur noch eine Handvoll User der hier ganz oben liegt, bei 9 angeschauten Videos, und das handelt sich wieder um den Nutzer, den wir im vorherigen Schritt extrahiert haben. Wir sehen also, dass es relativ einfach anhand von der kleinen Anzahl von Datenpunkten, selbst aus einer sehr großen Anzahl von Nutzern, in diesem Fall über eine Million Nutzer, entsprechend auf einen User zurück zu schließen. Und man muss dazu sagen, dass solche Verfahren, dass YouTube Verfahren sogar besser funktioniert hat, als die Anonymisierung über Twitter, die Verteilung der Videos und die Anzahl der Videos auf YouTube noch mal höher ist, als die Anzahl der entsprechenden Domains, die wir zur Verfügung haben. Das heißt, eine YouTube Video ID ist in dem Sinne sogar ein stärkeres Deanonymisierungssignal als die entsprechende Domain aus dem Twitter Feed. So, das letzte Beispiel, das ich zeigen möchte, basiert auf der Analyse von Geodaten. Dafür haben wir uns angeschaut, wie wir aus unserem Datensatz Geodaten extrahieren oder Koordinaten extrahieren können. Und wir haben auch ausgefunden, dass es auch über Google Maps URLs geht, die also, wenn man sich einen bestimmten Bereich anschaut, meistens oben in der URL die geografischen Koordinaten enthalten. Das heißt, wir konnten aus unserem Datensatz einige Millionen von diesen Koordinatenpaaren extrahieren und die auch nach entsprechenden Nutzer gruppieren und können damit eine komplette Karte von der Nutzeraktivität anfeiertigen. Also wir sehen hier zum Beispiel, welche Kartenausschnitte sich User hier angeschaut haben, wenn sie zum Beispiel nach Urlaubszielen vielleicht nach ihrem Arbeitsort, nach einem Weg, nach einer Wegbeschreibung und können diese Informationen also auch Nutzer genau entsprechend verarbeiten. Und Geodaten sind besonders interessant hierfür, weil es sehr viel schwieriger ist, diese selbst zu ändern, da es ja relativ einfach ist, seine Surfgewohnheiten oder seine Video Gewohnheiten im Zweifelsfall anzupassen, aber es relativ schwierig ist, beispielsweise die Arbeitsstelle oder den Wohnort oder sämtliche vertrauten Orte zu wechseln. Das heißt, diese Informationen sind sehr, in dem Sie das sticky, in dem Sinne, dass Sie dem User über lange Zeit auch zuordnen wahr sind, normalerweise. Und wir können auch wieder aus verschiedenen öffentlichen Quellen Informationen extrahieren, beispielsweise über Google Maps oder auch über Flickr, wo auch viele Fotos geokodiert sind und können dann über diese Informationen Matching mit den Daten, die wir in unserem Datensatz haben, durchführen. Und hier ist es auch so, dass wir über eine relativ kleine Anzahl, also weniger als den Datenpunkt im Idealfall, entsprechend den einzelnen Nutzer aus dem Datensatz extrahieren und identifizieren können. Eine Frage, die ich oft gestellt bekomme ist, in dem Sinne, kann ich mich verstecken in meinen Daten. Also, es ist möglich dadurch, dass ich mich unvorhergesehen verhalte, dass ich vielleicht Webseiten öffne, die ich normalerweise nie anschauen würde, dass ich den Algorithmus verwirre und in dem entsprechend nicht in den Daten auftauchen werde. Da muss ich leider sagen, das funktioniert vermutlich nicht aus dem einfachen Grund, dass wir ja ein Matching machen über die Zuordnung von Eigenschaften, die entweder erfüllt oder nicht erfüllt sind und ich als einzelner Nutzer ja nur die Möglichkeit habe, zusätzliche Datenpunkte zu meinem persönlichen Vektor hinzuzufügen, aber meistens keine Datenpunkte von diesem entfernen kann. Das heißt, wenn ich hier schon mit meinen bestehenden Datenpunkten zu 100% identifiziert bin, kann ich eigentlich so viele Punkte hinzufügen, wie ich möchte aber trotzdem nicht im Normalfall von dem Algorithmus mit einem anderen User verwechselt werden können. Das heißt, dieses Verfahren ist in dem Sinne sehr robust gegenüber der Perthubation oder der Änderung der Daten durch den Nutzer. Als gar inzwischen Fazit kann man also sagen, dass diese Art von Daten setzen, die sehr viele Dimensionen und sehr viele Eigenschaften beinhalten, extrem schwierig zu anonymisieren sind und auch bei entsprechender Absicht man nicht immer sicher was die Anonymisierungsmaßnahmen, die man ergreift, wirklich ausreichend sind, um sämtliche Nutzer oder sogar nur einen kleinen Teil von den Nutzern in den Datensatz zu schützen. Weiterhin ist es auch so, dass heute eigentlich immer mehr öffentlich verfügbare Informationen über Personen zur Verfügung stehen, die auch genutzt werden können um Daten, die anonymisiert wurden, zum Beispiel vor 10 Jahren oder vor 5 Jahren, jetzt mit neuen Datenpunkten in dem Sinne besser zu deanonymisieren. Das heißt, es wird immer einfacher möglich auch aus bestehenden Nutzersetzen entsprechende Nutzerdaten und Personen Identifikationsmerkmale zu extrahieren. Wie wir gesehen haben, reichen dafür oft eigentlich schon sehr wenige Datenpunkte aus um wirklich einzelne Nutzer heraus zu suchen und eindeutig zu identifizieren. Ja, was bedeutet das? Was bedeutet das, wenn man mit seinen eigenen Daten konfrontiert wird? Also, wenn jemand anderes ein mit seinen Daten konfrontiert, also zum Beispiel ich. Wir haben die Recherche für ein politisches Magazin und deswegen haben wir vor allem nach Politikern geschaut. Und auch die Politiker selbst oder deren Mitarbeiter gefunden in diesen Daten waren zwei Grüne dabei, drei von der SPD, darunter auch ein Mitarbeiter aus dem Büro von Lars Klingweil, netzpolitischer Sprecher, ein Europaparlamentarier und das zog sich sozusagen bis ins Kanzleramt und auch dort in einem Büro Kanzlerin war auch ein Mitarbeiter betroffen. Bei den Mitarbeiter fast interessanter sind als die Politiker selbst, weil die Mitarbeiter sehr viel inhaltliche Arbeit für die Politiker machen und auch sowas wie deren Reisenplan Kontakte herstellen. Jetzt wollte selbstverständlich nicht jeder gerne mit uns reden. Und vor allem nicht vor der Kamera. Eine, was ist denn getan, das ist Valerie Wilms. Bevor wir sie jetzt mal hören, sie hat auch erst mal ihre Daten. Sie hat das freigegeben für diesen Vortrag, sage ich noch dazu. Weil hier habe ich jetzt sozusagen wirklich nichts anonymisiert, wie in dem Datensatz davor. Erster Acht da, das ist auch früher auf Steherin, erst mal Banking, nochmal Banking. Das heißt, man kann also hier ziemlich gut sehen, zum Beispiel, wo Leute ihre Konten haben. Auf die Konten selbst kann man nicht zugreifen, wo ein bisschen unangenehmer wird es dann für sie sozusagen Ende August. Haben viele Leute in Deutschland ihre Steuererklärung gemacht. Das habe ich auch als Video noch mal, können wir noch mal so ein bisschen runter scrollen, dann sehen wir ein bisschen mehr von ihrer Steuererklärung. Also man kann jetzt hier sozusagen auf Älste Online nicht selbst, auch nicht selbst zugreifen. Also wenn wir das jetzt machen würden, würden wir sozusagen nicht weiterkommen, aber wir können sehen, welche Vordrucke sie sich angeschaut hat. Und können so Informationen gewinnen über Dinge, die sie gedenkt zu versteuern. Und es ist recht detailreich. Ja, was hat sie nur dazu gesagt, als wir bei ihr im Büro saßen? Wir können sie einmal kurz hören dazu. Ich habe noch eine andere Geschichte, auf die wir sie angesprochen haben. Es gibt ja nicht nur Steuererklärung, sondern man schaut auch mal so was bei Google nach. Kebonin nennt man so bei Hörsturz, Tinnitus Abgeschlagenheit. Es ist natürlich gerade für Politiker ein großes Problem, weil solche Informationen an die Öffentlichkeit gelangen. Menschen dann falsche Schlüsse daraus ziehen. Oder auch die Leute damit erpressen können. Haben wir sie auch darauf angesprochen, will ich die Reaktion nicht voreinhalten? Ich weiß gar nicht, in welchen Zusammenhang ich diese Thebonien mir da reingeguckt habe, ist nicht schön, so was nachträglich zu lesen. Vor allen Dingen verknüpft mit dem eigenen Namen. Das war Valerie Wilms zu ihren Daten. An diesem ganz kleinen Ausschnitt sieht man, wie problematisch diese Daten sind. Ich habe jetzt nicht die Beiträge gezeigt, wo Menschen ihre sexuellen Vorlieben ausleben. Weil das betrifft natürlich auch Leute, die in öffentlichen oder in relevanten Positionen stehen. Natürlich sind auch Richter in diesen Daten. Natürlich sind auch Wirtschaftsbosse in diesen Daten. Natürlich sind das alles Menschen und die haben Träume und Gedanken und es ist überhaupt nichts, was in dritter Hände gehört. Und deshalb war mit allen, mit denen wir gesprochen haben im Zuge dieser Recherche, was für alle Betroffenen war das sehr schockierend. Aber wer hat sie ausgespielt? Woher kommen diese Daten? War es irgendwie ein Shady-Troyana oder so auf dem Rechner? Nein. Wir sind relativ schnell darauf gekommen, dass es Browserplugins sind und haben dann einen kleinen Test gemacht, haben einen Nutzer gebeten, Addons zu deinstallieren und haben dann eines herausfinden können, Web of Trust. Was machen die so? Safe Web Search und Browsing. Sie haben das nochmal mit einem sauberen Browser sozusagen gegengetestet, in der Zeit, als wir eine Möglichkeit hatten, live in die Daten zuzugreifen. Das ist ein ziemlich spezialist für uns gemacht, Mike Cookets. Und der hatte eine extra Webseite aufgesetzt, einen sauberen Browser, nur dieses eine Plugin installiert und wir konnten ihn in den Daten sehen. Und dadurch konnten wir sicher sein, dass es eben bei diesem einen Plugin auch tatsächlich der Fall war, dass dieser Weg eben so gegangen ist. Warum ist das Tracking per App oder Extension eigentlich so interessant für die Anbieter? Das heißt, ich möchte, wenn möglich, sämtliche Daten, die über den Nutzer zur Verfügung stehen. Und bei normalen Trackern ist das ja so, dass ich als Nutzer mir eine Webseite runterladen in meinen Browser, dann entsprechend den JavaScript Applet oder ein anderes Tracking Tag ausgeführt wird, das eine entsprechende Verbindung aufbaut zu einem Tracking Server und da beispielsweise ein Cookie setzt oder eine andere Information speichert, die mich dann als Nutzer nachverfolgt. In den letzten Jahren hat man in verständlicher Weise eine Menge Widerstand auch geregt und viele Leute benutzen mittlerweile Blocker, die verhindern, dass solche Tracking-Scripten ausgeführt werden oder die Verbindung zu den Tracking-Servern abfangen oder blockieren. Das heißt, es wird immer schwieriger für die Tracking-Anbieter, qualitativ hochwertige Daten zu bekommen und da liegt es doch eigentlich nahe, dass man sich solchen Mechanismen in Form von der Extension zu nutzen macht, die sich per Default gibt, relativ einfach umgeht und dann über diesen Side-Channel die Information bei jeder einzelnen aufgerufenen URL direkt an den Tracking-Server sendet. Das hat einen weiteren Vorteil für die Anbieter, weil damit nicht nur die Seiten überwacht werden können, die Tracking-Codes explizit beinhalten, sondern auch viele andere Webseiten, die überhaupt keine Codes auf der Seite haben, also beispielsweise Seiten von öffentlich-rechtlichen Institutionen, die ihre Nutzer normal haben. Das heißt, es ist also möglich, über dieses Verfahren, zwar von einer kleineren Anzahl von Usern, allerdings ein sehr viel größeres Spektrum an Daten im Medialfall oder im schlimmsten Fall, je nachdem, wie man das sieht, die komplette Browsing-Historie von diesem entsprechenden User zu gewinnen. Wir haben uns in unserem Datensatz dafür nochmal angeschaut, wie viele von diesen Extensions es eigentlich gibt und wie viele Daten jede von diesen Extensions generiert. Hier haben wir einen Plot, wo auf der einen Seite hier der Rang der entsprechenden Extension aufgetragen ist, das heißt, die mehr Datenpunkte von der Extension wir bekommen haben, umso weiter finden sie hier die Extension Links und auf der anderen Achse haben wir die Anzahl der Datenpunkte entsprechend aufgetragen und wir sehen hier, dass die populärste Extension, das ist World Web of Trust, bereits für eine Milliarde Datenpunkte in dem Datensatz verantwortlich ist. Und wenn wir die ersten 10 Extensions nehmen, sehen wir, dass bereits 95% der Daten davon abgedeckt werden. Das heißt, es ist also eine kleine Anzahl von Extensions, die eigentlich die größte Masse an Daten hier für diesen Anbieter produziert, wobei es auch sehr viele, also hier fast 10.000 verschiedene Application IDs gibt, die teilweise einige 100 oder bis zu einige 100.000 oder einige Millionen Datenpunkte ihrerseits liefern. Es ist nicht unbedingt gesagt, dass es auch 10.000 verschiedene Extensions sind, es ist eine eindeutige Zuordnung zu der Application ID haben, das heißt, es ist eher eine obere Abschätzung. Um jetzt ein genaueres Bild zu bekommen, wie verseucht eigentlich so ein Web Store ist, haben wir eine Verhaltensanalyse durchgeführt, wofür wir mit einem Automatisierungs Framework Webdriver uns einfach ein Chrome Browser genommen haben, da automatisiert verschiedene Extensions installiert haben und dann mit diesem Webdriver entsprechende verschiedene Webseiten geöffnet wurden, wenn wir bestimmte Seiten angesteuert haben. Das heißt, darüber konnten wir verfolgen, ob der Browser beim Eröffnen von bestimmten Seiten oder von allen Wirls vielleicht noch zusätzliche Informationen eventuell an Dritte schickt. Das haben wir für ca. 500 Plugins so ausgeführt und wie man hier sehen kann, verhalten sich die meisten eigentlich so, wie man das erwarten würde, das heißt die Öffnen nur die Wirls, die Wirls, die Wirls, die Öffnen nur die Wirls, die entsprechende Anzahl der Wirls, die man erwarten würde für den Testdatensatz, den wir verwendet haben und gleichzeitig gibt es aber auch einige Extensions hier, zum Beispiel das hier, das sich merkwürdig verhält und sehr viele verschiedene Wirlaufrufe hat und hier haben wir bei einer genauen Analyse auch gesehen, dass das entsprechende Plugin oder die Extensions auch Daten an den Dritte schickt bei jeder aufgerufenen Wirl. Wobei man sagen muss, dass jetzt aus der Hand untersuchten Extensions nur einige dabei waren, die wirklich eventuell schadhaftes Verhalten zeigen. Das heißt die Wahrscheinlichkeit, dass man sich mit so einer Extension infiziert, indem man Sachen runterlädt vom Web Store ist aktuell noch relativ gering, scheint aber größer zu werden. Die letzte Frage ist natürlich wie oder kann ich mich überhaupt gegen sowas schützen? Ich denke, dass in einigen Jahren es trotz kleinseitigen Blockierens Tracker immer schwieriger sein wird, sich als Nutzer anonym im Internet zu bewegen, weil es wie wir gesehen haben anhand von einigen wenigen Datenpunkten schon möglich ist, eine Identifikation von an sich anonymisierten Daten herzustellen. Das heißt selbst wenn ich mit einem Tracker oder mit einer Extensions sämtliche Tracker blockiere, habe ich immer noch solche Dinge wie meine IP-Adresse, mein Useragent und die Kombination aus mehreren solchen Eigenschaften kann schon ausreichen, um mich wieder eindeutig zu sagen, dass wenn ich wirklich sicher im Internet unterwegs sein möchte, müsste ich zumindest darauf achten, dass ich möglichst viele diese Eigenschaften ständig rotiere und ändere, indem ich beispielsweise VPN-Lösung benutzen, die auch rotierende IP-Adressen verwenden, wobei das auch keine Garantie natürlich ist, dass man nicht getrackt werden kann. Das heißt, es wird also immer schwieriger sich im Internet zu bewegen ohne dem Risiko der Deanonymisierung ausgesetzt zu sein. Was ist so das Ergebnis von der Recherche gewesen? Also WOT verschwand relativ kurz nach der Veröffentlichung des Berichts zunächst mal aus dem Chrome Web Store und aus dem Mozilla Store und das haben natürlich sehr viele Nutzer wie verrückt Plugins deinstalliert und deswegen können wir davon ausgehen, dass auch der Datenstrom dann eingebrochen ist. Aber natürlich die Plugins, die weiterhin installiert sind und Nutzer, die jetzt das nicht deinstalliert haben, das läuft natürlich weiter und auch inzwischen jetzt ein paar Wochen nach der Recherche ist WOT wieder im Google Chrome Store verfügbar. So mein persönliches Fazit daraus ist ein Stück weit Defend Yourself, sprich Andreas hat es schon angedeutet man kann sich nicht auf die Stores verlassen, man muss sich ein Stück weit selbst schützen und selbst überlegen was kann ich tun um dieser Überwachung zu entgehen. Also wir sind recht am Ende von unserem Talk aber trotzdem ganz wichtig nochmal der Dank an einen relativ großes Team was uns unterstützt und hat in dieser Zeit ja vor allem meine Kollegin Yasmin Klophta sitzen in der ersten Reihe. Danke schön. Wir haben wenig Zeit für Fragen. Wer eine Frage hat bewegt sich bitte zu einem der Mikrofone. So ich sehe Bewegung, aber ein paar Flüchten erstmal. War vielleicht doch nicht ganz so einfach für die, die nicht durchsprachigen. Aber sehr spannend, da hinten haben wir eine Frage genau Mikrofon 6, bitte. Hallo. Angenommen, die Person über die man die öffentlichen Daten sammelt nicht im Pool von den anonymisierten Daten, dann gibt es ja eine Möglichkeit für ein false positive oder kann man das ausschließen? Ja, natürlich gibt es auch die Möglichkeit von einem false positive. Das ist natürlich dann, es fängt immer ein bisschen von der Nutzung der Daten ab, ob das problematisch ist oder nicht für den Anbieter. Es kann ja auch sein, dass ich, wenn ich beispielsweise Nutzern Werbung anzeigen möchte, es vielleicht auch gut genug ist, wenn ich Nutzern mit einer Wahrscheinlichkeit von 10% schon identifiziere. Das heißt, ich kann auch mit false positives oder der Anbieter kann auch mit false positives entsprechend leben. Aber es ist natürlich immer die Möglichkeit gegeben, dass der Nutzern, wenn er nicht in dem Datensatz vorhanden ist, auch entsprechend identifiziert wird, obwohl er gar nicht drin ist. Und das kann natürlich für den Nutzern selber zu großen Problemen führen, wenn ich da beispielsweise ein Credit Scoring denke über Machine Learning, wo ich also vielleicht mit jemandem in Verbindung gebracht werde, der eigentlich gar nicht bin verhindern kann, entsprechend meine Kreditwürdigkeit dann beeinflussen können. An Mikro 3, bitte. Meine persönliche Frage ist, was genau kostet das? Also, kann sich eine kleinere mittelgroße Privaterdektei, die auf Datenschutz scheißt, können die sich Zugang holen? Ja, weiß nicht, was die für ein Budget haben, aber also diese Daten werden letzensiert. In der Regel zeigt man halt für die Lizenz so für dass es so im sechstelligen Bereich ist. Bei? Sie hatten von den 10 schlimmsten gesprochen, aber die Liste vergessen. Den 10 schlimmsten, ach so, ja. Ah, ja. Genau. Also, wir haben auch lange überlegt, ob wir die Extension entsprechend veröffentlichen können. Wir haben allerdings noch keine Zeit gehabt, jetzt eine detaillierte Analyse zu machen und ich möchte keinen Namen jetzt nennen von Dingen, wo sich am Ende rausstellt, was eigentlich gar nicht problematisch ist. Das heißt, wir werden auf jeden Fall dranbleiben und versuchen alle von diesen Extensions, die in dem Datensatz drin sind, auch zu identifizieren. Aber wir wollen natürlich eine Gewissheit haben, dass auch entsprechend wir die korrekten Extensions rausfiltern können, bevor wir die Namen dann veröffentlichen. Wir haben auch Fragen aus dem Internet, eine mal dazwischen. Also, ich nehme jetzt einfach mal ein paar Fragen aus dem Internet zusammen. Im Wesentlichen lässt sich das runterdampfen auf. Gibt es irgendwelche technischen, juristischen oder sonst wie gearteten Mittel, um sich davor zu schützen oder dagegen vorzugehen? Oder wurde es schon versucht da zum Beispiel zu klagen? Ja, also ein Teil kann ich beantworten. Also jetzt von unseren Betroffenen hat da noch noch niemand geklagt. Technisch gibt es natürlich Möglichkeiten, sich zu schützen, zumindest ein guter Stück weit. Es gibt für den Nutzer natürlich bedingte Möglichkeiten, sich zu schützen. Aber es gibt auch die Veranstaltungen, die sich nicht kennen oder sich bewusst sind, dass ihre Daten entsprechend gesammelt werden. Da ist also im Zweifelsfall die Verantwortung bei den Browser-Herstellern. Wir sind auch ein bisschen enttäuscht darüber, dass Web of Trust, wie gesagt, wieder in dem Chrome Store drin ist und auch weiterhin fleißig Daten sammelt und auch die entsprechenden Extensions, die schon vorinstalliert wurden, auch nicht entfernt wurden in dem Sinne. Das heißt, im Zweifelsfall kann man sich an die Browser-Herstellern beführen, bevor sie in dem Store landen und auch entsprechende Extensions, die gegen diese Bedingungen verstoßen, schnell wieder entfernt. Es macht auch Sinn, sich mal verschiedene Browser-Anbieter anzuschauen, weil es gibt ja auch neben den großen, kleinere, die nochmal mehr Wert legen. Eben darauf, dass zum Beispiel, dass man gar keine Plugins installieren kann. Genau, an Nummer 5, bitte. Gibt es die Möglichkeit, dass ihr die Liste, die ihr in der Suche erstellt habt, von Unternehmen, die die Daten verkaufen, veröffentlicht quasi als Not-to-Work-Vorliste? Ich meine, unser 1 baut ja im Zweifelsfall für den Scheiß. Es fehlt natürlich ein Name hier in diesem ganzen Vortrag, der Name des Datenhändlers oder auch tatsächlich die Namen der Firmen, mit denen ich auch ein bisschen ernsthaft ins Geschäft gekommen bin. Das sind eigentlich juristische Gründe, warum wir das nicht veröffentlichen gesagt aus Furcht vor diesen Unternehmen, aus sozusagen Angst vor Klagen, die da kommen können. Und deshalb es sieht zumindest im Moment so aus, als dürften wir die Namen nicht veröffentlichen. Aber da ist noch Work-in-Progress, sage ich mal. Also... Micro 1. Einer der Klassiker ist ja irgendwie Javascript aus und Cookies aus und nur für bestimmte Seiten, die man den man vertraut zulassen. Jetzt sagen Sie aber auch, wie weit würden Sie denn kommen, wenn man jetzt wirklich so was wegnimmt und nur über IP basierte Daten und so was, wie weit würde man damit die Anonymisierung kommen? Also meines Wissens setzen viele Anbieter bereits Verfahren ein, die eigentlich nicht mehr auf Cookies basieren, also nur noch wenn diese verfügbar sind und die stattdessen auf anderen Identifikationsmerkmalen basieren, die entsprechend schwerer zu ändern sind. Das heißt, es ist relativ einfach, zumindest mit einer hohen Wahrscheinlichkeit möglich, Nutzer über verschiedene Endgeräte zu identifizieren. Und ich kann mich natürlich gegen das Klein-Seitige Tracking schützen, aber das heißt nicht, dass ich mich gegen diese anderen Tracking-Maßnahmen auch schützen kann. Micro 6. Zur De-Anonymisierung. Ist es möglich, so die Anonymisierung zu identifizieren? Wie ist es möglich, so der Anonymisierung stark zu erschweren oder zu verhindern durch so Methoden wie Differential Privacy? Ja, das ist in bestimmten Kontexten anwendbar. Hier bei den Daten ist ja das Problem, dass ich selbst als Nutzer eigentlich nicht kontrolliere, was ich von mir generiere, weil die Daten entweder unbewusst oder ohne meine Zustimmung erhoben werden. Das heißt, ich kann das Einzige, was ich tun kann als Nutzer, ich habe aber keine Möglichkeit, Datenpunkte zu fälchen oder nur einen sehr geringen Umfang zumindest oder Datenpunkte wieder zu entfernen. Das heißt, in dem Sinne wäre das vermutlich eher weniger angebracht. Aber klar, im Zweifelsfall ist es immer besser, möglichst wenige Informationen rauszugeben, obwohl es eigentlich schon ausreicht, wenige kleine Informationen schnipsel zu haben, die man dann relativ schnell auch zusammenfügen kann, wie wir gesehen haben. Das ist ja sehr stark von der Natur des Datensatzes ab. Wie verrätere ich in dem Sinne einzelne Datenpunkte von mir sein können? Mikro 5. Ich würde gerne ein bisschen eine naive Frage stellen. Wieso ist das eigentlich quasi möglich oder erlaubt? Also die juristische Frage. Und auf der anderen Seite scheint mir doch ein gewisses Gefälle zu sein zwischen dem, was auf der einen Seite gemacht wird und Sie, die jetzt Sorge haben, diese Namen zu nennen und es scheint es mir ein gewisses juristisches Gefälle zu geben, das ich gerne verstehen würde. Sehr gute Frage. Vielen Dank dafür. Wir haben tatsächlich diesen juristischen Aspekt für diesen Vortrag ein Stück weit ausgeklammert und der ist aber trotzdem hochspannend und wir haben viele Gespräche mit Datenschützern darüber geführt, auch mit Juristen darüber geführt und haben tatsächlich auch Paragrafen gewälzt, weil uns genauso diese Frage beschäftigt hat, kann das überhaupt erlaubt sein? Was man für Deutschland sagen kann, das ist nicht erlaubt. Und zwar ganz einfach aus dem Grund, weil keiner der Notser irgendwo dazu zugestimmt hat. Also keiner der Notser, die wir besucht haben, hat irgendwo irgendwas angeklickt. Ja, ich möchte bitte, dass meine Daten in diesem Umfang keiner. Und das kann sogar, nach Aussage von Datenschützer, das könnte sogar eventuell strafrechtlich relevant sein, also sprich in Richtung Abhören gehen. Bislang ist es noch nicht, ja, also bislang hat sich noch niemand berufen gefühlt, da tatsächlich Klage oder Anklage zu führen. Aber wir machen, was wir jetzt sozusagen machen, trägt ja vielleicht dazu bei, dass es mal eine Eingabe gibt beim Datenschützer und dass dann tatsächlich sich auch mal jemand dahinter klemmt. Gerade bei ausländischen Unternehmen ist natürlich immer sehr schwierig, auch entsprechend eine Handhabe zu bekommen, um die auch juristisch belangen zu können. Das heißt, da ist auch nochmal sicherlich ein Gefälle vorhanden. Und auch die Strafen, die Unternehmen im Zweifelsfall drohen, sind im Vergleich zu dem Schadendehr oder zu dem Risiko, dass jemand eingeht, indem er diese Dinge veröffentlicht, eigentlich relativ gering. Deswegen ist auch relativ wenig eigentlich zu solchen Dingen kommt, denken wir. Gut, ich denke, wir haben noch Zeit für zwei Fragen. Wir haben noch einer aus dem Internet. Das Internet lässt fragen, inwiefern man seine eigenen Informationen, inwiefern man seine eigenen Informationen. Das ist eine schwierige Frage. Es ist recht einfach, die Antwort gar nicht. Die Daten gibt es nicht mehr. Sorry. Kommen wir zu unserer letzten Frage. Ja, also... Hallo? Hört man das? Ja. Okay. Ich bin immer ein Freund von Selbstverteidigung und so, wie Sie sagten, aber die Frage ist, ist das überhaupt möglich? Ja, die Frage ist so komplex, dass sich wahrscheinlich die meisten, die hier sind, nur dann schützen können, wenn sie wirklich viel Zeit reinstecken in diese Arbeit. Und ich frage mich, meine Mutter, mein Vater, mein Onkel, wie sollen die sich vor sowas schützen? Ja, mach ich. Ja, das ist das Problem, dass ich auch eben kurz angesprochen habe, und zwar, dass viele Nutzer eigentlich gar nicht wissen, dass sie getrackt werden um sich effektiv gegen sowas zu schützen. Wir haben mal gesehen, obwohl die Leser von FeFisBlock wahrscheinlich eher technikaffin sind, gibt es immer noch 3.000 Nutzer, die in dem Datensatz auftauchen, die sind also auch getrackt worden in dem Sinne. Das heißt, selbst Leute mit IT-Kentnissen und IT-Sicherheitserfahrung sind nicht dagegen gefeit, auch entsprechend getrackt zu werden. Weil es auch unglaublich schwierig ist, auch für mich sämtliche Methoden nachzuvollziehen und immer auf dem aktuellen Stand zu sein. Das kann man mit den Daten eigentlich machen können. Also es stimmt wirklich, es gibt keine gute Lösung momentan dafür. Es gibt zwar noch weitere Fragen, aber die Zeit ist leider vorbei. Wer noch Fragen an die beiden hat, kann hier gleich einfach kurz nach vorne kommen. Erst mal möchte ich mich aber herzlich bei euch beiden für diesen spannenden und interessanten Vortrag bedanken.