 Ja, es ist mir eine riesige Freude, heute hier auf dem 35C3 einen Talk mit dem Titel Archäologie Studien im Datenmüll vorzustellen. Er wird gehalten von Katharina Nokun, sie ist Bloggerin, Autorin, aber eigentlich kennt man sie auch als Datenschutzaktivistin und der wunderbaren Letti. Also einen warmen Applaus und viel Spaß bei diesem spannenden Thema. Ja, danke Puppe, es ist schön, dass ich alle Herralte zum Horst machen mit dem Französisch. Wir würden zu Beginn mal eine Frage stellen, zwei Fragen stellen, und zwar die erste ist, wie viel Personen haben ihr die Weihnachtsgeschenke bei Amazon gekauft? Okay, ich würde mal grob sagen, die Hälfte, lasst mal bitte eure Arme oben, denn es geht weiter. Wer von euch hat nur die Recherche bei Amazon gemacht und danach wo anders gekauft? Kommen wir noch welche hinzu? Die, die gekauft haben, bitte oben lassen. Das ist super. Okay, wenn nicht bei Amazon kauft, recherchiert auch nicht scheinbar. Okay, oder es gab wenige, die dazugekommen sind? Also ich würde sagen, das ist deutlich mehr als 50 Prozent. Man sieht das nicht. Ja, aber diejenigen, die eben aufgezeigt haben, die werden mir sicher zustimmen, wenn ich sage, das ist ziemlich bequem, wenn ich sogar verdammt bequem alles bei einem Anbieter zu suchen oder auch bestellen zu können. Und man stellt sich das in der Theorie ja auch so sehr komfortabel vor. Ich weiß nicht, wer bei DHL die Entscheidung getroffen hat, auf Formel 1 Autos Werbung zu schalten. Ich finde, der Mensch hat aber sehr viel Humor. Denn in der Realität sieht es ja ein bisschen anders aus. Also so richtig gut bezahlte Fahrer und schneller Lieferung, die gibt es in der Praxis eher selten. Und bei Amazon würde ich sagen gar nicht. Und der ein oder andere kennt es vielleicht, dass da ein Paket abgegeben wurde oder zugestellt wurde, ist noch lange keine Garantie dafür, dass es wirklich da ist, wo man es hin haben will. Also hier so ein Best-of für alle, die es noch nicht gelesen haben. Auf der Folie gesehen beim Tagesspiegel, Zitat, habe das Paket im Müll versteckt, im blauen Papiercontainer. Und da kommt ja richtig Freude auf, wenn man das liest. Und man denkt sich ja, wie können wir dieses Problem lösen? Natürlich hat Amazon da ein Produkt für, zumindest für, seine US-Kunden. In den USA kann man sich als Prime-Kunde entscheiden, ich nutze jetzt Amazon Key. Amazon Key kontrolliert dann quasi ist ein intelligentes Schließsystem für die Haustür, gibt es auch fürs Auto. Und dann kann man beispielsweise sagen, ja, also dem Amazon-Paketdienst, den vertraue ich grundsätzlich, der kann die Pakete auch innerhalb meines Hausfluss abstellen und der kann auch die Tür aufschließen. Passend dazu gibt es auch ein Video-Überwachungssystem, wo man dann kontrollieren kann beispielsweise, wann die Kinder betrunken, nachts nach Hause kommen. Und ich weiß nicht, wie es euch geht, aber ich finde das verdammt creepy, ich würde das niemals machen. Denn ich denke mir, naja, ich will mir genau überlegen, wem ich Einblick in meine Wohnung geben will. Aber als Datenschützerin habe ich mich gefragt, ist nicht der Einblick, den Amazon in unser Leben bekommt, durch unser Klickverhalten, nicht viel intimer als so ein harmloser Blick in den Haustür, weil wer bei mir in die Wohnung guckt, der weiß vielleicht, wie ich lebe. Ja, aber wer mein Online-Verhalten kennt, wer weiß, wann ich wo wie klicke, der kann sich vielleicht denken, wie ich denke. Und das ist viel intimer. Ich habe mich daher im letzten Jahr, oder im vorletzten Jahr, genauer gesagt im Jahr 2016 dazu entschieden, ein Experiment zu machen. Ich wollte wissen, was speichert Amazon eigentlich über seine Nutzer und im Zuge dessen habe ich dann auch angefangen, alle meine Weihnachtsgeschenke und sonstigen Geschenke bei Amazon zu bestellen und auch alles dort zu recherchieren, um einen möglichst fetten Datensatz zu generieren. Um ein Ziel war natürlich von Anfang an, ich möchte an diese Daten ran. Ich möchte sie setzieren, ich möchte sie sehen, ich möchte wissen, was genau Amazon über seine Kunden speichert. Denn ich weiß nicht, ob ihr es wusstet, aber nach Artikel 15 der Datenschutzgrundverordnung hat jeder Nutzer in ganz Europa das Recht jederzeit zu seinem Anbieter zu gehen und zu sagen, hey, ich möchte eine kostenlose Kopie meiner Daten haben und der Anbieter muss dann liefern. In der Praxis macht das aber kaum jemand und bei Amazon hat das soweit, ich wusste noch nie jemand so richtig durchgezogen, dass da was Verwertbares rausgekommen ist. Also habe ich mich entschlossen, ich gehe auf die Datenkirche. Was habe ich also gemacht? Ich habe ganz viel eingekauft. Was habe ich denn eingekauft? Ich habe fast 60 Bücher innerhalb von 14 Monaten gekauft und falls ihr euch jetzt fragt, ja, ich habe tatsächlich mittlerweile mindestens 50 Prozent davon auch gelesen. Ich habe, ich habe außerdem aber auch so praktische Sachen bestellt, wie beispielsweise Sprühkreide für eine Protestaktion und eine Buttonmaschine. In meinem Kaufprofil hat sich dann aber auch so komischer Kram angesammelt, wie beispielsweise das Lavendel-Einschlaf-Kissen-Spray. Der ein oder andere kennt es vielleicht aus dem Reddison Blue am CCH. Was leider nicht auf dem Bild zu sehen ist, ist der Home Trainer, den ich mir gekauft habe. Der war so erfolgreich, dass ich ihn nach drei Monaten wieder weiterverkauft habe. Ich habe mir aber auch sinnvolle Sachen gekauft, wie beispielsweise eine Maus, ein Ordner oder auch Schnürsenkel und bin auch durch Amazon Besitzerin der schönsten Hausschuhe auf diesem Planeten. Im August 2017 habe ich mir gedacht, so jetzt ist der Datensatz schön fett angefüttert mit Klicks und Käufen. Jetzt frage ich mal meine Daten ab und das war leider, muss ich sagen, der Beginn einer langen und intensiven Brieffreundschaft mit der Datenschutzabteilung und zunächst habe ich nicht das bekommen, was ich haben wollte. Ich habe dann aber immer weiter nachgefragt und irgendwann haben Sie angefangen mir CD-ROMs zuzuschicken. Ja, muss ich erst mal im Keller gucken, wie man dann so antike Datenträger auslesen kann und auf der ersten CD fand sich leider auch nur das, was ich erwartet hatte, eine Kopie meiner Profiledaten, die auch online einsehbar sind, plus ein paar Zusatzinformationen, also nicht das, was ich eigentlich wollte. Ich habe dann weiter Stress gemacht, habe dann irgendwann eine zweite CD-ROM zugeschickt bekommen. Eigentlich habe ich drei zugeschickt bekommen, die Anderes in der Post verschwunden. Und auf die... Wahrscheinlich. Ja, und dann habe ich auf dieser letzten CD mal geguckt, was ist denn da drauf? Und da waren so Sachen drauf, wie ein PDF, wo ich sehen konnte, was Versuchanfragen ich getätigt habe, ich konnte sehen, auf welche Werbe-E-Mails ich wann reagiert habe, auf die Sekunde genau, und ich konnte sehen, auf welche Werbe-Anzeigen ich reagiert habe. Das Interessante war allerdings so eine Excel-Tabelle. Und diese Excel-Tabelle trug den unschuldigen Namen Clickstream. Die habe ich mal aufgemacht. Und das hat erst mal eine ganze Zeit lang zum Laden gebraucht. Und irgendwann habe ich dann gesehen, okay, diese Excel-Tabelle hat 15.365 Zeilen, und jede Zeile hat bis zu 50 Zusatzangaben, also 50 Spalten. Ich war gestern mal im Supermarkt, um das zu visualisieren. So viel Papier wäre das, wenn das ausgedruckt wäre. Mein eigentliches Ziel war es, auf eine Stapel zu packen. Das wäre dann größer, als ich mit meinen 1,70 m. Allerdings haben wir das aus Sicherheitsgründen sein lassen, denn das wäre zusammengebracht. Ja, und als Katta mich gefragt hat, ob ich ihre Daten auswerten will, dachte ich als erstes an meine Datenbank-Vorlesung, so Beziehung zwischen Kunden und Lieferanten, und was kauft man. Aber der Clickstream von Amazon sind nicht nur die Käufe, denn eigentlich wird alles abgespeichert, was wir mit der Seite machen. Es ist egal, ob wir nur auf die Startseite gehen, ob wir Produkte suchen, oder ob wir uns ein Produkt genau anschauen. Es wird sogar gespeichert, wenn wir uns ein Bild vergrößern. Und natürlich auch jede Interaktion, die wir haben, wenn wir auf unserem Nutzerkonto sind. Und weil wir hier einen Foundations Talk machen, habe ich mir gedacht, ich will euch auch ein bisschen mitnehmen in die Reise, in die Daten, die unbekannt sind und wie man eigentlich mit so einem unbekannten Datensatz vorgehen kann, ihn explorativ analysieren kann, um zu wissen, was steckt überhaupt in diesen Daten drin, was kann man vielleicht mit den Daten sehen. Also ich habe schon gesagt, wir haben 50 Spalten oder auch Dimensionen genannt und da ich die nicht alle hier auflisten kann, habe ich versucht, eine grobe Zuordnung zu Gruppen zu finden. Wir haben als erstes natürlich eine Zeitangabe, ganz klar. Wir haben Account Details, sowas wie seit der Prime-Kunde oder Business-Kunde und einen Ortsbezug. Amazon speichert die IP-Adresse nicht vollständig, der letzte Block ist weggestrichen, aber was sie außerdem speichern, ist in welchem Land, in welchem Bundesland und welcher Internet Service Provider, also der Internetanbieter, den ihr da genutzt habt, um die Seite zu besuchen. Außerdem wird natürlich die URL gespeichert, die ihr da besucht habt und wenn es auch noch ein Produkt ist, wird dazu die Produkt-ID auch abgespeichert. Oh, jetzt habe ich die Session Details vergessen. Ja, die Session Details sind so alles, was so im Cookie auch landet, damit man einfach sieht, in welcher Session man sich gerade befindet und es gibt noch eine ID, die euch über alle Dienste von Amazon hinweg identifizieren kann. Und bei den Navigations Details ist eigentlich schon ein bisschen klar, wo es hingeht. Amazon sieht von wo ihr kommt, wo ihr gerade seid und wo geht ihr dann hin. Diese gesamte, dieser gesamte Verlauf wird einmal abgespeichert und nicht nur der Verlauf, sondern auch was habt ihr da gemacht, welche Interaktion habt ihr gemacht, habt ihr etwas in den Warenkorb hinzugefügt, habt ihr euch ein Bild angeschaut oder habt ihr etwas für später gespeichert. Als Letztes kann man so einen Block sehen, das heißt so Amazon Interna. Wir sehen, an welchen Web-Server die Anfrage gestellt wurde und ob die Anfrage eine interne IP-Adresse bei Amazon hat. Ihr bekommt von Amazon außerdem eine lange Liste mit all diesen Dimensionen und die Erläuterung dazu, was sich dahinter verbirgt. Manchmal speichert Amazon aber nicht den Clatex, sondern codiert etwas, was zum Beispiel wie 0 bedeutet, die hat etwas in den Warenkorb gelegt. Denkt man erst mal super, hat man nicht so viel zu pausen. Dann habe ich aber festgestellt, als ich mir die Daten genauer angeschaut habe, so Amazon erzählt aber nicht, was sie alles codiert oder was sie codieren. Manche Felder sind uns schlicht unbekannt. Ja, sagen wir mal, so die Brieffreundschaft dauert noch an. Ich hoffe auch, wir werden darauf noch mal Antwort bekommen. Wenn wir jetzt also den Datensatz mit den 50 Spalten vorstellen, haben wir irgendwie über 15.000 Einträge. Ich habe mal 2 herausgenommen, um einfach nur exemplarisch zu zeigen, wie sind die überhaupt aufgebaut. Also wir haben Datum, wir haben eine Aktion, die wir machen, so was wie gesucht oder gekauft und dann haben wir dazu die URL, aus welchem Bundesland vielleicht das Ganze abgesetzt wurde, welcher Internetprovider dahinter steckt und wie lang die Ladezeit war. Das haben wir natürlich nicht nur für diese 2 Einträge, sondern für irgendwie über 15.000. Welchen Zeitraum betrachten wir hier eigentlich in den Daten? Es geht los am 1. August 2016 und das endet am 31. August 2017. Das sind in etwa 196 Tage, die mit Interaktion behaftet sind und das werden dann sozusagen so 78 Einträge pro Tag. Wenn ich mit so einem unbekannten Datensatz arbeite, dann arbeite ich eigentlich immer mit Python und dem Pandas Package, was sich so für Datenanalyse einfach als Standard durchgesetzt hat. Und egal, was mir Amazon sagt, was in den Daten sind, ich schaue mir die Dimension immer noch mal ganz genau an. Das heißt, welche Dimension habe ich und wie häufig wurde sie benutzt? Es gibt extrem viele, die immer benutzt werden, so was wie Datum und Uhrzeit. Die gibt die Angabe gibt es immer, aber es gibt auch Dimensionen, die einfach nicht so häufig genutzt werden und wir haben auch eine Dimension bekommen, die wurde nie genutzt. Irgendwas über Bilder, keine Ahnung, was da drin ist. Ich habe mir dann jede Dimension wirklich einzeln angeguckt, was da drin steht und wie häufig das passiert. Und bin über die Zeit gestoßen, die wirklich eine Sekunden genaue Angabe sein soll, was man auf Amazon macht. Und ich weiß nicht, wie man es hinbekommt, in einer Sekunde irgendwie 45 Einträge zu generieren. Aber ich dachte mir, okay, ich nehme erst mal noch eine andere Spalte und schaue mal, was da noch drin steht. Vielleicht ist das ja ein Ausreißer oder das sind mehrere Ausreißer, weiß man ja nicht. Dann habe ich mir so ein Tag genauer angeguckt, also man kann auch die Zeitangabe nur für einen Tag nehmen. Das ist irgendwie so eine relative Gleichverteilung und dann hat man da so drei Ausreißer. Die sind irgendwie wahnsinnig verdächtig, weil die stark abweichen von den anderen. Und es gibt sogar einen, der irgendwie 710 Einträge beinhaltet, aber ich weiß ja nicht, wie intensiv es Kata Amazon genutzt hat in der Zeit, ist von morgens bis abend sehr auf jeden Fall sportlich. Dann habe ich mir den Tag aber wirklich mal ganz genau angeschaut. Wir haben 710 Einträge, da habe ich mal geguckt, was ist denn für eine Zeitspanne, die wir haben? 20 Minuten und 35 Sekunden. Das heißt, für einen Eintrag würde Kata 1,74 Sekunden brauchen. Das Ganze würde dann wahrscheinlich so aussehen. Ja, und wenn ich das schaffe, spätestens an der Stelle, soll ich meine Karriere als Pro-Gamer überdenken. Ich bin daraufhin nochmal genauer in die Daten eingestiegen und Pandas hat so einen Value-Counts, was so das Histogramm sozusagen darstellen soll, der Häufigkeitsverteilung und die Funktion und ich. Wir sind jetzt richtig dicke auf jeden Fall. Ich habe mir die wirklich komplett nochmal angeschaut. Wo kommt das her? Mir ist aufgefallen, dass diese Aktion nicht immer definiert ist. Die wird nur so 4600 Mal überhaupt angegeben. Wo ich mir dachte, okay, eine Interaktion. Na ja, vielleicht kann man es nicht immer klassifizieren. Und dann sind wir über zwei andere Sachen aufgefallen. Request und Lazy-Load. Die zwei Sachen, finde ich, hören sich nicht wie eine Interaktion an, da ich Web-Entwicklerin halt auch bin. Weil mir so, okay, vielleicht wird da noch was anderes in den Daten stecken. Und hat mir daraufhin die US mal genauer angeschaut, die in den Daten stecken. Und spätestens bei Ajax, was eine Web-Technologie ist, dachte mir Nutzer-Interaktion, schauen wir mal in einem Browser. Wie gesagt, ich bin Web-Entwicklerin und vom Browser verredene Menge über eine Webseite, wenn Fehler drin sind oder was für einen Traffic im Netzwerkverkehr, im Netzwerk stattfindet. Und das habe ich auch mal für Amazon gemacht. Dann habe ich mal einen Spiel einfach ausgesucht und habe geguckt, was wird eigentlich so alles geladen, während man auf der Seite ist. Und ja, jede Webseite lädt eine Menge Sachen nach. Und als es dann irgendwann mal fertig geladen hat, dachte mir, okay, jetzt suche ich in dieser Auflistung nach den US, die ich nicht zuordnen konnte. Und siehe da, es sind wirklich Sachen, die einfach nachgeladen werden. Also was wie einen Prime-Button oder Bilder und Rezensionen. Was für mich jetzt per se keine Nutzer-Interaktion ist, aber es landet komplett in einem Clickstream drin. Wenn wir also die realen Nutzer-Interaktion suchen von den über 15.000 Einträgen, dann habe ich eine Annahme getroffen. Eine Nutzer-Interaktion muss die Page-Action angegeben haben. Ansonsten ist es keine. So selektieren wir die erstmals erstes. Dann möchte ich auch nicht, dass es ein Request ist, weil das sieht auch aus wie keine Interaktion und es darf auch kein Lazy-Load sein. Und wenn wir diesen gesamten Wust nehmen und einfach mal aus den Daten rauswerfen, dann haben wir 75% der Daten einfach mal weggeworfen und haben wir noch 3747 Einträge übrig, die ich als Annahme als reale Nutzer-Interaktion sehe. Ich weiß nicht, wie viele von euch auf GitHub unterwegs sind, aber ich liebe den Graf, der so ein bisschen die Aktivität zeigt, die man auf GitHub hat. Das Gleiche könnte man auch für Amazon machen. Und ich weiß nicht, ob ich darüber so glücklich wäre bei mir. Jedenfalls steht jedes Kästchen für eine Interaktion und die extrem dunklen lilanen Kästchen zeigen bis zu 180 Interaktionen, die man mal am Tag getätigt hat. Beispielsweise vor Weihnachten. Genau, sieht man besonders gut. Aber es heißt ja auch nicht, dass jede Interaktion wirklich zu einem Kauf überleitet. Und ich habe mal versucht herauszufinden, wie Amazon überhaupt klassifiziert, ob man etwas kauft. Und ich dachte mir, hey, Page-Action, du bist hier eine gute Idee anzugucken. Und Amazon wird doch Sicherheit ordentlich gepflegte Daten haben und sowas wie ein Order drinstehen haben oder ein Purchase, nix da. Amazon hat aus irgendwelchen Gründen eine Horde an Einträgen, die man per Hand herausfinden muss aus seinem Datensatz, damit man überhaupt auf die Idee bekommt, welche Interaktionen sind wirklich Käufe und welche nicht. Ich habe auch nicht herausgefunden, ob es hinter dieser Nommarierung von Place Order irgendeinen Zusammenhang gibt, wann die auftreten. Es ist nicht aus dem Datensatz ersichtlich gewesen. Wenn wir also mal die Interaktion mit den Käufen zu vergleichen, leider sind die Kästchen ein bisschen hell, von den 196 Tagen, an denen man interagiert hat, hat man am Ende nur an 24 Tagen gekauft. Also es ist ein viel, viel geringerer Teil. Aber man sieht den Dezember, der hat Katta auf jeden Fall viermal hintereinander gekauft und in ihren Daten habe ich außerdem gesehen, dass sie extrem interessiert an Büchern ist und im Dezember einfach mal 32 Bücher an vier Tagen gekauft hat. Wir lassen das Thema mit den Interaktionen und Käufen jetzt mal hinter uns und begeben uns auf die Orte, in denen Katta war, als sie auf Amazon herum gebroust ist. Als erstes ist mir aufgefallen, in Berlin ist sie am häufigsten im Internet auf Amazon. Okay, vielleicht wohnen sie da. Dann hat man Brandenburg und Schleswig-Holstein noch ziemlich häufig, weiß ich nicht, was der Bezug dazu ist, und dann so weniger häufig, aber auch existent Nordrhein-Westfalen und Niedersachsen. Ja, ich will es mal auf. Ich wohne in Berlin, das ist richtig. Und um aus Berlin rauszukommen, muss man grundsätzlich erstmal immer durch Brandenburg durch. In der Zeit, in der ich diesen Versuch gemacht habe, habe ich, bin ich beruflich nach Schleswig-Holstein gependelt. Das heißt, man konnte in dem Datensatz recht gut sehen, an welchen Tagen ich wo gearbeitet habe. In Nordrhein-Westfalen lebt meine Familie und immer, wenn ich nach Nordrhein-Westfalen gefahren bin, bin ich auch durch Niedersachsen durchgefahren. Und was mich so ein bisschen überrascht hat, war, dass ich an dem Datensatz schon vermuten konnte, wann ich meine Eltern besucht habe. Und das war dann doch ein bisschen creepy. Das ist aber nur die Spalte, die man anschauen kann, wenn es um die Bundesländer geht. Ah ja, und genau, woher weiß Amazon, dass in NRW meine Eltern wohnen? Ganz einfach, kurz vor Weihnachten, ratet mal, wo ich mal Pakete hingeschickt habe, weil ich auf den letzten Drücker gekauft habe. Und das sind solche kleinen Verbindungen, wo man wirklich sagen kann, na ja, wenn ich mehrere Datensätze als Amazon habe, kann ich da total einfach auch sehr private Details rausfinden. Genau, und als nächstes habe ich mir im Vorfeld die Internet-Service-Provider mal genauer angeschaut. Und da ist mir eins aufgefallen. Einige verraten, wo sie sind. So weiß ich zum Beispiel, dass Katta im Freifunk in Hamburg unterwegs war. Ja, bin ich immer umgestiegen, wenn ich nach Kiel gefahren bin. Und dann habe ich da was im Februar 2017 gesehen, da war sie auf dem Bahamas. Nicht was ihr denkt, das war Urlaub. Und im Juli 2017 war sie in Polen. Genau, das war ein Familienurlaub. Es gibt da noch einen anderen Aufenthalt, der mir aufgefallen ist. Und ich vermute, du hast eine Beziehung zu Universitäten oder Bibliotheken. Ja, ich schreibe tatsächlich am liebsten in der Bibliothek. Viele von euch werden den Verein zur Förderung eines deutschen Forschungsnetzes kennen, in Form von Etty Roam. Das ist die Einrichtung, die in Deutschland das Internet in Forschungsentrichtungen in Universitäten oder Bibliotheken zur Verfügung stellt. Und auch das sieht man in den Daten. Was Amazon irgendwie scheinbar beim Internet-Service-Provider macht, Sie erlauben nur 50 Zeichen. Und da ist der Name vom DFN definitiv zu langführen. Aber wir gucken mal, was du so in der Bibliothek machst, während du eigentlich arbeiten solltest. Du rutschst mal kurz aus zu Amazon, so wenige Sekunden, das kann mal passieren. Dann kommt das schlechte Gewissen wahrscheinlich. Dann hast du so eine Käufe oder so eine Aufenthalte von einer Minute, bestimmt gezielgerichtet irgendwas gesucht und für später weggespeichert. Was machst du eine 15 Minuten lang auf Amazon? Das kann man doch schon fast Prokrastination nennen. Anna, würde ich jetzt nicht so sagen. Nee, stimmt, denn wir haben noch was Besseres. Du warst über eineinhalb Stunden auf der Seite von Amazon. Reine Recherche. Was auf dieser Page-Action, die ich erwähnt habe, jetzt so häufig für die Nutzerinteraktion irgendwie hervorgetreten ist, dass Amazon ab einem ganz bestimmten Zeitpunkt versucht hat, herauszufinden, ob man den Tab gerade in den Vordergrund oder den Hintergrund legt. Da Katastatensatz jetzt nur ein Begrenzerdatensatz ist, kann ich nicht sagen, ob das Zufall ist oder Amazon versucht wirklich kontinuierlich die Erkennung zu verbessern. Da wird sie einfach wirklich wissen, wann interagiert man mit der Seite, wann legt man etwas in den Hintergrund. Ja, und spannend fand ich an dem Datensatz auch, dass man gar nicht so viel technischen Sachverstand auch benötigt, um sich ein grobes Bild davon zu machen, was da alles drin schlummert. Ich hab beispielsweise mal in der Spalte V geguckt, die Spalte V steht für Referrer und das kann man für Nicht-Techis übersetzen, ungefähr wie, na ja, woher kommst du denn. Das heißt, Amazon merkt sich, von welcher Seite ich sie ansörfe. Und in meinem Fall war es so, dass ich mehrere Artikel von Spiegel Online dann mit dem kompletten Link in meinem Clickstream gefunden hab und das ist deshalb interessant, weil man dann natürlich sagen kann, okay, welche Medien konsumiert dieser jemand eigentlich, aber vielleicht auch wofür interessiert er sich inhaltlich, außerhalb Amazon sonst noch. Ich hab auch einen Link gefunden vom Telepolis, von Heise Online, ein Artikel, in dem es um CETA geht. CETA ist das Handelsabkommen zwischen Kanada und der EU und das ist ein kritischer Beitrag und da kann man sich natürlich auch überlegen, okay, wenn Amazon wirklich weiß, von was für politischen Artikeln wir kommen, dann kann man daraus natürlich auch Rückschlüsse über das politische Mindset ziehen. In der Tat hab ich in der Zeit eine Kampagne gegen CETA in Schleswig-Holstein geleitet und deshalb bin ich auch gependelt. Und man kann gar nicht genug betonen, wie groß der Unterschied zwischen gekauften Produkten und geklickten Produkten ist. Also ich hab hier für diesen Vortrag mal alles, was ich in der Zeit gekauft hab, auf meinem Küchentisch trappiert. Wenn ich aber alle Produkte, die ich nur angesehen habe, auf ein Foto quetschen wollen würde, dann müsste ich nicht nur meine komplette Küche leer räumen, sondern wahrscheinlich meine ganze Wohnung. Denn das wird sonst nicht reinpassen, das ist viel, viel mehr. Was man den Daten außerdem gesehen hat, ist, dass man sagen kann, dass Cata auf jeden Fall über 500 Mal nach Begriffen gesucht hat und auch, dass sie ungefähr 450 Mal direkt auf Produkte zugegangen ist. Man kann aber schon sagen, dass es noch eine ganze Ecke mehr ist, weil das sind nur die Sachen, die offensichtlich waren. Und wenn man nochmal per Hand wieder in diesen Datensatz reinspringt und nach Mustern sucht, kann man auch sehen, dass es noch mehr Produkte sind, die man sich angeschaut hat. Ja, und ich hab mich dann natürlich gefragt, was sieht eigentlich jemand, der mich persönlich nicht kennt, nur diesen Datensatz sieht? Wen sieht er dann? Und finde ich das eigentlich okay? Und ich hab mir dann mal so einige Sachen angeschaut, die ich angeklickt hab, und mal aus unterschiedlichen Brillen betrachtet. Nehmen wir mal das Thema Lebensplanung. Stellen wir mal vor, jemand fragt sich so, na ja, was, wie stellt sich Katharina Noko und ihre Zukunft so vor, wie ist ihre Lebensplanung? Der guckt sich meinen Clickstream an. Was findet der da? Ich hab mir ein Buch angeschaut, das sich mit Pro-Argumenten fürs Kinderkriegen auseinandersetzt. Dann hab ich mir aber auch ein Buch angeschaut, das sich mit alternativen Partnerschaftsformen und Polyamorie auseinandersetzt. Und natürlich noch ein Buch von einer Aussteigerin, die sagt, ich werde der Konsumgesellschaft den Rücken kehren. Und wenn man diese drei Produkte und noch so ein paar mehr in der Richtung mal so zusammenlegt, wird man denken, okay, das ist zumindest eine außergewöhnliche, originelle, bis hin zu exotische oder vielleicht auch schwierige Lebensplanung, wenn man das alles unter einen Hut bekommen will. Aber wie ist es denn tatsächlich? Das Buch über Kinder hab ich mir angeschaut, weil ich auf den Autor aufmerksam geboren bin, weil ich den Block Spreeblick sehr schätze und schlichtweg wissen wollte. Na ja, was schreibt der Typ denn sonst noch? Bei dem zweiten Buch war es so, dass ich den Autor kenne, und er hat mich zur Lesung eingeladen. Da wollte ich mich vorher schlau machen, worum geht es denn eigentlich bei der Veranstaltung? Und bei dem dritten Buch ist es schlichtweg so, wir sind beim selben Verlag. Ich wollte einfach gucken, was hat der Verlag, bei dem ich bin, sonst noch in der Sachbuchsparte? Das heißt, Klickstream oder das Bild, das aus meinem Klickstream generiert wird und die Personen, die ich bin, sind womöglich zwei ganz unterschiedliche Dinge. Nehmen wir mal das Thema Gesundheit. Da wird es noch viel deutlicher. Ich habe mir Schnaps angeguckt. Dafür gibt es sogar eine eigene Kategorie bei Amazon, Alkohol. Und man konnte jetzt Vermutung anstellen, warum interessiere ich mich für Schnaps? Na ja, vielleicht habe ich ja gesundheitliche Probleme und möchte ein bisschen Selbstmedikation betreiben. Ich habe mir tatsächlich ein Buch über Arthose angeschaut, eine ziemlich schwere Krankheit. Und was noch viel erschreckender ist, ich habe mir nicht nur einen, zwei, drei, sondern sehr viele Bücher zum Thema Krebs angeschaut. Hier exemplarisch eins mit dem Titel Krebs natürlich heilen. Und wenn man meinen Klickstream so anschauen würde, würde man denken, Katharina Nukun ist ein gesundheitliches Wrack. Aber wie sieht es denn wirklich aus? Ich muss sagen, dieser Gin ist wirklich gut, ich trinke ihn wirklich gerne. Die Bücher über schwere Krankheiten habe ich mir aber deshalb angeschaut, weil ich eine Recherche betrieben habe. Ich wollte wissen, wie hoch ist der Anteil an esoterischen Quatschbüchern in der Amazon-Bestseller-Liste beim Thema Gesundheit. Und diese Intention sieht man aber nicht, wenn man nur den Klickstream sieht. Ich habe weder Krebs noch Arthose, noch irgendwelche Anzeichen dafür. Interessant wird es auch bei der politischen Einstellung. In meinem Klickstream finden sich unglaublich viele Bücher, die sich mit dem Thema AfD auseinandersetzen und zwar einmal kontra AfD, aber auch Bücher von Rechten, rechtsextremen Autoren und Verschwörungstheoretikern. Und wenn man nur meinen Klickstream betrachtet, wird man mich, glaube ich, für eine ziemlich merkwürdige bis unsympathisch Person halten. Und man wird denken, die ist rechts. Tatsächlich war es natürlich so, ich setze mich kritisch mit der AfD in meinem Block auseinander und habe recherchiert. Und da recherchiert man... Ja, die AfD kann wirklich niemand unterstützen, das muss man immer echt sagen. Ja, da wollte ich mir natürlich auch ein bisschen angucken. Naja, was schreibt denn so die rechte Ecke? Was publizieren so ein paar Schafmacher aus der rechten Ecke? Und wie hoch ist das eigentlich bei den Amazon Bestseller-Listen gerankt? Und wer aber nur meinen Datensatz sieht, der sieht das nicht, der wird mich vielleicht für rechtsextremen halten. Interessant werden solche Zusammenhänge, wenn man sich überlegt, wer ein Interesse an solchen Daten haben könnte. Denn wo Daten sind, entstehen schnell Begehrlichkeiten. Und natürlich gibt es auch Behörden, die durchaus ein Interesse daran haben können, solche Nutzerdaten abzufragen. Und zwar alles, was da ist. Und wenn der Klickstream da ist, dann wird der auch abgefragt. Und stellen wir uns mal vor, ein Polizeibeamter kommt auf die Idee, die Katter, die ist vielleicht cyberkriminell oder vielleicht ist sie auch ein potentieller Gefährder. Oder von ihr geht eine drohende Gefahr aus. Und wir wollen jetzt gezielt mal gucken, ob es irgendwelche Indizien gibt, die diese These stützt. Was sehen diese Leute? Naja, zunächst einmal findet sich auf meiner Liste ein so genanntes Killerspiel. Sieht dann schon mal extrem sympathisch aus, wenn man aus Behörden sich dann mal drauf guckt. Dann habe ich mir auch noch angeschaut, ein schwarzes T-Shirt mit einem Aufdruck auf dem steht. Chemist only because superwoman is not an official job title. Man könnte also denken, ich habe durchaus interessante Skills und Hobbys. Als nächstes ein verdächtig aussehender Gegenstand. Ein Kochtopf und eine Sturmmaske. Ja, und ich weiß nicht, wie ihr das seht, aber aus Behördensicht wird das überhaupt nicht gut für mich aussehen. Wenn man schon mal mit der Brille drauf guckt, naja, die könnte was planen, die könnte gefährlich sein. Ich glaube, an der Stelle wäre es dann höchste Zeit für den Hausbesuch. Aber ihr könnt euch natürlich denken, es gibt eine total einfache und harmlose Erklärung für jedes Produkt. Genau, könnt ihr ja jeder sagen, kommt hier vorne aus dem Publikum. Das wäre dann das Gegenargument. Und damit habe ich schlechte Karten. Und ich weiß nicht, wie es euch geht, aber ich finde, so eine Möglichkeit sich zu überlegen, was allein aus so einem Datenabfall an Konsequenzen für mich entstehen könnte im Worst Case-Szenario, extrem bedrohlich. Genau, und in Karte hat mir ihr Vertrauen geschenkt, dass ich die Daten anschaue und vertraulich behandle. Wie sieht das aber Amazon? Amazon ist groß, ziemlich groß. Er hat ungefähr 300 Millionen Nutzer. Und ich habe die Analyse für eine Person gemacht. Amazon kann natürlich die Analyse für alle Nutzer machen und erkennt darin Muster. Und weiß am Ende auch, welches Produkt mit welchem Warenkorb landet. Ja, und was bedeutet im Warenkorb landet? Also Amazon weiß beispielsweise, was kaufen Leute, die auch dieses Produkt gekauft haben. Und einfachstes Beispiel ist ja die Feinwaage. Amazon, als Koch, möchte man vielleicht exakt wissen, wie viel muss hier rein und wie viel habe ich jetzt hier reingetan. Und wenn man das aber kaufen will, kriegt man direkt so diese geilen Produktvorschläge. Durchaus ein Zeichen dafür, dass es auch andere Verwendungszwecke für Feinwagen gibt. Und ihr lacht, aber das könnte ... Das kann wirklich ernsthafte Konsequenzen für einen Menschen haben, wenn er vielleicht ohne es zu wissen in der Schublade landet, mit der er überhaupt nichts am Hut hat. Anderes Beispiel, wenn ich jetzt nach einem Glasschneider bei Amazon suche, kriege ich eine Sturmmaske empfohlen. Was man bei Ride Equipment empfohlen bekommt, kann sich der eine oder andere vielleicht denken. Und das ist ein Problem, denn ich weiß nicht, wie es euch geht, aber ich möchte gerne wissen, in welchen Schubladen ich lande. Und ich möchte da vielleicht auch mitreden, wenn diese Schubladen mir unangenehm sind. Oder vielleicht finde ich auch, dass das Schubladen einfach nicht geben sollte. Und das Problem ist, dass ich bei meiner Datenabfrage eben nur diesen winzigen, kleinen Moseikstein aus den großen Datensatz bekommen habe. Aber die eigentliche Information oder die Möglichkeiten der Auswertung für diesen einen Datensatz, die kann ich erst vollumfänglich erfassen, wenn ich das Ganze kenne. Das wird aber Amazon nicht rausrücken. Und Amazon wird auch keine Algorithmen zu such vorstellen oder sonst was rausrücken. Denn das ist natürlich ein Geschäftsgeheimnis. Und ich denke, aber das sind die eigentlich spannenden Daten, die wir brauchen, um uns wirklich ein Bild davon zu machen, wie dieses Unternehmen uns sieht und wie dieses Unternehmen uns auch gezielt manipuliert, um uns beispielsweise einzureden, dass wir mehr kaufen sollen. Und ich weiß nicht, wie ihr das seht, aber der Name Amazon ist super passend. Also ich weiß nicht, wer auf die Idee gekommen ist damals, aber es ist ein Knüller. Der größte Strom Südamerikas. Und er speist sich aus unglaublich vielen kleinen Bechen und Flüssen. Und genauso ist es ja mit Amazon. Ich habe in meinem Experiment nur einen einzigen Dienst von Amazon genutzt. Ich hätte den Versuch aber natürlich auch ganz anders machen können. Was wäre denn gewesen, wenn ich beispielsweise während der kompletten Zeit alle Videos, alle Filme, nur noch mit Amazon Prime gesehen hätte? Wenn ich mich entschieden hätte, in dieses Experiment Alexa, also Amazon Echo mit reinzufügen und mir das Ding vielleicht ins Schlafzimmer zu stellen. Ich glaube, der Datensatz wäre um einiges aufschlussreicher. Und ich für meinen Teil habe an dieser Stelle ganz bewusst am Anfang des Experiments entschieden. Nein, das möchte ich nicht. Nein, das geht mir zu weit. Ich stelle mir so ein Ding nicht in die Wohnung. Und ein paar Wochen war ich dann sehr froh, dass ich diese Entscheidung so getroffen hatte damals. Denn ich weiß nicht, ob ihr es mitbekommen habt. Es war groß in den Nachrichten. Ein Nutzer hat kürzlich bei Amazon seine Daten von Amazon Echo abgefragt und hat daraufhin den Datensatz einer vollkommen anderen Person zurückbekommen. Noch mal so als Hinweis, dass das Ding echt nicht ins Schlafzimmer gehört. Und ja, nochmal um es deutlich zu machen, wenn jemand wirklich all diese Dienste oder viele Dienste nutzt, dann lockt ihr euch meistens mit derselben Amazon-ID ein. Genau. Das ist ja auch das, was in einem Amazon-Datensatz gespeichert wurde. Wenn ihr woanders auf einem anderen Dienst geht, dann wird das einfach mit gelockt. Egal, ob das jetzt auch wegen der gleichen Lock-in-Adresse ist, ihr habt auf jeden Fall auch das im Cookie stehen, welche ID ihr dahinter habt. Ja, und ihr fragt euch ja jetzt, das ist ja schon gut, dass du deine Daten hast. Das ist toll für mich. Es gibt viele Wege, um an seine Daten zu kommen. Ich kann euch einfach mal erzählen, wie ich das gemacht habe. Zunächst einmal, ich habe mir die AGB durchgelesen, tatsächlich vollständig. Das ist ein ganz neues Erlebnis. Ich bin jetzt top informiert. Und ich habe mir die Datenschutzerklärung durchgelesen. Ja, und warum habe ich das gemacht? Sowohl in AGB- und Datenschutzerklärung sind schon mal so grob Datenkategorien angesprochen. Und die kann ich mir notieren, damit ich so weiß, was kann ich denn erwarten? Was sollte ich erwarten, was bei so einer Auskunft rauskommen sollte? Zusätzlich habe ich meinen gesunden Menschenverstand benutzt, um mal zu überlegen, um mal zu überlegen, was kann ich denn nach den Gesetzen der Logik erwarten? Also beispielsweise, ich bin auf Amazon, eine Woche später kriege ich eine E-Mail, wollen sie dieses Produkt nicht doch kaufen, also müssen die für eine Woche speichern, was ich geklickt habe. Das ist eine Lüge, weil sonst wird es technisch sehr schwierig sein, das umzusetzen. Und aus diesen Informationen habe ich dann eine Checkliste gebaut mit meiner Erwartungshaltung. Was erwarte ich, was in der vollständigen Antwort drin sein sollte? Und erst dann habe ich die Anfrage formuliert und gestellt. Und ich kann gar nicht oft genug betonen, wie wichtig es ist, bei Anfragen immer eine Frist zu nennen. Ja, ohne Frist wird sich da niemand bewegen. Zwar gibt es nach der Datenschutzgrundverordnung einen Zeitrahmen, in denen die euch antworten sollten, idealerweise innerhalb von einem Monat. Aber es schadet nicht, diese Frist trotzdem nochmal explizit reinzuschreiben und auch sofort nochmal zu erinnern, wenn die Zeit überschritten wird. Und motivierend kann natürlich auch sein, wenn man noch reinschreibt, na ja, wenn ihr nicht antwortet, müsst ihr wissen, aber dann wende ich mich eben an die Aufsichtsbehörden. Mit der Anfrage ist es leider noch nicht getan. Also, wenn ihr so eine Anfrage stellt, stellt euch auch eine Brieffreundschaft ein. Ist ja vielleicht auch was Schönes. Wenn ihr diese Anfrage stellt, werdet ihr zuerst mit hoher Wahrscheinlichkeit die Antwort zurückbekommen, na ja, schauen Sie mal in Ihrem Profil nach, da sind all Ihre Daten. Das ist natürlich Quatsch, da ist nur ein Bruchteil von den Daten, die ihr eigentlich haben wollt. Also verschicken wir einen Friendly Reminder. Als nächstes kommt vielleicht ein Brief, eine E-Mail, so ja, Ihre Daten und dann schaut ihr da rein und denkt so, okay, da hat jemand die Profil-Daten jetzt nochmal in PDF gepackt oder ausgedruckt. Ausgedruckt und wieder eingescannt. Genau, auch nicht das, was wir haben wollen, solltet ihr euch gar nicht damit drauf einlassen, damit zufrieden geben. Also, wieder Friendly Reminder. Dann habt ihr das nächste Level erreicht. Dann wird irgendwann die Einsicht kommen, so hoch, wir haben ein paar Daten gefunden, wir haben ihnen die jetzt mal geschickt. Das ist so die Stelle mit der CD. Und an der Stelle wird es eben spannend. Die Wahrscheinlichkeit, dass ihr dieses Spiel ein paar Mal wiederholen müsst, ist sehr hoch. Und irgendwann, wenn ihr das oft genug wiederholt habt, habt ihr dann euren Datensatz. Und diesen Datensatz könnt ihr dann nach belieben durch Suchen, durch Forsten analysieren und glaub mir, es lohnt sich. Denn es ist eine Sache abstrakt zu wissen, dass man überwacht wird auf Schritt und Klick und es ist vollkommen anderes. Sein eigenen kaputten Schlafgut muss der letzten anderthalb Jahre vor sich zu sehen. Und das ist etwas, das würde ich keinen Einzelhändler einvertrauen wollen. Und ich habe mir danach die Frage gestellt, möchte ich das. Und jeder, der so ein Datensatz sieht, wird sich diese Frage zwangsläufig aufstellen. Und in meinem Fall war es dann so, dass ich mich entschieden habe, in Zukunft meine gebrauchten Bücher direkt beim Anbieter zu kaufen, dass ich das noch wieder besuchen kann. Ich habe mir das gemacht, dass ich das ein bisschen zugelassen habe. Das ist ein sehr vieles. So dass ein oder andere Mal habe ich damit sogar Geld gespart. Und die Informationen darüber, was der Dienst speichert, ermöglicht uns ja auch, vielleicht zu sagen, ich nutze den Dienst in Zukunft anders. Oder aber ich nutze ihn vielleicht gar nicht mehr. Und wenn ihr ihn gar nicht mehr lustet, dann würde ich empfehlen, überlegt, dass wir nicht sagen wollen, das ist ein individuelles Problem von Nutzerinnen und Nutzer, die halt Amazon nutzen. Nein, das Problem ist, dass Amazon ähnlich agiert wie andere Dienste auch, um mal ehrlich zu sein. Überwachung ist längst zur Standard-Einstellung geworden. Und was das für den Einzelnen bedeutet, das wollten wir sichtbar machen, aber wir finden trotzdem, wir müssen alle gemeinsam dafür kämpfen, dass Datenschutz, Privatswerte, Datenspaßamkeit verdammt noch mal die Standard-Einstellung ist. Ja und damit sind wir auch schon am Ende. Mehr Infos und Formulare für eigene Datenanträge, Auskunft oder Löschanträge findet ihr bei mir im Blog. Und wer sich für die Datenanalyse interessiert, da habe ich veröffentlichlich auf Amazon, auf GitHub einen Repository, wo sich jeder auch die Daten anschauen kann und sich selber seinen eigenen kaputten Schlafrhythmus mal angucken kann. Vielen Dank. Wunderbar. Ein großen Applaus.